OVH公司機(jī)架水冷系統(tǒng)

根據(jù)事故記錄顯示,P19數(shù)據(jù)中心亦在地下室內(nèi)部署有多臺(tái)設(shè)備,負(fù)責(zé)通過(guò)外界空氣實(shí)現(xiàn)冷卻效果。

OVH公司于2012年從EMC手中購(gòu)買(mǎi)了數(shù)臺(tái)VNX 5400陣列。此次發(fā)生事故的陣列在其三臺(tái)機(jī)架當(dāng)中裝有96塊SSD、15套本地磁盤(pán)架以及標(biāo)準(zhǔn)的主動(dòng)-主動(dòng)控制器對(duì)。該公司表示:“這套架構(gòu)的設(shè)計(jì)目標(biāo)在于確保數(shù)據(jù)的本地可用性以及數(shù)據(jù)控制器與磁盤(pán)的強(qiáng)大容錯(cuò)能力?!?/p>

在此之后,該公司又陸續(xù)開(kāi)發(fā)出新的解決方案,其被應(yīng)用于格拉沃利納數(shù)據(jù)中心,能夠通過(guò)非專(zhuān)用商業(yè)陣列配合Ceph與ZFS以擺脫對(duì)專(zhuān)用設(shè)備的依賴(lài)。事實(shí)上,此次受到影響的陣列原本也已經(jīng)被納入清退計(jì)劃。這兩臺(tái)VNX陣列作為數(shù)據(jù)庫(kù)服務(wù)器使用,負(fù)責(zé)為托管網(wǎng)站的動(dòng)態(tài)頁(yè)面提供數(shù)據(jù)、用戶相關(guān)信息以及博客平臺(tái)中的文章文本與評(píng)論內(nèi)容。

根據(jù)事件報(bào)告撰文,“6月29日星期四下午6:48,P19數(shù)據(jù)中心內(nèi)的3號(hào)機(jī)房中,由于水冷系統(tǒng)的塑料軟管發(fā)生破裂,因而導(dǎo)致冷卻液泄漏至服務(wù)器系統(tǒng)之內(nèi)?!?/p>

“我們兩套專(zhuān)用存儲(chǔ)托架(機(jī)架)中的一套并未使用水冷機(jī)制,但由于位置毗鄰而受到影響,并直接引發(fā)電氣故障,最終造成該托架徹底關(guān)閉。”

OVH公司承認(rèn)其將兩種采用不同冷卻機(jī)制的服務(wù)器安裝在同一機(jī)房之內(nèi)是個(gè)錯(cuò)誤。“我們做出了錯(cuò)誤的判斷,我們本應(yīng)為這些存儲(chǔ)設(shè)施提供最大程度的保護(hù),正如我們?cè)谄渌军c(diǎn)中所做的那樣?!?/p>

故障,又見(jiàn)故障

在此之后,音頻警報(bào)系統(tǒng)內(nèi)發(fā)生的故障則更為復(fù)雜。能夠檢測(cè)機(jī)架內(nèi)液體的探針確實(shí)在整座數(shù)據(jù)中心之內(nèi)廣播了音頻警報(bào)消息。然而由于此前未能成功為該系統(tǒng)添加多語(yǔ)言支持功能,因此其警報(bào)時(shí)間點(diǎn)相較泄漏事故出現(xiàn)了延遲,并最終造成長(zhǎng)達(dá)11分鐘的時(shí)間間隔。

當(dāng)天晚6:59,工作人員嘗試重啟該陣列。當(dāng)天晚9:25,工作人員未能成功完成重啟,并決定采取雙管齊下的處理方式——繼續(xù)嘗試重啟該故障陣列(A計(jì)劃),同時(shí)嘗試?yán)脗浞輰⑵鋽?shù)據(jù)恢復(fù)至輔助系統(tǒng)(B計(jì)劃)。

A計(jì)劃

當(dāng)晚8:00,OVH方面向戴爾-EMC公司撥打求電話,并最終完成了陣列重啟。然而,運(yùn)行20分鐘后由于安全機(jī)制被觸發(fā),陣列再度陷入停止?fàn)顟B(tài)。面對(duì)這樣的情況,OVH公司技術(shù)人員決定從法國(guó)魯貝數(shù)據(jù)中心內(nèi)選定第三臺(tái)VNX 5400陣列并將受影響設(shè)備上的磁盤(pán)驅(qū)動(dòng)器轉(zhuǎn)移至新機(jī)架當(dāng)中,從而替換發(fā)生故障的電源模塊及控制器。

來(lái)自魯貝數(shù)據(jù)中心的這套系統(tǒng)于次日清晨4:30被運(yùn)送至巴黎數(shù)據(jù)中心,6:00全部磁盤(pán)驅(qū)動(dòng)器轉(zhuǎn)移完成。同日早7:00,替代系統(tǒng)啟動(dòng)完成,但遺憾的是磁盤(pán)上的數(shù)據(jù)仍然無(wú)法訪問(wèn)。OVH于早8:00再次聯(lián)系戴爾-EMC技術(shù)支持人員,并申請(qǐng)了現(xiàn)場(chǎng)服務(wù)。

B計(jì)劃

B計(jì)劃使用的資源來(lái)自一套日常備份方案,OVH方面指出“這是一套全局基礎(chǔ)設(shè)施備份,屬于我們業(yè)務(wù)恢復(fù)計(jì)劃中的組成部分,而非客戶能夠直接訪問(wèn)的數(shù)據(jù)庫(kù)快照?!?/p>

“進(jìn)行數(shù)據(jù)恢復(fù)不僅意味著需要將備份數(shù)據(jù)由冷存儲(chǔ)介質(zhì)遷移至共享托管技術(shù)平臺(tái)中的空余空間內(nèi),同時(shí)說(shuō)需要對(duì)整體生產(chǎn)環(huán)境進(jìn)行重建?!?/p>

具體來(lái)講,為了完成數(shù)據(jù)恢復(fù),OVH公司需要:

這一流程此前雖然進(jìn)行過(guò)基礎(chǔ)測(cè)試,但卻從未以高達(dá)5萬(wàn)個(gè)網(wǎng)站的規(guī)模進(jìn)行實(shí)際操作。整個(gè)流程通過(guò)腳本實(shí)現(xiàn),且直到次日凌晨3:00,虛擬機(jī)克隆工作才正式開(kāi)始進(jìn)行。

次日早9:00,已經(jīng)有20%的實(shí)例得以恢復(fù)。時(shí)間繼續(xù)推移,“次日晚23:40,最后一個(gè)實(shí)例的恢復(fù)工作終告完成,所有用戶皆可正常訪問(wèn)其站點(diǎn)。惟一的問(wèn)題在于,部分用戶原本托管的MySQL 5.1實(shí)例被恢復(fù)成了MySQL 5.5版本?!?/p>

后見(jiàn)之明

很明顯,受影響陣列的災(zāi)難恢復(fù)流程并不順利。而且盡管OVH公司的技術(shù)支持人員表現(xiàn)出色,但這種狀況本可以得到避免。

VNX陣列被安裝在了錯(cuò)誤的機(jī)房當(dāng)中,除此之外,其還缺少必要的故障轉(zhuǎn)移規(guī)劃。事實(shí)上,主動(dòng)災(zāi)難恢復(fù)計(jì)劃與測(cè)試并未能起到應(yīng)有的作用。

與受影響用戶間的溝通亦飽受詬病,OVH公司的表現(xiàn)相當(dāng)消極?!白鳛槭录钠鹪?,水冷系統(tǒng)冷卻液泄漏讓我們徹底陷入了恐慌?!?/p>

我們?cè)搹闹锌偨Y(jié)出哪些經(jīng)驗(yàn)?

分享到

崔歡歡

相關(guān)推薦