吳憂再一次侃侃而談。在系統(tǒng)設(shè)計中,企業(yè)一般會考慮做數(shù)據(jù)備份和采用主機集群的結(jié)構(gòu),因為它們能解決本地數(shù)據(jù)的安全性和可用性。這是針對慢性容災(zāi)的本地解決方案,如果當某臺主機出現(xiàn)故障,不能正常工作時,其他的主機可以替代該主機,繼續(xù)進行正常的工作。目前人們所注意到的容災(zāi),大部分也都只是停留在本地容災(zāi)的層面上。但對某些地區(qū)的某類企業(yè)來講,光有本地容災(zāi)是遠遠不夠的。其關(guān)鍵業(yè)務(wù)應(yīng)用,必須要防范地震、洪水、戰(zhàn)爭等自然災(zāi)難。因此應(yīng)該采用異地容災(zāi)的保護措施。一套完整的容災(zāi)方案應(yīng)該包括本地容災(zāi)和異地容災(zāi)兩套系統(tǒng)。
遠程容災(zāi)系統(tǒng)具備應(yīng)付各種災(zāi)難特別是區(qū)域性與毀滅性災(zāi)難的能力,具備較為完善的數(shù)據(jù)保護與災(zāi)難恢復(fù)功能,保證災(zāi)難降臨時數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運行,將損失降到最小。其系統(tǒng)一般由生產(chǎn)系統(tǒng)、可接替運行的后備系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、備用通信線路等部分組成。在正常生產(chǎn)和數(shù)據(jù)備份狀態(tài)下,生產(chǎn)系統(tǒng)向備份系統(tǒng)傳送需備份的數(shù)據(jù)。災(zāi)難發(fā)生后,當系統(tǒng)處于災(zāi)難恢復(fù)狀態(tài)時,備份系統(tǒng)將接替生產(chǎn)系統(tǒng)繼續(xù)運行。此時重要營業(yè)終端用戶將從生產(chǎn)主機切換到備份中心主機,繼續(xù)對外營業(yè)。
這種備份目前分為兩種形式,一種是歷史備份,一般采用每天凌晨備份的形式,出現(xiàn)問題可以恢復(fù)一天前的數(shù)據(jù)。如果對數(shù)據(jù)要求不是很高的話,可以采用三天,甚至一周備份的方式,可以節(jié)約很多成本。
那么我們泰坦要選擇多遠的距離來搭建異地容災(zāi)系統(tǒng)?幾公里?幾十公里?還是幾千公里?陳默還是不太明白。
吳憂說,這就需要根據(jù)企業(yè)自身狀況來定了。同樣是容災(zāi)系統(tǒng),如果容災(zāi)的目標只是在城市中防范火災(zāi)等較低級別的災(zāi)難事件,那么存儲在與應(yīng)用地距離幾公里的地方就能較好地滿足要求。如果是防水災(zāi),則要求它們之間的距離在數(shù)公里以上。如果是預(yù)防地震,則需要保持幾百公里的距離?;緛碚f,數(shù)據(jù)存儲距離與應(yīng)用地越遠,容災(zāi)性也就越強,100公里以上的異地災(zāi)難備份將是未來的一種趨勢。只要IP可達,并且網(wǎng)絡(luò)帶寬足夠,數(shù)據(jù)不再懼怕自然災(zāi)害。吳憂總結(jié)道。
還在對剛剛結(jié)束的地震痛定思痛的倪克聽完之后當場拍板,泰坦也要建異地容災(zāi)系統(tǒng),而且地點要選得遠一點,就在南方的沿海城市C城。隔著幾百公里,這下總安全了吧?
第四次沉沒Game Over
自從數(shù)據(jù)級、應(yīng)用級和異地容災(zāi)系統(tǒng)建成后,陳默覺得自己終于可以高枕無憂了。就算地震再來一次,公司的全部數(shù)據(jù)和應(yīng)用都可以實現(xiàn)異地切換。
不過,存好公司的咨詢部門給陳默打來電話說,泰坦目前在硬件上是沒有問題了,但做好容災(zāi)非一日之功,還需要進行一些“軟件工作”。這個軟件指的不是真正的軟件,而是指系統(tǒng)的日常維護和管理、流程和人員組織、容災(zāi)演習(xí)、策略和知識培訓(xùn)等工作,當然,流程咨詢、策略和知識培訓(xùn)是要收費的。
陳默把這個消息告訴了老板,并陳述了自己認為應(yīng)該做好容災(zāi)系統(tǒng)維護管理的幾條理由:第一,公司有上百個應(yīng)用系統(tǒng),不能停頓的關(guān)鍵業(yè)務(wù)就有40多個,系統(tǒng)很是復(fù)雜;第二,存好是容災(zāi)行業(yè)的領(lǐng)先公司,積累了大量的經(jīng)驗,給很多大企業(yè)做過容災(zāi),他們結(jié)合ITSM的先進理念,并形成了自己的方法論。另外,陳默曾參加了金融行業(yè)的一個容災(zāi)論壇,一些用戶的現(xiàn)身說法給他留下深刻的印象。所以,還是應(yīng)該請存好公司的咨詢部門來做顧問和培訓(xùn)。
讓陳默感到高興的是,倪克經(jīng)過前幾次事件的折騰,已經(jīng)吃一塹長一智,讓存好來輔助做服務(wù)的事很快就敲定了,費用馬上就批了。
不過,倪克約法三章:第一,日常維護等一些偏技術(shù)的事還是自己來吧,先不外包,不然公司白養(yǎng)了這么多的技術(shù)人員;第二,咨詢公司的費用照付,但要學(xué)到人家的策略和方法,培養(yǎng)自己在災(zāi)難恢復(fù)上的技術(shù)能力和管理能力,不能總是依靠外援,也不能總花冤枉錢;第三,要是培訓(xùn)完了再出問題,拿陳默是問。
一切進展還算順利,災(zāi)難風(fēng)險評估、業(yè)務(wù)影響分析、災(zāi)難恢復(fù)策略設(shè)計、詳細方案設(shè)計、容災(zāi)方案實施、災(zāi)難恢復(fù)計劃開發(fā)以及最后的災(zāi)難恢復(fù)測試和演習(xí)都按部就班。按照計劃,員工以部門為單位和以流程為單位分成幾個小組進行培訓(xùn)和演習(xí)。存好公司把整個咨詢過程分為三個部分:技術(shù)、人和流程。
在人的方面,存好公司把泰坦公司的開發(fā)人員和運營維護人員分開培訓(xùn)。在流程方面,根據(jù)公司的情況引進了ITIL(IT服務(wù)管理)體系,并根據(jù)國外電信公司的經(jīng)驗,結(jié)合泰坦公司的實際,分為事故管理、問題管理、配置管理、變更管理和發(fā)布管理等五個方面進行培訓(xùn)。
在實戰(zhàn)階段,存好公司對泰坦公司的數(shù)據(jù)中心、整個公司的大樓分布以及分公司數(shù)據(jù)中心情況都做了詳細的考察,包括網(wǎng)絡(luò)系統(tǒng)、服務(wù)器數(shù)量和存儲架構(gòu)、樓梯通道、電源系統(tǒng)等多個環(huán)節(jié)。通過需求分析,最終制定了容災(zāi)實施對策演習(xí)方案,并以泰坦全部員工都能聽懂的語言,從標準化管理、權(quán)限身份管理、通訊管理、遷移管理、預(yù)警管理等多個方面做了部署。
三個月下來,項目成功驗收,倪克對這個環(huán)節(jié)的工作相當滿意。存好公司咨詢部門撤出了項目組,不過離開之前再三叮囑陳默:“容災(zāi)成功的保障在于不斷循環(huán),在公司一定要形成制度,不斷強化,并根據(jù)新情況不斷演進和更新。千萬不要讓它成為只看不用的東西?!标惸c頭答應(yīng)。
接下來,陳默倒也按照存好公司的套路做了幾件事:一是成立日常專門運營小組,二是規(guī)范流程,三是以季度為單位進行不同災(zāi)難級別的日常演習(xí),四是把以上事項制度化。一年下來,泰坦公司果然平安無事。再后來,陳默由于業(yè)績赫赫,跳槽到另一家世界500強企業(yè)了。公司原運維部門員工被抽調(diào)組成新的增值業(yè)務(wù)部門。
陳默走了以后,關(guān)于容災(zāi)的管理、演習(xí)和執(zhí)行方案逐漸被淡忘。再半年之后,大家也都想不起來了。生意忙啊,別的事情先靠邊站吧。再說,哪有那么多的不測風(fēng)云。
2006年8月4日,歷史上最強的臺風(fēng)“超級瑪麗”登陸C城。“超級瑪麗”帶來了巨大的海嘯,海浪有幾十米高,鋪天蓋地撲向C城。C城短短時間內(nèi)就成了暴風(fēng)雨中飄搖的稻草。就在這同時,泰坦總部的信息中心因為雷雨天氣起火,IT系統(tǒng)突然宕機,員工們由于平時疏于防范,事發(fā)后亂成一團??偛康娜私oC城災(zāi)備中心狂打電話,想啟動異地災(zāi)備系統(tǒng)。但是,異地災(zāi)備系統(tǒng)再沒有回音。所有業(yè)務(wù)停滯,數(shù)據(jù)毀于一旦。
倪克馬上給存好公司打電話,吳憂只說了三句話,“容災(zāi)不是一勞永逸,沒有后期管理的容災(zāi)系統(tǒng)形同虛設(shè);世界上又少了一家公司;除了上帝,沒有人有辦法”。
Game Over!
鏈接:如何看待容災(zāi)的回報
一個容災(zāi)系統(tǒng),需要從軟件到硬件進行多方面的投入。一個完整的容災(zāi)方案,大概要投資幾百萬,甚至上千萬元。對企業(yè)來說,花這筆錢是否值得呢?
這里有一個表格,是日用百貨業(yè)的系統(tǒng)可用性與宕機時間、年宕機損失和金融業(yè)年宕機損失之間的關(guān)系。
在美國,如果某一家電信公司由于某種原因,業(yè)務(wù)需要中斷一小時,即這一個小時不能打電話,那么用戶會馬上選擇別的電信公司,成為其他公司的用戶。因而,用戶對可用性的要求越來越高,宕機一小時的損失越來越大。
系統(tǒng)可用性 宕機時間 年宕機損失 金融業(yè)年宕機損失
記者手記:自建、共建,還是外包?
容災(zāi)是自建、共建,還是外包?這一直是用戶爭議的問題。泰坦公司把容災(zāi)系統(tǒng)外包給了存好公司。這一選擇對泰坦公司來說,很適合。
因為,災(zāi)備中心需要投入大量的人力、物力及財力。自建、共建和外包三種建設(shè)方式各有利弊。自建方式具有投資巨大、建設(shè)周期長、技術(shù)與實施難度大、管理與維護要求高、運營維護成本大等特點,比較適合對風(fēng)險控制要求高、資產(chǎn)規(guī)模大、技術(shù)與管理實力強的企業(yè)。
共建方式具有投資少、技術(shù)與管理難度大、人員組織困難、責任不易界定、合作模式要求高等特點。
而外包是用戶花錢購買第三方的服務(wù),而不是自己企業(yè)內(nèi)部員工完成災(zāi)備任務(wù)。這種模式最突出的特點是用戶和IT企業(yè)各自能夠充分發(fā)揮自己的專業(yè)特長。
泰坦并沒有雄厚的資金,也沒有專業(yè)的IT服務(wù)團隊,從自身應(yīng)用需求的角度來看,也沒有必要獨自建一個龐大的備份中心去應(yīng)付小概率的災(zāi)難。因此,外包方式對泰坦這樣的中等企業(yè)來說是可行的一種方式。
容災(zāi)是個必答題,只是要把握好時機。容災(zāi)又是個選擇題,在決定建設(shè)之后,要選擇合理的建設(shè)方式和建設(shè)方案,在節(jié)省開支的情況下,保證重要業(yè)務(wù)數(shù)據(jù)得到很好的災(zāi)備,能達到防災(zāi)于未然、未雨綢繆的目的。