在信息時(shí)代,數(shù)據(jù)是企業(yè)創(chuàng)造商業(yè)價(jià)值的生產(chǎn)資料,數(shù)據(jù)的丟失將為企業(yè)帶來毀滅性的災(zāi)難。據(jù)Gartner Group的調(diào)查數(shù)據(jù)表明,在經(jīng)歷過大型災(zāi)難或長(zhǎng)時(shí)間系統(tǒng)停運(yùn)的公司中,有2/5的公司再也未恢復(fù)運(yùn)行,而在其余的公司中,有1/3的公司在兩年內(nèi)破產(chǎn)。


    有句古諺叫“別把雞蛋放在一個(gè)籃子里”?,F(xiàn)在的信息系統(tǒng),各種數(shù)據(jù)高度集中,“雞蛋”全放在一個(gè)籃里了。一旦出現(xiàn)突然停電、意外死機(jī)或者人為破壞,造成數(shù)據(jù)丟失是不可避免的。面對(duì)各種未可預(yù)知的災(zāi)難,越來越多的企業(yè)將容災(zāi)備份系統(tǒng)作為企業(yè)安全的保障。


    容災(zāi)備份系統(tǒng)就是防止意外情況而采取的一種解決方案,其目的只有一個(gè),那就是保證數(shù)據(jù)安全。9•11事件中,紐約世貿(mào)中心大樓倒下的同時(shí),許多大公司的商務(wù)數(shù)據(jù)在瞬間“灰飛煙滅”,其價(jià)值比倒下的大樓價(jià)值高得多,但世貿(mào)中心最大的主顧摩根斯坦利公司因?yàn)閾碛羞h(yuǎn)程容災(zāi)備份系統(tǒng),其業(yè)務(wù)數(shù)據(jù)完好無損!


二、山東聯(lián)通簡(jiǎn)介


    中國(guó)聯(lián)通有限公司山東分公司(以下簡(jiǎn)稱山東聯(lián)通)是中國(guó)聯(lián)合通信有限公司(中國(guó)聯(lián)通)在山東省的分支機(jī)構(gòu),于1995年9月在濟(jì)南注冊(cè)成立,主要承擔(dān)聯(lián)通通信網(wǎng)在山東境內(nèi)的建設(shè)、經(jīng)營(yíng)和管理。
經(jīng)過多年的發(fā)展,山東聯(lián)通的整體實(shí)力在不斷的增強(qiáng),到目前為止,山東聯(lián)通是中國(guó)聯(lián)通最大的省級(jí)運(yùn)營(yíng)商之一,截至2002年,共有用戶400萬,并擁有一個(gè)大容量、高速率、覆蓋全省、連接國(guó)內(nèi)外的傳輸和移動(dòng)通信網(wǎng)絡(luò)。山東聯(lián)通的通信網(wǎng)已實(shí)現(xiàn)數(shù)字化、智能化、自動(dòng)化;長(zhǎng)途干線傳輸網(wǎng)全部實(shí)現(xiàn)數(shù)字化、光纖化,正在向全光纖聯(lián)網(wǎng)過渡。網(wǎng)上交換、傳輸設(shè)備基本采用了國(guó)際最新、最先進(jìn)的設(shè)備,在效能上具有極大的開放性和可擴(kuò)充性。經(jīng)營(yíng)的電信業(yè)務(wù)由成立之初的移動(dòng)通信(GSM)、無線尋呼發(fā)展到目前的移動(dòng)電話業(yè)務(wù)(GSM和CDMA)、長(zhǎng)途電話業(yè)務(wù)、本地電話業(yè)務(wù)、數(shù)據(jù)通信業(yè)務(wù)、無線尋呼業(yè)務(wù)、互聯(lián)網(wǎng)業(yè)務(wù)、電信增值業(yè)務(wù)、以及與主營(yíng)業(yè)務(wù)有關(guān)的技術(shù)咨詢和技術(shù)服務(wù)等其他電信業(yè)務(wù)。


    為了更好地支持山東聯(lián)通業(yè)務(wù)的迅速發(fā)展,應(yīng)對(duì)業(yè)務(wù)環(huán)境的不斷變化,向用戶提供更好的服務(wù),山東聯(lián)通把原來離散的、針對(duì)不同業(yè)務(wù)和不同地區(qū)用戶的IT支持系統(tǒng)整合成為了一個(gè)統(tǒng)一的業(yè)務(wù)支持系統(tǒng),整合后的業(yè)務(wù)支持系統(tǒng)使山東聯(lián)通更好地發(fā)揮了作為一個(gè)提供全面服務(wù)的電信運(yùn)營(yíng)商的綜合競(jìng)爭(zhēng)優(yōu)勢(shì),更充分地發(fā)掘了用戶需求,更好地推廣了新業(yè)務(wù),降低了系統(tǒng)的運(yùn)營(yíng)成本。


    但是由于山東聯(lián)通的業(yè)務(wù)全面地,高度依賴于這樣一個(gè)整合的支持系統(tǒng),所以要求該系統(tǒng)的可靠性必須達(dá)到一個(gè)更高的水平,系統(tǒng)必須具備容災(zāi)能力,因此,容災(zāi)備份系統(tǒng)成為山東聯(lián)通業(yè)務(wù)支撐系統(tǒng)必須建設(shè)的功能子系統(tǒng)。


三、山東聯(lián)通對(duì)容災(zāi)備份系統(tǒng)的要求


    (1)分散分布,互為容災(zāi)


    容災(zāi)備份系統(tǒng)的建設(shè)能夠大幅度提高業(yè)務(wù)支撐系統(tǒng)的可靠性,使系統(tǒng)對(duì)影響數(shù)據(jù)中心正常運(yùn)行的嚴(yán)重故障或事故(包括自然災(zāi)害、環(huán)境故障、人為故障等)具有抗御能力。但是,嚴(yán)重事故是偶發(fā)性的,容災(zāi)系統(tǒng)抗御嚴(yán)重故障和事故的能力是建立在系統(tǒng)擁有一定程度冗余配置基礎(chǔ)之上的。因此,建設(shè)容災(zāi)系統(tǒng)的時(shí)候,事先不仔細(xì)規(guī)劃,簡(jiǎn)單的冗余配置會(huì)在平時(shí)造成大量資源的巨大浪費(fèi),這種資源包括-機(jī)房環(huán)境、服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)資源、系統(tǒng)軟件和系統(tǒng)維護(hù)的人力資源投入。另外,容災(zāi)備份系統(tǒng)僅僅是業(yè)務(wù)支撐存儲(chǔ)系統(tǒng)中一個(gè)相對(duì)獨(dú)立的功能子系統(tǒng),由于這種相對(duì)的獨(dú)立性,使得業(yè)務(wù)支撐系統(tǒng)中的關(guān)鍵業(yè)務(wù)子系統(tǒng)可以互相利用對(duì)方作為容災(zāi)備份系統(tǒng)。


    山東聯(lián)通擁有多個(gè)具備生產(chǎn)條件的機(jī)房設(shè)施,這些設(shè)施之間具有良好的光纖通信資源?;谏鲜龅目紤],山東聯(lián)通從整個(gè)數(shù)據(jù)中心建設(shè)的高度出發(fā),提出了“邏輯集中,地理分布,互為容災(zāi),負(fù)載均擔(dān)”的數(shù)據(jù)中心建設(shè)思路。它要求容災(zāi)備份系統(tǒng)能把核心業(yè)務(wù)支持系統(tǒng)分布到多個(gè)地理上相隔離的機(jī)房,然后相互進(jìn)行容災(zāi)。在平時(shí),所有的資源都是被充分利用的,而發(fā)生災(zāi)難時(shí),子系統(tǒng)之間可以相互接替。


    (2)完整業(yè)務(wù)恢復(fù)


    當(dāng)生產(chǎn)點(diǎn)的業(yè)務(wù)數(shù)據(jù)無法訪問時(shí),容災(zāi)備份點(diǎn)保存有生產(chǎn)點(diǎn)業(yè)務(wù)數(shù)據(jù)的副本,這一數(shù)據(jù)副本能夠支持業(yè)務(wù)繼續(xù)在容災(zāi)備份點(diǎn)恢復(fù)運(yùn)行,但是二者之間通常是有差異的,這個(gè)差異被稱作RPO(以時(shí)間度量)。RPO為零,說明生產(chǎn)電和容災(zāi)備份點(diǎn)之間的狀態(tài)時(shí)刻保持完全一致,RPO為兩小時(shí),說明容災(zāi)備份點(diǎn)的狀態(tài)是生產(chǎn)點(diǎn)兩小時(shí)前的狀態(tài),此時(shí)如果生產(chǎn)點(diǎn)發(fā)生災(zāi)難,則容災(zāi)點(diǎn)將“丟失”災(zāi)難發(fā)生前兩小時(shí)的數(shù)據(jù)。雖然能根據(jù)對(duì)業(yè)務(wù)支持系統(tǒng)的全面分析,從業(yè)務(wù)系統(tǒng)的“外圍”系統(tǒng)中恢復(fù)數(shù)據(jù),但是這種“補(bǔ)充”恢復(fù)的手段通常會(huì)牽涉人工確認(rèn)干預(yù),不但耗費(fèi)大量的人力,而且還需要很長(zhǎng)的時(shí)間,這樣長(zhǎng)的時(shí)間是用戶不可接受的。


    由于山東聯(lián)通每天均有大量的業(yè)務(wù)進(jìn)行,因此,山東聯(lián)通要求容災(zāi)點(diǎn)的業(yè)務(wù)狀態(tài)和生產(chǎn)點(diǎn)必須保持足夠一致,如果用術(shù)語RTO來描述,就是RPO為0,即要做到業(yè)務(wù)狀態(tài)的完整恢復(fù)。


    (3)快速、多向?yàn)?zāi)難切換


    業(yè)務(wù)支撐系統(tǒng)要跟其子系統(tǒng)配合,才能夠支持整個(gè)業(yè)務(wù)系統(tǒng)的完整流程。因此,在業(yè)務(wù)支撐系統(tǒng)的容災(zāi)設(shè)計(jì)當(dāng)中,需要考慮和業(yè)務(wù)支撐系統(tǒng)相關(guān)的所有其他外部子系統(tǒng),當(dāng)災(zāi)難切換發(fā)生時(shí),和容災(zāi)點(diǎn)系統(tǒng)的配合問題,包括需要連接的服務(wù)器網(wǎng)絡(luò)地址的更改和相應(yīng)的存儲(chǔ)管理軟件設(shè)置調(diào)整等。


    考慮災(zāi)難切換,容災(zāi)備份建設(shè)么牽涉到數(shù)據(jù)復(fù)制模式、網(wǎng)絡(luò)連接方式、本地I/O性能、復(fù)制方向改變、復(fù)制端數(shù)據(jù)復(fù)用、復(fù)制端數(shù)據(jù)恢復(fù)時(shí)延、難易程度等問題。


    由于在同步數(shù)據(jù)復(fù)制模式下,復(fù)制端的數(shù)據(jù)和生產(chǎn)端能保持完全一致。當(dāng)操作切換到容災(zāi)點(diǎn)時(shí),業(yè)務(wù)狀態(tài)和災(zāi)難發(fā)生時(shí)生產(chǎn)點(diǎn)的狀態(tài)完全一致,不再需要人工干預(yù)進(jìn)行數(shù)據(jù)“補(bǔ)充”操作。信息系統(tǒng)部的技術(shù)力量可以完全從繁瑣的“數(shù)據(jù)”補(bǔ)充操作中解脫出來,將更多的精力投入故障分析、排除和生產(chǎn)點(diǎn)恢復(fù)的工作中。另外,在一定的應(yīng)用環(huán)境和網(wǎng)絡(luò)條件下,數(shù)據(jù)復(fù)制操作造成的寫I/O延遲增加很小,只占系統(tǒng)響應(yīng)時(shí)間的很小部分,從總體考慮,同步操作對(duì)應(yīng)用響應(yīng)時(shí)間造成的增加幾乎可以忽略不計(jì)。所以,山東聯(lián)通在容災(zāi)系統(tǒng)中選用了同步數(shù)據(jù)復(fù)制模式。


    基于主機(jī)的復(fù)制軟件通常僅支持IP網(wǎng)絡(luò),而基于存儲(chǔ)的復(fù)制軟件通常支持多種網(wǎng)絡(luò)技術(shù),包括裸光纖(或稱黑光纖DarkFiber)、DWDM、ATM、IP等。網(wǎng)絡(luò)連接方式不同,提供的帶寬不同,網(wǎng)絡(luò)自身造成的性能損耗也不同。對(duì)黑光纖而言,沒有協(xié)議損耗;而且理論上講黑光纖自身的帶寬極高,其限制在于上層的傳輸手段。而IP技術(shù),其軟件協(xié)議的特性會(huì)造成很大的網(wǎng)絡(luò)性能損耗。從這一點(diǎn)上考慮,山東聯(lián)通傾向于采用基于存儲(chǔ)的復(fù)制軟件。


    當(dāng)災(zāi)難發(fā)生后,容災(zāi)點(diǎn)接替生產(chǎn)點(diǎn)恢復(fù)業(yè)務(wù)。當(dāng)生產(chǎn)點(diǎn)故障排除后,通常需要將生產(chǎn)系統(tǒng)恢復(fù)回(Fail Back)原生產(chǎn)點(diǎn),而容災(zāi)點(diǎn)繼續(xù)承擔(dān)容災(zāi)的角色。在這一過程中,需要改變通常的數(shù)據(jù)復(fù)制方向,即將容災(zāi)點(diǎn)的數(shù)據(jù)復(fù)制回生產(chǎn)點(diǎn),這些數(shù)據(jù)是在容災(zāi)點(diǎn)運(yùn)行業(yè)務(wù)時(shí)新增的數(shù)據(jù)。這種反向復(fù)制并非只在真正的災(zāi)難發(fā)生時(shí)使用,聯(lián)通平時(shí)的容災(zāi)演習(xí)過程中,這一功能也是必不可少的。


    除此之外,山東聯(lián)通要求數(shù)據(jù)復(fù)制技術(shù)和應(yīng)用系統(tǒng)的界面清晰,也就是說在功能上,數(shù)據(jù)復(fù)制技術(shù)能靈活滿足各種應(yīng)用系統(tǒng),但不需要現(xiàn)有的和今后的應(yīng)用系統(tǒng)為數(shù)據(jù)復(fù)制功能實(shí)現(xiàn)做出更動(dòng);在性能上,它不干擾應(yīng)用系統(tǒng)的運(yùn)行,占用主機(jī)系統(tǒng)資源。這樣的數(shù)據(jù)復(fù)制技術(shù),除了滿足基本的容災(zāi)建設(shè)的需要外,還能夠更好地滿足山東聯(lián)通建設(shè)“負(fù)載均擔(dān),互為容災(zāi)”的系統(tǒng)構(gòu)想。


四、EMC的容災(zāi)備份方案


    經(jīng)過反復(fù)比較,山東聯(lián)通認(rèn)為基于EMC存儲(chǔ)系統(tǒng)的數(shù)據(jù)復(fù)制軟件SRDF(Symmetrix Remote Data Facility)軟件能夠很好地滿足容災(zāi)備份系統(tǒng)的要求,并采用SRDF軟件來建設(shè)山東聯(lián)通的第一期容災(zāi)項(xiàng)目,以實(shí)現(xiàn)容災(zāi)和資源共享。




    上圖就是山東聯(lián)通第一期容災(zāi)建設(shè)的結(jié)構(gòu)示意,在該結(jié)構(gòu)中,SRDF軟件使分別位于兩個(gè)數(shù)據(jù)中心的計(jì)費(fèi)系統(tǒng)和營(yíng)業(yè)系統(tǒng)數(shù)據(jù)相互復(fù)制。兩套系統(tǒng)的主機(jī)資源在正常情況下分別運(yùn)行各自的應(yīng)用系統(tǒng),在災(zāi)難發(fā)生時(shí),可接替對(duì)端的系統(tǒng)繼續(xù)提供業(yè)務(wù)支持。



    為了充分檢驗(yàn)技術(shù)方案、產(chǎn)品性能和功能,山東聯(lián)通對(duì)該容災(zāi)系統(tǒng)進(jìn)行了斷開一條鏈路、兩條鏈路全部斷開、機(jī)房災(zāi)難切換等容災(zāi)演習(xí)。結(jié)果表明,斷開一條鏈路,生產(chǎn)系統(tǒng)繼續(xù)運(yùn)行,所有對(duì)R1的修改通過其余的鏈路同步到R2設(shè)備,R1和R2設(shè)備仍然處于同步狀態(tài)。兩條鏈路全部斷開對(duì)生產(chǎn)點(diǎn)的應(yīng)用系統(tǒng)沒有影響,所有對(duì)R1的修改標(biāo)記在INVALID TRACK TABLE中,當(dāng)鏈路恢復(fù)后,自動(dòng)開始同步R1和R2設(shè)備,直到R1和R2設(shè)備處于同步狀態(tài)。在機(jī)房災(zāi)難切換中,一機(jī)房(災(zāi)難點(diǎn))的應(yīng)用在二機(jī)房(容災(zāi)點(diǎn))的主機(jī)上順利啟動(dòng),所有模擬災(zāi)難發(fā)生前的數(shù)據(jù)完全在二機(jī)房的應(yīng)用中可以訪問操作。當(dāng)前端應(yīng)用連接到二機(jī)房后,業(yè)務(wù)可以恢復(fù)運(yùn)行。而當(dāng)一機(jī)房恢復(fù)后,系統(tǒng)可以在很短時(shí)間內(nèi)迅速切回。在模擬災(zāi)難期間在二機(jī)房操作的模擬業(yè)務(wù)數(shù)據(jù),系統(tǒng)切回一機(jī)房后可同樣訪問操作。在整個(gè)演習(xí)過程中,沒有觀察到復(fù)制延遲,F(xiàn)ailover期間累積的836MB業(yè)務(wù)數(shù)據(jù)量,1分鐘內(nèi)就可重新同步99%的數(shù)據(jù),此時(shí)原生產(chǎn)服務(wù)器即可接管應(yīng)用。


    在實(shí)現(xiàn)硬件資源復(fù)用之后,為了進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)資源復(fù)用,使系統(tǒng)的投資回報(bào)更加增強(qiáng),山東聯(lián)通進(jìn)行了第二期項(xiàng)目,即容災(zāi)和數(shù)據(jù)復(fù)用。其結(jié)構(gòu)示意圖如下。



    在該容災(zāi)項(xiàng)目中,山東聯(lián)通利用EMC的另一個(gè)軟件TimeFinder對(duì)數(shù)據(jù)生成業(yè)務(wù)持續(xù)性卷(BCV),再將BCV數(shù)據(jù)開放給另外一臺(tái)主機(jī)專門其他應(yīng)用之用。


    在山東聯(lián)通,數(shù)據(jù)爭(zhēng)用是系統(tǒng)運(yùn)行當(dāng)中的一個(gè)問題。比如,營(yíng)業(yè)數(shù)據(jù)庫(kù)主要是支持營(yíng)業(yè)系統(tǒng)運(yùn)行,但是,各個(gè)地市分公司為了了解本地市的運(yùn)營(yíng)情況,通常需要查詢營(yíng)業(yè)數(shù)據(jù)庫(kù)以獲取最新的運(yùn)營(yíng)統(tǒng)計(jì)數(shù)據(jù)。在容災(zāi)系統(tǒng)上線之前,各個(gè)地市通過直接訪問營(yíng)業(yè)數(shù)據(jù)庫(kù)來實(shí)現(xiàn)上面的功能,這樣做一方面對(duì)營(yíng)業(yè)數(shù)據(jù)庫(kù)帶來額外的負(fù)載,影響生產(chǎn)運(yùn)行;另一方面,還存在安全隱患,威脅業(yè)務(wù)的穩(wěn)定運(yùn)轉(zhuǎn)。
TimeFinder軟件具有的數(shù)據(jù)實(shí)時(shí)備份功能,完全將地市查詢和生產(chǎn)系統(tǒng)的數(shù)據(jù)相隔離,既保證生產(chǎn)性能不受干擾,又確保數(shù)據(jù)安全,同時(shí)為查詢應(yīng)用提供了更大的靈活性,這一應(yīng)用甚至可以更改原有數(shù)據(jù)。


五、尾語


    EMC與中國(guó)聯(lián)通山東分公司的合作,是中國(guó)聯(lián)通公司首次采用該容災(zāi)系統(tǒng)來保證業(yè)務(wù)數(shù)據(jù)的正常運(yùn)行。借助EMC公司先進(jìn)的存儲(chǔ)技術(shù)和存儲(chǔ)產(chǎn)品,山東聯(lián)通實(shí)現(xiàn)了一個(gè)對(duì)生產(chǎn)系統(tǒng)影響最小的容災(zāi)系統(tǒng)。該容災(zāi)系統(tǒng)充分了利用現(xiàn)有服務(wù)器、網(wǎng)絡(luò)、機(jī)房環(huán)境、軟件和存儲(chǔ)資源,最大限度地減少了系統(tǒng)當(dāng)中的冗余設(shè)計(jì),最充分地利用了數(shù)據(jù)資源,提高投資回報(bào)水平。它建設(shè)的成功,為國(guó)內(nèi)擁有多個(gè)數(shù)據(jù)中心和它們之間有充足光纖資源的電信企業(yè),提供了容災(zāi)建設(shè)樣板。

分享到

多易

相關(guān)推薦