從廣義上講,任何提高系統(tǒng)可用性的努力,都可稱之為容災(zāi)。但是,企業(yè)在容災(zāi)系統(tǒng)設(shè)計(jì)中一般的選擇是做數(shù)據(jù)備份和采用主機(jī)集群系統(tǒng),它們已經(jīng)可以解決本地?cái)?shù)據(jù)的安全性和可用性問(wèn)題。但這只是本地的數(shù)據(jù)容災(zāi)方案。隨著信息系統(tǒng)普遍成為企業(yè)運(yùn)營(yíng)的命脈,單一的本地容災(zāi)已經(jīng)遠(yuǎn)遠(yuǎn)不夠,通過(guò)構(gòu)造遠(yuǎn)程容災(zāi)機(jī)制來(lái)保證業(yè)務(wù)持續(xù)性,已得到企業(yè)管理者們普遍的認(rèn)可。然而,遠(yuǎn)程容災(zāi)技術(shù)的類型眾多,且架構(gòu)大多十分復(fù)雜,不但投入的軟硬件設(shè)備與時(shí)間成本龐大,后續(xù)的維護(hù)成本也高得嚇人,因此使得遠(yuǎn)程容災(zāi)系統(tǒng)的建設(shè)躊躇不前。
災(zāi)備系統(tǒng)的容災(zāi)技術(shù)實(shí)現(xiàn)是一個(gè)災(zāi)備系統(tǒng)建立的最為重要的考慮因素之一,這一因素的考慮是否完善,甚至于決定了災(zāi)備系統(tǒng)的成敗。因此,我們可以看到許多企業(yè)在下達(dá)了災(zāi)備系統(tǒng)建設(shè)任務(wù)之后,卻遲遲無(wú)法在技術(shù)方案的論證環(huán)節(jié)上達(dá)到統(tǒng)一,換句話說(shuō),找到一個(gè)完美的技術(shù)路線是那么的艱難。容災(zāi)技術(shù)是災(zāi)備系統(tǒng)的核心,從用戶切實(shí)的容災(zāi)系統(tǒng)技術(shù)和工程可行性出發(fā),下面我就對(duì)構(gòu)建容災(zāi)系統(tǒng)時(shí)需要考慮的技術(shù)因素進(jìn)行簡(jiǎn)單的分析:
(1)所防范的災(zāi)難范圍
也就是明確計(jì)算機(jī)系統(tǒng)需要承受的災(zāi)難類型,系統(tǒng)故障、硬件故障、數(shù)據(jù)邏輯受損、火災(zāi)及地震等各種意外情況所采取的備份、保護(hù)方案不盡相同。根據(jù)各行業(yè)的特點(diǎn)和國(guó)際上相關(guān)機(jī)構(gòu)的調(diào)查,硬件故障、人為錯(cuò)誤、軟件錯(cuò)誤居信息系統(tǒng)故障發(fā)生概率的前三位,自然災(zāi)害等屬于小概率事件,但由于破壞力大,也是災(zāi)備系統(tǒng)必須防范的重要內(nèi)容。從宏觀上看,現(xiàn)在人們經(jīng)常將災(zāi)難分為自然災(zāi)難和漸變性災(zāi)難(如人為的失誤型故障、黑客攻擊、斷點(diǎn)等)兩種,容災(zāi)實(shí)現(xiàn)的技術(shù)保護(hù)手段在抗擊這兩類災(zāi)難時(shí)一般是有所區(qū)別的。傳統(tǒng)的容災(zāi)手段一般重點(diǎn)集中在火災(zāi)、地震等大型災(zāi)難的防范上,防范軟件和人為錯(cuò)誤等的漸變性災(zāi)難大多依賴于備份軟件系統(tǒng),因此這類容災(zāi)系統(tǒng)并不具有涵蓋全系列災(zāi)難防范的內(nèi)容,因此一種新型技術(shù)CDP(持續(xù)數(shù)據(jù)保護(hù))的出現(xiàn),這種先進(jìn)的連續(xù)多版本數(shù)據(jù)保護(hù)技術(shù)CDP 則將各類災(zāi)難的類型均納入到防范和抗擊的范疇,并且在受損后的恢復(fù)技術(shù)上也作了極大的改進(jìn),能達(dá)到瞬間恢復(fù)的能力,這一切,都使得容災(zāi)技術(shù)更為完善和成熟,恢復(fù)技術(shù)日臻完善。
(2)容災(zāi)系統(tǒng)對(duì)企業(yè)當(dāng)前業(yè)務(wù)的影響程度
目前很多服務(wù)性行業(yè),如銀行、醫(yī)院等都要求其門戶系統(tǒng)保證7X24小時(shí)在線運(yùn)行,但在線系統(tǒng)的狀況可能略有不同,災(zāi)備系統(tǒng)的建設(shè)應(yīng)首先不修改現(xiàn)有生產(chǎn)系統(tǒng)的結(jié)構(gòu)(否則會(huì)可能產(chǎn)生對(duì)現(xiàn)有系統(tǒng)狀態(tài)的破壞和增加不穩(wěn)定因素,導(dǎo)致今后生產(chǎn)系統(tǒng)維護(hù)增加極大的難度),其次,容災(zāi)系統(tǒng)的實(shí)施應(yīng)采取最為簡(jiǎn)易和快捷的方式,工程上應(yīng)具有可操作性、周期的可控性,實(shí)施周期要短,這樣才能最大限度地減小對(duì)原有在線系統(tǒng)的影響,提高容災(zāi)系統(tǒng)建設(shè)的成功率。大多數(shù)的CDP解決方案應(yīng)為旁路的解決方案, 無(wú)需對(duì)現(xiàn)有系統(tǒng)進(jìn)行更改,不遷移不改變現(xiàn)有的數(shù)據(jù)結(jié)構(gòu),只需將CDP接入到現(xiàn)有的IP或FC交換機(jī)上,通過(guò)安裝在應(yīng)用主機(jī)的客戶端軟件將數(shù)據(jù)持續(xù)的保護(hù)到CDP設(shè)備中,達(dá)到快速部署的目的。
(3)災(zāi)難發(fā)生的業(yè)務(wù)停頓的容忍時(shí)間指標(biāo)
必須明確當(dāng)計(jì)算機(jī)系統(tǒng)發(fā)生意外無(wú)法工作時(shí),導(dǎo)致業(yè)務(wù)停頓所造成的損失程度,也就是定義用戶對(duì)于計(jì)算機(jī)系統(tǒng)發(fā)生故障的最大容忍時(shí)間。這也是設(shè)計(jì)容災(zāi)備份方案的重要技術(shù)指標(biāo)。對(duì)于容災(zāi)系統(tǒng)來(lái)說(shuō),它除了集群系統(tǒng)之外的其它容災(zāi)系統(tǒng),在災(zāi)難發(fā)生后都需有一個(gè)恢復(fù)的過(guò)程,尤其遠(yuǎn)程容災(zāi)的宕機(jī)時(shí)間最長(zhǎng),那怎樣來(lái)解決企業(yè)用戶對(duì)容災(zāi)系統(tǒng)所需的恢復(fù)時(shí)間呢?這也是CDP解決方案滿足業(yè)務(wù)系統(tǒng)恢復(fù)生產(chǎn)所需最小時(shí)間的一個(gè)優(yōu)勢(shì),CDP可以達(dá)到企業(yè)級(jí)用房所需的分種級(jí)恢復(fù)的時(shí)間要求,這種恢復(fù)時(shí)間都是一般容災(zāi)技術(shù)或容災(zāi)花費(fèi)開銷所不能及的要求。
(4)數(shù)據(jù)保護(hù)程度
是否要求數(shù)據(jù)庫(kù)可以恢復(fù)所有提交的交易并且要求實(shí)時(shí)同步數(shù)據(jù)也就是數(shù)據(jù)的連續(xù)性和一致性,決定了容災(zāi)備份方案規(guī)模和復(fù)雜程度的重要依據(jù)。傳統(tǒng)的容災(zāi)技術(shù)大多采用的是基于磁盤陣列或應(yīng)用主機(jī)來(lái)實(shí)現(xiàn)的,因此數(shù)據(jù)的同步都局限于數(shù)據(jù)盤的數(shù)據(jù)同步,同步鏡像技術(shù)可以達(dá)到數(shù)據(jù)盤的數(shù)據(jù)同步,異步鏡像無(wú)法達(dá)到數(shù)據(jù)盤的數(shù)據(jù)一致性,因此借住于快照技術(shù)達(dá)到目一時(shí)間點(diǎn)的數(shù)據(jù)盤的同步。但在技術(shù)中都無(wú)法確保實(shí)進(jìn)運(yùn)轉(zhuǎn)的在線業(yè)務(wù)系統(tǒng)數(shù)據(jù)的一致性。在恢復(fù)的可選程度上也有一定的局限,恢復(fù)當(dāng)前發(fā)生災(zāi)難這一刻的磁盤數(shù)據(jù)(主要針對(duì)大型災(zāi)難,漸變性災(zāi)難無(wú)法恢復(fù)),或恢復(fù)到通過(guò)快照技術(shù)所保留的某一時(shí)間點(diǎn)版本的數(shù)據(jù)(主要針對(duì)漸變性災(zāi)難,大型災(zāi)難也能用些方法),局限于快照技術(shù)及執(zhí)行快照?qǐng)?zhí)行者(磁盤陣列或應(yīng)用主機(jī))本身,兩快照之間的時(shí)間差是不可避免并且無(wú)法縮短到企業(yè)級(jí)用戶所期望間隔值。因此在最新CDP解決方案中充分考慮到傳統(tǒng)容災(zāi)技術(shù)在這方面的不足之處,體現(xiàn)在兩個(gè)方面:一是,快照技術(shù)的提升可以做到分鐘級(jí)的間隔,另外還集成了日志記錄技術(shù),可以記錄最近一段時(shí)間內(nèi)所有數(shù)據(jù)寫IO的情況,完全使得CDP解決方案可以使業(yè)務(wù)系統(tǒng)恢復(fù)到當(dāng)前災(zāi)難點(diǎn)到最近一段時(shí)間內(nèi)的任何一個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。二是,CDP解決方案可以感知業(yè)務(wù)應(yīng)用系統(tǒng),在執(zhí)行快照操作時(shí)會(huì)將實(shí)時(shí)在線業(yè)務(wù)處理的應(yīng)用系統(tǒng)在那一時(shí)刻點(diǎn)的數(shù)據(jù)全部刷入到數(shù)據(jù)磁盤,確保數(shù)據(jù)的一致性及可恢復(fù)性。
(5)技術(shù)的維護(hù)難度
由于長(zhǎng)期以來(lái),容災(zāi)技術(shù)的復(fù)雜性和高成本性,使得大量的容災(zāi)系統(tǒng)建設(shè)都呈現(xiàn)出維護(hù)難度大、傳輸故障的防范能力低、災(zāi)備演習(xí)難度大的特征。因此,選擇的容災(zāi)技術(shù)應(yīng)考慮到技術(shù)實(shí)現(xiàn)和管理的友好性和簡(jiǎn)易性,災(zāi)備中心管理人員的本地可自行維護(hù)能力是一個(gè)重要的因素,這是故障快速響應(yīng)和處理的一個(gè)基礎(chǔ),這樣才能使得多極的維護(hù)體系更為有效率、處理故障的能力更為強(qiáng)大。CDP解決方案在簡(jiǎn)單部署,簡(jiǎn)化管理方面一樣做的很到位,無(wú)需改變現(xiàn)有環(huán)境的簡(jiǎn)單接入、圖形化的人機(jī)對(duì)話界面、鼠標(biāo)方式的操作管理,極大的提高系統(tǒng)的可維護(hù)性及可管理性。
(6)最為容易忽略的一點(diǎn),容災(zāi)的技術(shù)手段是否適合于現(xiàn)有的所有參與系統(tǒng),能否面向今后可能加入的其他業(yè)務(wù)系統(tǒng)。
這一點(diǎn),成為目前容災(zāi)體系技術(shù)路線的討論中最為困擾各方的一個(gè)因素?;旌舷到y(tǒng)容災(zāi)、開放設(shè)備的選擇常常使得用戶的理想與技術(shù)現(xiàn)實(shí)產(chǎn)生鴻溝。如果能夠在本次建立容災(zāi)系統(tǒng)時(shí),采用面向未來(lái)的技術(shù),這樣就可以形成一次構(gòu)建,長(zhǎng)期受益的良好架構(gòu),而且今后的系統(tǒng)改造成本將會(huì)十分輕微,達(dá)到為全系統(tǒng)服務(wù)的長(zhǎng)期目標(biāo)。為此,CDP解決方案在這方面也做了一定的努力,不僅隔入了現(xiàn)有的容災(zāi)技術(shù)及對(duì)現(xiàn)有存儲(chǔ)設(shè)備和應(yīng)用主機(jī)平臺(tái)的支持,也加入了最新的容災(zāi)技術(shù)及接口協(xié)議等,做到了與應(yīng)用方機(jī)系統(tǒng),存儲(chǔ)設(shè)備接口協(xié)議、品牌的無(wú)關(guān)性,完全滿足未來(lái)企業(yè)系統(tǒng)擴(kuò)展的需求,而無(wú)需對(duì)現(xiàn)有已建系統(tǒng)的改造。
容災(zāi)系統(tǒng)建設(shè)的技術(shù)要素還有很多,但如果建設(shè)者能夠充分利用新一代的CDP持續(xù)數(shù)據(jù)保護(hù),牢牢抓住容災(zāi)系統(tǒng)規(guī)劃中最為重要的環(huán)節(jié),切實(shí)克服容災(zāi)系統(tǒng)建設(shè)的諸多需求,就能夠用有限的資金發(fā)揮更大的能量,達(dá)到事半功倍的效果,這也是筆者的目的所在。