寧夏銀行信息技術部總經(jīng)理王春

更何況,寧夏銀行不過是一個資產(chǎn)總額不到400億,年利潤僅3.96億元的區(qū)域性商業(yè)銀行——即使是區(qū)域性商業(yè)銀行中,這樣的規(guī)模也難以數(shù)一數(shù)二。

長久以來的思維定勢,以及與國有商業(yè)銀行、外資銀行幾乎沒有可比性的IT投資,讓寧夏銀行這樣的區(qū)域性商業(yè)銀行與災難恢復系統(tǒng)幾乎無緣,在有限的經(jīng)費下支持現(xiàn)有的業(yè)務增長并盡可能利用高可用性技術保證系統(tǒng)運營,是此類銀行多年來的一貫做法。

但在2006年,王春仍然帶領他的信息技術部團隊,在2006年基于磁盤陣列的復制技術,完成了主存儲備份存儲的同步,提升了原有的雙機熱備使用共享存儲的架構的數(shù)據(jù)安全性,王春說,那時候他就在想,什么是適合寧夏銀行的災難備份,寧夏銀行應該防范什么樣的風險。

王春對于寧夏銀行到底應該如何防范風險,如何應對可能發(fā)生的影響業(yè)務的災難,已從那時起勾勒出了一個初步的模型,但當時,尚未有異地分行,且規(guī)?;瘶I(yè)務尚在發(fā)展初期的寧夏銀行,還沒有到考慮災難備份,尤其是異地遠程災難備份的岔路口。

隨著2009年寧夏銀行在西安設立分行,王春的未雨綢繆終于有了結果,他也終于等來了一個契機。

“后來人民銀行批準了我們在西安設立分行,可以跨地域跨省設置機構,異地災備變得具有重要意義,這時候異地容災具有意義,也有相應的條件了。”一直以來都在考慮災難恢復這件事情的王春感到了機遇,他看到為寧夏銀行建立一套更行之有效的災難恢復系統(tǒng)的機會到了,而現(xiàn)在,寧夏銀行也確實有了迫切的需求——已經(jīng)建立的西安分行亟需保護,待建的天津、蘭州分行同樣需要災難備份,而此時,寧夏銀行的業(yè)務規(guī)模和IT系統(tǒng)較四年前有了極大的發(fā)展,走向建立完備的災難備份系統(tǒng)成為必然。

但王春也意識到,有些事情不能夠勉強,這個樸實的西北漢子相信,首先要保證正常運營的機制是不是健全,然后再在這個基礎上再談災備,王春說,當時建立系統(tǒng)的時候,說是災難恢復,但其實,核心的目的是保證業(yè)務連續(xù)性,而非擔心那些看得見卻摸不著的自然災害和地球災難。

王春自己的做法:不跟四大行搞攀比

“以前災備系統(tǒng)都是四大行(國有四大商業(yè)銀行)做,現(xiàn)在(我們)采用適合自己的技術,自己也能夠做到,(保證)最低的投資和運營成本。”王春表示,采用更經(jīng)濟實惠、部署更快的CDP解決方案,對于寧夏銀行來說,其實完全能夠達到保證業(yè)務連續(xù)性要求的條件,四大行有四大行的做法,寧夏銀行有寧夏銀行自己的做法,“不跟四大行比,把運營做到最理想的狀態(tài)就好了。”

但在提到建設自己的災備系統(tǒng),尤其是選型的時候,王春卻閉口不提“災難”二字,他說,這是因為他自己覺得,大的災難也就是占整個IT系統(tǒng)風險的百分之一二,過分注重大型災難,“是把99%的投入去控制1%-2%的問題?!?/p>

隨著多年的研究和不斷的學習,寧夏銀行對風險的認識有了比較清晰的概念,王春認為,數(shù)據(jù)風險的種類就是三種:硬件設備故障、邏輯故障、災難事故,但在王春的概念里,這三類風險,最常見的就只有前面的兩種。

“在我的概念里,“災難”最常見的就是前兩種,從硬件設備故障來說,硬件設備、人為因素,這些都基于使用環(huán)境決定,日常我們要去巡檢、維護,保證正常運營,但是設備故障總是在所難免,這占到一半?!贝送猓褪沁壿嫻收?,類似數(shù)據(jù)庫崩潰、數(shù)據(jù)鏈路故障這些問題,也能夠占到IT系統(tǒng)風險的一大半,這兩項加起來,基本上就是寧夏銀行所面臨的所有問題。

王春不太健談,但是在接受媒體采訪時,說了很多“掏心窩子的話”

因此,王春認為,寧夏銀行所需要的就是全面防備前兩種風險的技術??能夠解決設備故障和邏輯錯誤的風險??同時實現(xiàn)寧夏銀行所承擔得起的災難備份,寧夏銀行要的并不是能夠和四大行或是“行業(yè)領先”攀比的災難備份系統(tǒng),而是一個切實有效防范最大可能發(fā)生的日常災難保證業(yè)務連續(xù)性運行的災備系統(tǒng),于是,飛康的CDP解決方案走進了王春的眼中。

王春說他只有簡單的兩個要求:“占用系統(tǒng)資源越少越好,發(fā)生故障切換越快越好?!?/p>

在談到飛康的CDP解決方案時,王春只是輕描淡寫的說,能夠提供CDP技術的在這一次項目招標中有很多家,CDP并非是高不可攀或是什么神秘的技術,談起為何做出最后的選擇,王春說,“產(chǎn)品的功能還是有差別的?!?/p>

顯然,從4月24日那天的情況來看,飛康CDP以實際的表現(xiàn),應該是令王春和在座的十幾家區(qū)域性商業(yè)銀行的來賓滿意了。

演練實況:從緊張到輕松的一個小時

“演練是對災備的最高的要求?!蓖醮涸诮邮苊襟w采訪時這樣表示,這個西北漢子卻毫無自夸的表情,在災備演練幾個小時前接受采訪的王春,當時還顯得略有些緊張,雖然偶爾會因為媒體的某個問題而眼前一亮,但很顯然,最讓他牽掛和放在心上的還是災備演練的現(xiàn)場。

在演練開始前,王春詳細的介紹了這次演練的兩種“突發(fā)情況”:數(shù)據(jù)庫系統(tǒng)癱瘓和數(shù)據(jù)中心發(fā)生火災??前者模擬寧夏銀行生產(chǎn)中心數(shù)據(jù)庫系統(tǒng)發(fā)生崩潰癱瘓的嚴重故障,測試根據(jù)需要啟動應急響應流程,進行本地的數(shù)據(jù)庫系統(tǒng)恢復;后者模擬生產(chǎn)中心發(fā)生一場大火,測試根據(jù)應急流程進行從銀川到西安的異地切換。

把真實的業(yè)務終端搬到演練現(xiàn)場,使用真實的數(shù)據(jù)和系統(tǒng)操作,這都是很少見的

從王春到演練的技術小組、觀察組、業(yè)務小組、跟蹤記錄小組到文檔管理小組,寧夏銀行將這次演練徹底當做真實突發(fā)的事件而非“模擬測試”來處理,甚至連測試用的都是真實的生產(chǎn)環(huán)境:真實的數(shù)據(jù)庫、真實的在線系統(tǒng)、真實的存取款記錄和真實的柜員終端。

雖然火災場景的恢復進度流程與本地數(shù)據(jù)庫癱瘓略有不同,但整個過程基本上都分為:接到災難宣告、CDP數(shù)據(jù)提取、主機系統(tǒng)加載、數(shù)據(jù)庫啟動、業(yè)務驗證等階段(火災模擬則增加了災備網(wǎng)絡檢查和前置變更環(huán)節(jié)),在整個演練過程中,從業(yè)務終端發(fā)現(xiàn)異常,到管理中心提交報告,再到冷靜的操作與系統(tǒng)切換,一切都顯得不慌不忙,就好像是一場平常的模擬。每個在座的人卻都知道,這樣一場演練,其實頗有些“不成功便成仁”的味道。

演練中,技術組的同事們卻顯得頗為輕松,但在之前的幾天,他們幾乎是每個深夜都在做準備工作。

在平靜的演練下其實在座的人也都發(fā)現(xiàn)了三點不同尋常的地方,第一是全程全部是寧夏銀行的員工在操作,全無來自飛康公司的協(xié)助;第二是全部步驟都銜接暢通,流程化管理十分有效;第三點當然是速度,整場演練,兩個場景加起來不過用時10分鐘:

第一場數(shù)據(jù)庫癱瘓演練,24日15時53分開始,至57分便已成功。

第二場火災演練,24日16時24分開始,至30分,文檔管理組便已記下成功切換的時間。

演練成功的證明,進度記錄表

兩場演練中,伴隨著IT人員通過拖曳鼠標,選擇數(shù)據(jù)恢復點,將數(shù)據(jù)恢復到系統(tǒng)運行的某一個正常時刻,兩場演練的時間加起來甚至都不到20分鐘,如果刨除行政請示、故障判斷,用來恢復的操作時間,甚至在幾分鐘內(nèi)便可完成??整個過程就像是重放一盤錄像帶般簡單:選擇時間,倒帶,然后正常播放。

事實上,在第二場演習成功之后,王春和他的團隊在不經(jīng)意之間,還完成了另外一個創(chuàng)舉:寧夏銀行的這場演習是區(qū)域性商業(yè)銀行中,第一個具備數(shù)據(jù)損壞修復演習場景的??演習中本地數(shù)據(jù)中心的數(shù)據(jù)庫已然崩潰數(shù)據(jù)中心已經(jīng)燒毀??這在整個災難備份的應用領域,曾經(jīng)都是一個難題,而現(xiàn)在,王春和寧夏銀行的IT團隊竟然在數(shù)據(jù)庫崩潰,數(shù)據(jù)損毀的時候,仍然成功的恢復了數(shù)據(jù)以及業(yè)務系統(tǒng)??你能希望的當然是擁有這樣的一個保證業(yè)務連續(xù)性的系統(tǒng)。

后記:災難恢復 不復雜但要用心

人們不禁在問,此前從未做過災備演練的寧夏銀行如何做到這三點?王春在采訪前其實就已經(jīng)“泄了密”。

“演練全部是自己的人員完成。”在采訪時王春透露,“體系結構很簡單,其實就是個軟件,不是復雜的硬件。”王春說,飛康CDP歸根結底就是去操作一個恢復軟件,做些設置,做些操作,其實非常簡單,經(jīng)過培訓,所有的流程都能夠由寧夏銀行自己的人員完成,根本沒什么難度。

對于流程化管理,王春表示,整個災難恢復的流程,都是他和信息技術部的同事們不斷完善整理出來的,要“用心”的根據(jù)寧夏銀行的情況,整理出適合自己的流程,然后才能夠在關鍵時刻不出問題,“災難恢復歸根結底是個流程問題。”王春是這么覺得的。

而對于切換的速度,王春在采訪時由于還未進行演練自然無法回答,但具備了獨立災備切換能力的寧夏銀行團隊,以及流程化嚴格約束的管理,再加上成熟的CDP業(yè)務連續(xù)性技術,答案不過就是“一層窗戶紙那樣薄”。

美國飛康軟件公司中國區(qū)技術總監(jiān)顏軍,演練中他基本上是“袖手旁觀”偶爾解答幾個技術問題

此外,值得注意的是,在有限的投資下完成的此次業(yè)務連續(xù)性系統(tǒng)建設,其基于的是一套完成的、能夠在統(tǒng)一的管理平臺下完成的災難恢復操作,而非復雜和多管理界面的煩冗程序。尤其是,這套系統(tǒng)在平時完全可以替代IT系統(tǒng)中的備份系統(tǒng),成為企業(yè)備份和容災系統(tǒng)的一體化替代解決方案。與此同時,完成本地和異地兩個現(xiàn)場演練的寧夏銀行,也證明了飛康CDP是一套“能夠同時解決本地和異地的不同容災需求”的解決方案??從備份到容災,從本地到異地,業(yè)務連續(xù)性從此有了一整套分層的具有高可用性的信心保障。

寧夏銀行的這樣一次演練,看起來雖然只是十幾分鐘內(nèi)的事情,但是卻說明了一個非常重要的問題:對于區(qū)域性商業(yè)銀行來說,災難恢復并非遙不可及,而技術也并非是萬能的能夠解決一切問題和需求,完成一個合格的災難恢復系統(tǒng),除了技術,關鍵是要用心,從人員培訓、流程管理、成本考量、系統(tǒng)實施,以及災備演練上,都要投以百分百的努力和認真,而這一點,正是王春和寧夏銀行信息技術部的同事們最為強大的地方。

雖然他們并沒有如四大行那樣多的資金,雖然他們僅僅只有23個人,雖然寧夏銀行并沒有采用神壇上最頂級的技術,但寧夏銀行仍然完成了一個符合其要求并真實可靠的災難恢復系統(tǒng)??成功的災難恢復系統(tǒng),除了技術、資金、人力之外,最需要的,還是那一份責任心以及獨立的思考。

寧夏銀行(原銀川市商業(yè)銀行)是銀監(jiān)會批準設立的由寧夏回族自治區(qū)兩級政府和企業(yè)組建的一家股份制商業(yè)銀行。成立十多年來,在各級黨委、政府的支持下,在社會各界的關心下,寧夏銀行始終堅持“服務地方經(jīng)濟、服務中小企業(yè)、服務城鄉(xiāng)居民”的市場定位,以支持地方經(jīng) 濟建設為己任,為促進地方經(jīng)濟社會發(fā)展做出了突出貢獻。

寧夏銀行為適應各項業(yè)務的迅猛發(fā)展,支撐跨區(qū)域經(jīng)營戰(zhàn)略的順利實施,保障核心業(yè)務系統(tǒng)安全、穩(wěn)定、持續(xù)地運行,增強抵御災難和防范系統(tǒng)故障的能力,2009年寧夏銀行將應用級災備項目建設列入IT建設計劃,并且災備中心選擇在了800公里之外的西安。經(jīng)過謹慎、嚴格的市場和技術調(diào)研以及對于金融系統(tǒng)災備建設以往經(jīng)驗的深入分析,寧夏銀行將飛康CDP技術的精準任意時間點定位、分層次本地/異地雙重恢復體系、全部災難的防御能力、設備故障的業(yè)務不停頓能力、遠程帶寬精簡技術引入到災備體系的技術架構中。隨著2010年4月24日實戰(zhàn)演習的成功,寧夏銀行容災項目的實施畫上了圓滿的句號。

內(nèi)部故障比大型災難更難防御

寧夏銀行在災備系統(tǒng)的籌備過程中認識到:大災的防御固然重要,而高發(fā)的故障防御更是不能疏忽,這一點多家銀行教訓深刻。如果建立異地災備體系之后,災備系統(tǒng)得不到有效利用,故障發(fā)生仍然只能聽天由命,這樣的災備體系實在是巨大的浪費。寧夏銀行在經(jīng)過多方考察后(對于多項災備技術進行了考察),認為在災難防御范圍上唯一能夠達到全面災難和故障防御的只有飛康CDP持續(xù)數(shù)據(jù)災備技術,這一技術不僅能夠防御大災,而且能夠?qū)⒋鎯τ布收虾瓦壿嫻收显诒镜鼐涂梢暂p松修復(不會出現(xiàn)數(shù)據(jù)丟失),其獨到的歷史錄像技術達到了精準定位歷史軌跡的程度,在各種災備技術中令人耳目一新。

利用飛康CDP實現(xiàn)本地、異地分層恢復體系

針對寧夏銀行的核心業(yè)務系統(tǒng)災備項目,飛康設計了一套災難和故障防御并舉、用戶行使恢復地點選擇權、任意歷史點恢復、用戶自行管理的集備份與遠程容災于一體的綜合數(shù)據(jù)保護解決方案。在生產(chǎn)機房通過部署飛康CDP管理器網(wǎng)關,對于核心業(yè)務系統(tǒng)提供本地的持續(xù)數(shù)據(jù)保護。在應用級災備的機房,同樣部署飛康CDP設備,形成了異地的連續(xù)數(shù)據(jù)傳輸。一旦發(fā)生生產(chǎn)系統(tǒng)故障,用戶可以選擇在本地立即恢復運行(一般在10分鐘以內(nèi)),也可以選擇利用異地中心的數(shù)據(jù)進行應用級恢復。尤其是存儲系統(tǒng)在發(fā)生故障時,甚至于業(yè)務系統(tǒng)都不會發(fā)生中斷,徹底解決了存儲故障這一最為嚴重的“殺手”,在出現(xiàn)數(shù)據(jù)庫癱瘓時,只需要啟用飛康技術的“錄像”精細化回放技術就可以在本地大幅化解風險,恢復系統(tǒng)。

在建設過程中,飛康CDP持續(xù)數(shù)據(jù)災備技術全部實現(xiàn)了其表述的各項特征,例如利用帶寬精簡技術達到了4M帶寬的災備復制,利用錄像定位技術實現(xiàn)了數(shù)據(jù)庫損壞、丟失等各類邏輯故障瞬間修復的能力,差異比對技術、快速寫緩存技術、存儲設備故障業(yè)務不中斷等等,均得到了充分的驗證。整個項目的實際實施速度極快,有效實施僅為2天。

寧夏銀行業(yè)務連續(xù)性架構

災備系統(tǒng)異地實戰(zhàn)演習成功

為有效驗證災備系統(tǒng)的各種防御水準,寧夏銀行在生產(chǎn)系統(tǒng)上大膽采用了不同的災備場景(數(shù)據(jù)庫癱瘓、火災)進行了800公里的異地切換和本地應急的實戰(zhàn)演習,有效地驗證了災備技術有效性和應急體系的完備性。2010年4月24日,在其科技人員自行的響應體系下,數(shù)據(jù)庫癱瘓和火災的不同災難場景,災備應急全部成功,異地切換、本地恢復全部成功,將金融系統(tǒng)災難恢復體系推向了新的高度。

行業(yè)

金融業(yè)

客戶背景

寧夏銀行(原銀川市商業(yè)銀行)是銀監(jiān)會批準設立的由寧夏回族自治區(qū)兩級政府和企業(yè)組建的一家股份制商業(yè)銀行,為自治區(qū)經(jīng)濟發(fā)展做出了重要的貢獻。

IT 環(huán)境

 IBM AIX UNIX

 Informix

 EMC DMX800

問題與挑戰(zhàn)

 業(yè)務壓力大、數(shù)據(jù)量積累多且增長迅速

 故障的防御能力欠缺,出現(xiàn)故障無法實現(xiàn)快速恢復,無法保證業(yè)務持續(xù)運行

 沒有異地災難快速恢復系統(tǒng),無法防制大型災難

飛康解決方案

FalconStor CDP

 持續(xù)數(shù)據(jù)本地保護

 持續(xù)數(shù)據(jù)遠程復制

 錄像歷史軌跡回放技術

效益

 多歷史點數(shù)據(jù)保護與快速恢復,使管理員可以從容應對數(shù)據(jù)庫邏輯錯誤、崩潰、人為誤操作、病毒黑客等諸多問題,有力保證業(yè)務連續(xù)性

 異地災難快速恢復系統(tǒng),全面防御各類大型災難。

 存儲設備遭遇災難時,確保業(yè)務不停機

 錄像級別的恢復能力,可以將數(shù)據(jù)恢復精細到任何一秒鐘

 管理簡單,備份策略靈活,大大簡化數(shù)據(jù)管理、數(shù)據(jù)備份、災難恢復三大工作的流程和時間

分享到

cuihao

相關推薦