從“可選”到“必選”

    作為青島市勞動和社會保障信息系統(tǒng)的副處長張帥來說,怎樣萬無一失地保證業(yè)務系統(tǒng)的不間斷運行,一直是最讓他牽掛的事情。

    說起來也難怪,一方面,現(xiàn)代企業(yè)和社會,對于信息系統(tǒng)的依賴性越來越強,并逐步成為其生存運轉的命脈:根據權威調查,企業(yè)如果在災難后兩個星期內無法恢復信息系統(tǒng)的使用,超過80%的公司業(yè)務將不得不停頓下來,而這會直接導致近一半的公司永遠關閉。如果信息系統(tǒng)停頓的時間超過一個月,那么幸存的公司不會超過20%。

    另一方面,火災、水災、爆炸、地震、雷擊或設備線路故障等自然原因以及黑客破壞、人為破壞等非自然原因引起的災難,又時刻縈繞在我們的周圍,使我們無法做到高枕無憂。如果說對于大多數(shù)企業(yè)而言,災難意味著財產和企業(yè)名譽的損失,那么對于“社?!边@樣重要的系統(tǒng),更要考慮到重大的社會影響和政治影響,這是一個任何人都難以承擔的巨大責任。

    據張帥介紹,關于社保系統(tǒng)安全與持續(xù)運行的問題,很早就列入了他們重點工作的日程表。青島市勞動和社會保障信息系統(tǒng)采用了全市大集中模式,并且包括多個業(yè)務系統(tǒng);同時,業(yè)務系統(tǒng)的數(shù)據流量、數(shù)據處理量和數(shù)據存儲量也越來越大。因此,業(yè)務系統(tǒng)的穩(wěn)定與否、系統(tǒng)的保護和數(shù)據的保護是否健全,已成為青島市社會保障業(yè)務系統(tǒng)正常運行的關鍵?!坝捎谌轂膫浞萆婕暗较到y(tǒng)的安全運營,而本身它又是面向未來發(fā)生概率較小的事件,因此我們更需要謹慎,尋找一個可靠穩(wěn)妥,切合我們工作實際需求的解決方案。”

    從現(xiàn)有的系統(tǒng)情況來看,數(shù)據集中處理的實施,讓勞動保障的業(yè)務運作、管理模式將越來越依賴于計算機系統(tǒng)的可靠運行。青島市各級勞動保障機構所提供服務的連續(xù)性以及業(yè)務數(shù)據的完整性、正確性、有效性,會直接關系到業(yè)務的生產、管理與決策活動。

    隨著時間的推移,對網絡、通信線路、服務器主機等關鍵硬件設備以及數(shù)據庫,應用服務器等軟硬件進行相應的故障保護和容災備份部署,已經由原來的“可選”變成了“必選”。因為一旦集中處理體系的任何一個環(huán)節(jié)因為火災、地震等導致異常情況,都會使正常業(yè)務無法正常進行,造成重要數(shù)據的丟失、破壞,使相關的青島市各級勞動保障部門的勞動保障經辦業(yè)務系統(tǒng)中斷,從而最終導致無法預計的后果。

    于是,尋找適合的災難備份系統(tǒng),成為他們當時最為迫切的任務。

    “適合”就是第一準則

    “雖然提供相關解決方案的廠商有不少,但是選擇起來卻頗費工夫?!睋撠熢擁椖亢笃趯嵤┑捻椖拷浝碲w軍介紹,“由于容災所承擔的是青島社保系統(tǒng)最關鍵的核心業(yè)務,其重要作用勿庸置疑,容災本身的復雜性也是十分明顯的,這就決定了該容災項目并不是簡單的產品方案采購,而是一項需要認真對待的系統(tǒng)工程?!?br />

    在考察了多家企業(yè)后,用戶最終把目光鎖定在了賽門鐵克的身上,除了因為賽門鐵克旗下的VERITAS遠程容災解決方案早已在業(yè)界聲名遠播,更重要的是,他們能夠從客戶的角度考慮問題。賽門鐵克的工程師在初期接觸項目時就建議用戶:備份容災是涉及到眾多技術以及眾多產品的解決方案。因此性能、靈活性以及價格都是必須考慮的因素,需要根據用戶的實際需求量身打造,而不是盲目選用最貴的產品。許多用戶的生產站點都是經過長期積累、多次改造后形成的,對于特殊的應用還采用特定的設備。那么當考慮構建容災站點時就必須把所有這些情況都考慮進來??“選擇適合自己的”是構建容災方案的一條基本準則。當然,賽門鐵克也建議與此同時用戶還要考慮長遠一些,盡量采用先進而不是將要淘汰的技術,畢竟冗余站點與生產站點一樣會長期使用。

    從具體的項目需求來看,青島市社會保障信息系統(tǒng)的故障恢復和災難備份系統(tǒng)的建設要求采用應用級別的容災方案,在系統(tǒng)建設過程中,不僅考慮數(shù)據中心端的容錯,還應該考慮對重要關鍵業(yè)務的系統(tǒng)進行異地容災備份和對重要數(shù)據的定時、實時備份。這樣不但保證了用戶的關鍵業(yè)務數(shù)據的不丟失性和高安全性,而且還避免了當生產中心發(fā)生意外災難時(如生產中心停電時間超過UPS保障時間1個小時),業(yè)務中斷時間過長等問題,將損失降到最低點,同時保障業(yè)務運行的持續(xù)性。

    “社?!钡谋kU方案

    在經過與用戶的多次討論和實際演練之后,最終選擇的解決方案技術條理已變得十分清晰。青島社保容災系統(tǒng)主節(jié)點為青島市勞動局的中心機房,同時,為了能夠在災難發(fā)生后,業(yè)務系統(tǒng)依然可以不間斷地被訪問,其在青島市社保機關大樓建立了一個備用系統(tǒng),以便適時接管業(yè)務。青島市社會保障信息系統(tǒng)數(shù)據中心與災備中心之間采用專線連接方式,通過主機邏輯卷遠程復制功能,實現(xiàn)數(shù)據的同步復制。




    數(shù)據中心數(shù)據庫服務器采用雙機集群配置,磁盤采用RAID技術提供磁盤鏡像,并配備磁帶庫數(shù)據備份系統(tǒng)。當某一通信線路、路由器、防火墻、交換機、服務器出現(xiàn)故障,相應的備份通信線路,以及冗余的路由器、防火墻、交換機、服務器接管工作。當數(shù)據磁盤出現(xiàn)故障時,可以采用RAID磁盤鏡像以及數(shù)據備份系統(tǒng)進行數(shù)據恢復。

    在災備中心相應配置一臺數(shù)據庫服務器、一臺應用服務器、一臺磁盤陣列、一臺備份服務器、二臺網絡交換機,二臺路由器。

    災備中心的業(yè)務數(shù)據庫和應用服務器采用與生產中心性能一致的主機系統(tǒng),進行單主機配置,磁盤采用RAID磁盤鏡像。當由于生產中心的災難造成數(shù)據丟失時,災備中心可以快速恢復生產中心的數(shù)據,以便快速恢復應用。

    為保證遠程數(shù)據同步復制的實現(xiàn), 兩個節(jié)點間通過10M SDH網絡互連, 兩個節(jié)點之間采用VERITAS的數(shù)據復制管理軟件VERITAS Volume Replicator,將數(shù)據庫和應用數(shù)據作遠程復制。VVR采用可靠的連接和監(jiān)聽協(xié)議,保證遠程備份站點與本地邏輯卷數(shù)據的一致性。該軟件能容忍網絡延遲:在同步模式下,若網絡發(fā)生堵塞,可自動切換到異步模式,當網絡恢復后,再重新同步。

    為了能夠監(jiān)測應用系統(tǒng)的運行情況,并能夠在災難發(fā)生時實現(xiàn)應用系統(tǒng)從青島市勞動局中心機房到備份中心的切換,青島社保選用專門的VERITAS Global Cluster Manager廣域網集群管理軟件來實現(xiàn)多集群的管理和應用系統(tǒng)的容災。GCM主要管理由青島市勞動局和青島市社保機關大樓兩個節(jié)點組成的廣域集群,集中管理廣域范圍的網管應用,并結合VVR做應用級的容災,在青島市勞動局和青島市社保機關大樓之間做自動的或管理員確認的或計劃內人工發(fā)起的網管應用切換。

    VERITAS的GCM還可以在青島市勞動局和青島市社保機關大樓之間建立心跳線以檢測兩地的系統(tǒng),一旦青島市勞動局系統(tǒng)發(fā)生故障,GCM將自動或由系統(tǒng)管理員確認或手工將網管應用在青島市社保機關大樓接管運行。由此保證網管系統(tǒng)的不間斷運行。另一方面,對于計劃內的停機情況,如青島市勞動局機房的地點整體搬遷,也可以手工將網管系統(tǒng)切換到青島市社保機關大樓運行,直到青島市勞動局的新機房建立好后再將網管系統(tǒng)切換回青島市勞動局。

    該容災備份建設結構可滿足未來幾年業(yè)務增長的需要,整個結構具有非常好的擴展能力以適應業(yè)務發(fā)展的需求。當業(yè)務增加、數(shù)據傳輸量增大、數(shù)據處理量增大、數(shù)據存儲量增大,可以通過增加相應的硬件設備來實現(xiàn)負載均衡、分布服務、高性能運行和容錯、容災。該系統(tǒng)投入運行以來, 運行正常, 性能良好。最終為青島市勞動和社會保障核心應用系統(tǒng)提供了7×24小時全面的數(shù)據和應用安全保障。

    附:


分享到

多易

相關推薦