2.高可用性方案
  
    上海熱線郵件系統(tǒng)是關(guān)鍵業(yè)務系統(tǒng),需要不間斷為客戶提供服務。即使發(fā)生短暫的業(yè)務中斷,也會導致難以估量的經(jīng)濟和名譽損失。然而, 由于系統(tǒng)磁盤,網(wǎng)卡等硬件故障,待人為誤操作或自然災害導致系統(tǒng)服務的無法訪問, 為此,在滿足系統(tǒng)對關(guān)鍵數(shù)據(jù)備份的要求之外, Veritas公司還提供了高可靠性的方案.
  
    上海熱線建立高可用的計算機處理系統(tǒng),首先在硬件上做到了各部件的冗余,三臺Sun E5500組成集群結(jié)構(gòu),使整個系統(tǒng)不存在單點故障, 三臺Sun 服務器連接共享外接存儲設備;將服務器上的兩個網(wǎng)口通過HUB等互連,實現(xiàn)服務器間冗余的心跳鏈路;最后,每臺服務器均有高速網(wǎng)口與Catalyst 5500連接,保證用戶對主機資源的冗余高效訪問。在此基礎上,每臺服務器各安裝一套VERITAS的Cluster Server軟件,組成多機集群高可用系統(tǒng)。VCS會在兩條心跳鏈路上傳輸高效的通信數(shù)據(jù)包,實時監(jiān)測其他主機系統(tǒng)和各種軟硬件資源的運行情況,如Oracle進程、網(wǎng)卡、IP、磁盤、文件系統(tǒng)等,當任何一種資源失效時,VCS即會按照預先定義的規(guī)則快速實行相應的硬件或應用切換。


    為有效使用VCS, 上海熱線采用VERITAS Volume Manager(VxVM)、VERITAS File System(VxFS)和Quick I/O(QIO)軟件來對關(guān)鍵計算機系統(tǒng)進行強化和改進,從而為整個系統(tǒng)的高可靠性和高性能打下結(jié)實的基礎。在此基礎上, 利用VCS進行自動化管理和使用,數(shù)據(jù)庫系統(tǒng)中三臺主機間的切換對用戶透明,故障發(fā)生時,不需要人為干預,而且切換的速度為秒級,速度快,采用了統(tǒng)一的Java GUI界面, 配置和管理簡單方便.



    VCS的管理流程比較簡單:
  
  •當一臺機器上的工作網(wǎng)卡發(fā)生故障時,VCS會自動地切換到另一塊網(wǎng)卡;
  •當一臺主機發(fā)生故障或關(guān)機時,VCS會自動地將其上的應用切換到另一臺機器;
  •當應用服務進程非正常終止時,VCS會自動重起相關(guān)進程,或?qū)⒎者M程切換到其他機器上
  •當系統(tǒng)需要進行維護時,可手工將應用從一臺機器切換到其他機器。
  
    VCS不僅可以實現(xiàn)系統(tǒng)級的服務器切換能力,而且提供強大的應用級服務器切換能力,表現(xiàn)在對任意應用可以進行檢測如數(shù)據(jù)庫,當一臺服務器的數(shù)據(jù)庫發(fā)生故障時,系統(tǒng)便會自動切換到另一臺服務器上的數(shù)據(jù)庫,由此服務器接管業(yè)務,并且還可以分為不同的資源組切換到不同的服務器,而且切換的速度很快,這一點對于應用是至關(guān)重要的。
  
    3.容災系統(tǒng)
  
    高可用系統(tǒng)雖然能夠做到計算中心系統(tǒng)的高可用,但有一個問題,如果一些不可抗拒的因素如地震、雷擊等把整個中心的一些關(guān)鍵系統(tǒng)破壞了,還是會導致應用系統(tǒng)的長時間中斷。而對于上海熱線郵件系統(tǒng)的24X7的關(guān)鍵業(yè)務,任何原因的短時間停頓都是不允許的,因此,上海熱線在涼城建立了一個具有容災功能的備份中心,當計算中心發(fā)生故障時,可由備份中心接管部分或所有的業(yè)務處理。


    上海熱線首先構(gòu)建了涼城備份中心主機網(wǎng)絡存儲系統(tǒng),安裝了相應的應用系統(tǒng),這些可基本上與漕溪節(jié)點的環(huán)境一致.其次, 為保證遠程數(shù)據(jù)同步復制的實現(xiàn), 兩個節(jié)點間通過DDN專線互連, 兩個節(jié)點之間采用VERITAS的優(yōu)秀的數(shù)據(jù)復制管理軟件Storage Relicator for Volume Manager(SRVM)。通過廣域網(wǎng)遠程連接,SRVM可向遠程備份系統(tǒng)同步進行邏輯卷復制,確保系統(tǒng)數(shù)據(jù)的高度可用。SRVM采用可靠的連接和監(jiān)聽協(xié)議,保證遠程備份站點與本地邏輯卷數(shù)據(jù)的一致性,為用戶關(guān)鍵應用的災難備份和恢復提供了有效的手段。該軟件能容忍網(wǎng)絡延遲:在同步模式下,若網(wǎng)絡發(fā)生堵塞,可自動切換到異步模式,當網(wǎng)絡恢復后,再重新同步.
  
    為了能夠監(jiān)測應用系統(tǒng)的運行情況,并能夠在災難發(fā)生時實現(xiàn)應用系統(tǒng)從漕溪中心到備份中心的切換,上海熱線選用專門的VERITAS 的Global Cluster Manager廣域網(wǎng)集群管理軟件來實現(xiàn)多集群的管理和應用系統(tǒng)的容災。
  
    該容災方案的工作原理如下:
  
    1.正常情況下,漕溪中心和涼城中心的系統(tǒng)均處于運行狀態(tài),但Mail業(yè)務處理系統(tǒng)只在漕溪涼城中心運行;同時,業(yè)務系統(tǒng)對數(shù)據(jù)的任何修改,會實時同步地復制到?jīng)龀卿钕行?BR>  
    2.當漕溪中心的某些部件發(fā)生故障,如進程出錯、內(nèi)存損壞等情況發(fā)生時,產(chǎn)生故障的機器上的應用系統(tǒng)會自動地由VCS快速切換到漕溪中心的其他機器,整個系統(tǒng)正常運行
  
    3.當災難發(fā)生,導致漕溪中心整個系統(tǒng)癱瘓時,Global Cluster Manager會馬上監(jiān)測到這種異常情況,及時向管理員發(fā)送各種警報,并按照預定的規(guī)則在涼城中心啟動整個業(yè)務應用系統(tǒng)
  
    4.漕溪中心的計算機網(wǎng)絡系統(tǒng)修復后,SRVM可將涼城中心的當前數(shù)據(jù)復制回漕溪中心,然后將應用系統(tǒng)從涼城中心切換回漕溪中心,涼城中心的系統(tǒng)重新回到備份狀態(tài)。
  
    這種系統(tǒng)結(jié)構(gòu),能很好應付各種軟硬件故障、人為或自然災害對計算機處理系統(tǒng)的影響,保護業(yè)務系統(tǒng)的不簡斷運行,是一個真正具有容災功能的高可用系統(tǒng),能夠保證上海熱線郵件系統(tǒng)的業(yè)務在任何情況下都能高效穩(wěn)定地運行。通過使用SRVM和VCS軟件, 可以保證備份中心與漕溪數(shù)據(jù)中心的數(shù)據(jù)同步,數(shù)據(jù)中心與備份中心的應用切換快速可靠,并可進行自動和手工切換,與高可用性方案有機集成,從單控制臺管理多個VCS集群系,實時監(jiān)測每個VCS Cluster的運行狀況,并可管理修改每個Cluster的配置,可根據(jù)用戶應用要求制定多種切換策略,使用與VCS一致的圖形界面,使系統(tǒng)的管理和維護非常簡單,當某個地域發(fā)生故障或災難而導致該地域的Cluster終止時,GCM會馬上監(jiān)測到,并可根據(jù)策略自動或手工快速地將應用切換到遠程的Cluster。配置和使用都及為方便.
  
    三.應用效果
  
    現(xiàn)在上海熱線五期擴容和異地容災工程已經(jīng)完成. 新改造好的系統(tǒng)可以滿足服務發(fā)展的需要. 自系統(tǒng)投入運行以來, 運行正常, 系統(tǒng)性能良好, 達到了預期目標. 通過Veritas數(shù)據(jù)存儲解決方案,不但提高了數(shù)據(jù)的存儲性能, 系統(tǒng)可以達到7X24小時不間斷工作, 滿足了高可靠性的原則. 該方案的順利實施, 成功地解決了系統(tǒng)應用數(shù)據(jù)量大, 數(shù)據(jù)安全和可靠性不高的問題,開拓了市場,產(chǎn)生了巨大的社會效益和經(jīng)濟效益.

分享到

多易

相關(guān)推薦