???????????? ICOS 高可用計(jì)算架構(gòu)

業(yè)務(wù)層高可用:確保業(yè)務(wù)高可用的關(guān)鍵在于能敏銳感知Hypervisor虛擬化層面異常事件并及時(shí)采取合適的保護(hù)動(dòng)作。ICOS的集群HA管理服務(wù)方案在計(jì)算主機(jī)配置云主機(jī)監(jiān)控服務(wù),輪詢底層虛擬化接口,關(guān)注虛擬機(jī)異常事件,例如“異常退出”。當(dāng)事件發(fā)生時(shí),云主機(jī)監(jiān)控服務(wù)封裝并發(fā)送“云主機(jī)異常退出通知”到集群HA管理服務(wù),由異常事件處理引擎甄別事件,并發(fā)送“云主機(jī)重啟”請(qǐng)求到ICOS計(jì)算服務(wù)接口,完成對(duì)問(wèn)題業(yè)務(wù)的恢復(fù)。

關(guān)鍵進(jìn)程高可用:如果要確保業(yè)務(wù)云主機(jī)的健康運(yùn)行,僅僅從Hypervisor層關(guān)注虛擬機(jī)是否宕機(jī)顯然是不夠的,因?yàn)樵趶?fù)雜的云環(huán)境下,業(yè)務(wù)的健康不僅取決于其掛載的后端分布式存儲(chǔ)是否可用,業(yè)務(wù)網(wǎng)絡(luò)是否暢通,還在于云環(huán)境中能否被良好地治理等諸多因素。在計(jì)算集群中,負(fù)責(zé)維護(hù)這些因素良好狀態(tài)的進(jìn)程就是我們所關(guān)注的“關(guān)鍵進(jìn)程”。ICOS的集群HA管理服務(wù)方案提供了一套高度可配置化,自由定制化架構(gòu)以實(shí)現(xiàn)對(duì)計(jì)算主機(jī)進(jìn)程的監(jiān)控:監(jiān)控進(jìn)程列表可配置,監(jiān)控腳本以及異常處理Action可以自定義,支持基于Action列表的工作流定制化。

系統(tǒng)默認(rèn)提供“嘗試重新啟動(dòng)失敗進(jìn)程”的處理方式,一旦目標(biāo)進(jìn)程發(fā)生異常,可以在數(shù)秒內(nèi)檢測(cè)到并恢復(fù)服務(wù)以解決問(wèn)題,如果多次嘗試無(wú)果,即自動(dòng)發(fā)送“進(jìn)程不可用”事件到集群HA管理服務(wù),由其通知云平臺(tái)Disable本節(jié)點(diǎn)計(jì)算服務(wù),使該計(jì)算主機(jī)不在為新建虛擬機(jī)提供計(jì)算資源,但并不妨礙既有業(yè)務(wù)運(yùn)行,這時(shí)配合外部的集群監(jiān)控系統(tǒng)告知運(yùn)維人員,使其進(jìn)行系統(tǒng)修復(fù),并可以將該修復(fù)方法定義為新的Action以實(shí)現(xiàn)系統(tǒng)的進(jìn)化。

主機(jī)高可用:各個(gè)計(jì)算主機(jī)上的主機(jī)監(jiān)控進(jìn)程集成了業(yè)界成熟開(kāi)源的高可用心跳檢測(cè)工具Pacemaker Remote,不僅可以提供高效率的運(yùn)行狀態(tài)探測(cè),而且突破了Pacemaker集群最多16節(jié)點(diǎn)的限制,極大地?cái)U(kuò)展了計(jì)算集群大規(guī)模彈性的上限。主機(jī)監(jiān)控進(jìn)程借助該工具感知集群Peer節(jié)點(diǎn)的運(yùn)行狀態(tài),一旦發(fā)生物理主機(jī)宕機(jī),那么就會(huì)由心跳集群主控節(jié)點(diǎn)的主機(jī)監(jiān)控進(jìn)程產(chǎn)生“宕機(jī)事件通知”,并告知集群HA管理服務(wù),并經(jīng)后者的事件處理引擎甄別,觸發(fā)ICOS計(jì)算服務(wù)的“云主機(jī)疏散”,將故障主機(jī)上的業(yè)務(wù)遷移到集群其他可用計(jì)算節(jié)點(diǎn),從發(fā)現(xiàn)宕機(jī)到虛擬機(jī)重啟并且能夠正常運(yùn)行,整體時(shí)間可以控制在1分鐘左右。此外,ICOS還可以基于可配置策略對(duì)物理主機(jī)進(jìn)行諸如重啟或者關(guān)機(jī)的相應(yīng)處理策略,從而防止業(yè)務(wù)虛擬機(jī)出現(xiàn)腦裂現(xiàn)象。當(dāng)主機(jī)故障清除后,主機(jī)健康運(yùn)行后,還可以根據(jù)配置策略決定是否自動(dòng)加入高可用監(jiān)控集群中,使得高可用的配置策略更加簡(jiǎn)單化、人性化。

借助于浪潮自研的高可靠分布式存儲(chǔ)以及ICOS全方位的集群高可用管理服務(wù),在主機(jī)硬件故障,機(jī)房斷電等不可抗因素引發(fā)宕機(jī)的場(chǎng)景下,ICOS確保業(yè)務(wù)連續(xù)性,有效降低宕機(jī)時(shí)間。

分享到

zhangnn

相關(guān)推薦