為了保證郵件系統(tǒng)的持續(xù)穩(wěn)定高效,中國石油部署了郵件監(jiān)控系統(tǒng),實現(xiàn)了對郵件服務器、郵件應用進程等的監(jiān)控;部署了專業(yè)的網(wǎng)管系統(tǒng),實現(xiàn)了對企業(yè)網(wǎng)絡的監(jiān)控;部署了應用協(xié)議監(jiān)控系統(tǒng),實現(xiàn)了對關(guān)鍵應用協(xié)議,如SMTP、POP3、HTTP等的監(jiān)控。眾多IT監(jiān)控系統(tǒng)的部署,實現(xiàn)了對郵件系統(tǒng)的專業(yè)化、精細化管理,但是本文開始提出的五個問題,中國石油依然不得不面對,為了解決上述問題,中國石油按照以下的過程進行了基于業(yè)務服務管理的郵件系統(tǒng)運維平臺的建設。

1)信息整合

第一步,對郵件系統(tǒng)相關(guān)的IT信息進行整合。采用Novell提供的強大的數(shù)據(jù)集成技術(shù),從已經(jīng)部署的眾多IT監(jiān)控工具中捕獲IT信息,并集中到Novell的業(yè)務服務管理平臺。被集成的系統(tǒng)包括:上市和未上市的兩套郵件監(jiān)控系統(tǒng)、網(wǎng)管系統(tǒng)、協(xié)議監(jiān)控系統(tǒng)。被集中的數(shù)據(jù)包括:郵件服務器、應用進程的實時狀態(tài)信息和實時告警信息;網(wǎng)絡設備的實時狀態(tài)和實時告警信息;關(guān)鍵協(xié)議的實時狀態(tài);網(wǎng)絡鏈路、郵件服務器、應用進程的性能數(shù)據(jù)。

2)業(yè)務建模

第二步,在數(shù)據(jù)集中的技術(shù)上,進行業(yè)務建模。

首先,從郵件系統(tǒng)入手,理清了郵件系統(tǒng)本身各個組件的結(jié)構(gòu)、作用,以及各組件間的關(guān)聯(lián)關(guān)系,這些組件包括BE、DC、FE、Cluster、Mail;從網(wǎng)絡入手,理清了郵件服務器與網(wǎng)絡設備之間的連接情況,關(guān)鍵網(wǎng)絡設備的作用;從管理入手,理清了郵件系統(tǒng)的組織結(jié)構(gòu)和管理區(qū)域及權(quán)限。

其次根據(jù)掌握的信息進行建模。建模包括兩個方面,一是形成組件間的關(guān)聯(lián);二是在關(guān)鍵組件上部署邏輯算法。邏輯算法也是根據(jù)業(yè)務邏輯和IT管理規(guī)則制定的。邏輯算法的應用,極大的提高了根源問題定位的效率和準確性。以西南區(qū)域郵件系統(tǒng)為例,影響西南郵件的因素有三類:服務器,郵件應用協(xié)議,關(guān)鍵鏈路。通常,當連接某臺服務器的關(guān)鍵鏈路中斷時,相應的服務器及其上的協(xié)議也會顯示異常狀態(tài)。我們會看到大量告警節(jié)點和信息,無法判斷故障的根本原因(如圖1所示)。通過在關(guān)鍵點上設置邏輯算法,當發(fā)生上述異常時,只讓發(fā)生故障的關(guān)鍵鏈路節(jié)點變紅,而讓受之影響的服務器和協(xié)議節(jié)點出于靜默狀態(tài)(灰色顯示),從而使IT管理人員能夠直觀快速的判斷出故障的根源所在(如圖2)。

 

 

圖1:設置邏輯算法之前的業(yè)務模型

 

 

圖2:設置邏輯算法之后的業(yè)務模型

3)定制基于角色的業(yè)務視圖

第三步,在模型的基礎上,根據(jù)用戶的角色,定義直觀清晰的業(yè)務視圖(如圖3所示)。

 

圖3:郵件系統(tǒng)業(yè)務視圖

基于業(yè)務服務管理的郵件系統(tǒng)運維平臺的成功構(gòu)建,帶來了如下的好處:首先,將原來分散在四套IT監(jiān)控管理系統(tǒng)中信息集中在一起,提高了信息分析能力,降低了IT人員的工作負荷。其次,在郵件業(yè)務模型中的任何節(jié)點,均可進行根源問題分析和定位,提高了故障解決速度,也避免各系統(tǒng)之間的推委。第三,將具體的IT問題放到業(yè)務場景中進行評量,使IT人員能夠更為準確地在第一時間解決對企業(yè)業(yè)務最重要、最緊迫的IT問題。第四,通過建立多種業(yè)務監(jiān)控視圖,使監(jiān)控更為清晰和直觀,同時企業(yè)內(nèi)的非IT人員也能夠了解IT信息。

3業(yè)務服務管理的關(guān)鍵點

通過上述的業(yè)務服務管理實踐,我們可以發(fā)現(xiàn),數(shù)據(jù)整合和業(yè)務建模是實踐業(yè)務服務管理的兩個關(guān)鍵點,同時也是兩個難點。

信息整合具有如此重要的地位,是因為信息的完整性和實時性,以及信息集成的效率會影響到最終構(gòu)建的業(yè)務模型是否有效,進而決定IT運維的效率和效果。

業(yè)務建模是從業(yè)務出發(fā),將集中到一起的業(yè)務數(shù)據(jù)和IT數(shù)據(jù),根據(jù)他們之間的相互關(guān)系,以及業(yè)務邏輯、IT運維規(guī)則等進行組織,最終得到一個全面的、智能的業(yè)務模型。業(yè)務模型意義重大,通過業(yè)務模型,可以準確評估任何一個IT 組件的故障影響范圍以及對相關(guān)業(yè)務的影響程度;可以快速準確定位故障根源;還可以以板塊為視角、以項目為視角、以應用為視角、以基礎設施為視角、以不同層次的管理者為視角快速建立多維度、多層次的監(jiān)控視圖。業(yè)務模型的完善也是一個循序漸進的過程,不要指望模型能夠一次性完美建立。模型應該伴隨業(yè)務及IT的變化而同步調(diào)整和完善。在建模過程中讓業(yè)務部門充分參與進來也是建模能否成功的關(guān)鍵。

分享到

zhabin

相關(guān)推薦