監(jiān)控數(shù)據(jù)中心要制定很多規(guī)劃,這是因為有許多不同的方面都需要進行監(jiān)控。你很容易將數(shù)據(jù)中心監(jiān)控看做是服務(wù)器上的制表工作,但實際上數(shù)據(jù)中心監(jiān)控比這要復(fù)雜的多。舉例來說,微軟出品的System Center Operations Manager可以在監(jiān)控Windows Servers上做大量工作,這樣所需的規(guī)劃配置就比較少。但如果你的服務(wù)器運行的不是Windows操作系統(tǒng),那么ystem Center Operations Manager就沒有用武之地。
除了服務(wù)器操作系統(tǒng)和應(yīng)用軟件之外,還有其他的要素需要進行監(jiān)控。舉例來說,保持數(shù)據(jù)中心溫度恒定的監(jiān)控就很重要。多數(shù)服務(wù)器都有內(nèi)置的安全裝置,如果服務(wù)器的溫度超出了特定的臨界值,安全裝置就會在危險發(fā)生之前關(guān)閉服務(wù)器。好的監(jiān)控解決方案應(yīng)該能夠告訴你數(shù)據(jù)中心周圍環(huán)境的溫度,如果指定服務(wù)器的溫度開始接近臨界值時,監(jiān)控解決方案就會向你發(fā)出警報。
能量管理也是如此。如果電源發(fā)生故障,備份電池應(yīng)該能讓服務(wù)器在線維系一定的時間。規(guī)格更高的數(shù)據(jù)中心可能還會配備備份發(fā)電機。無論如何,你都必須對電源故障提高警惕,你還需要有到位的解決方案來了解在某個指定時間能提供多少備份電源。
一項好的監(jiān)控解決方案必須向管理員發(fā)出有關(guān)服務(wù)器硬件,操作系統(tǒng)錯誤,應(yīng)用軟件錯誤,網(wǎng)絡(luò)硬件和環(huán)境改變的各項警報。這是一項苛刻的要求,退一步說,這也是為什么說正確的規(guī)劃如此重要的原因。就筆者所知,沒有單一的監(jiān)控解決方案能執(zhí)行所有的這些功能。網(wǎng)絡(luò)架構(gòu)師典型的做法是購買幾種監(jiān)控解決方案,對他們進行設(shè)置以統(tǒng)一的方式發(fā)出警報。這種警告可能是以文本信息的方式發(fā)送到管理員的移動設(shè)備或者電子郵箱,或者是以其他類型的警報形式發(fā)送到技術(shù)支持。重要的事情是所有的警報都到達同一地點。
虛擬化讓數(shù)據(jù)中心網(wǎng)絡(luò)監(jiān)控復(fù)雜化
當你采購監(jiān)控解決方案時,記住某些因素是很重要的,諸如虛擬化,它會讓監(jiān)控流程變得復(fù)雜。舉例來說,在市場上有各種監(jiān)控應(yīng)用軟件能夠監(jiān)控服務(wù)器硬件的故障情況。這種應(yīng)用軟件可能會對超標的服務(wù)器溫度,SMART磁盤警告或者服務(wù)器內(nèi)的制冷風扇故障做出提示。問題是如果監(jiān)控解決方案無法獲知他們監(jiān)控的是虛擬機,它也不可能知道硬件系統(tǒng)會對服務(wù)器可用性存在潛在影響。
監(jiān)控軟件處理的應(yīng)該是主服務(wù)器硬件出現(xiàn)的問題。但是如果主服務(wù)器處于危險之中,那么任何在主機上運行的虛擬機也面臨同樣的問題。因此如果你的企業(yè)想部署虛擬機,你就必須要辦法能區(qū)分物理服務(wù)器和虛擬服務(wù)器,了解那個虛擬機在那個主服務(wù)器上運行。在硬件發(fā)生故障時,你還必須具備將客戶端服務(wù)器快速遷移到不同主服務(wù)器上的能力。
最后,管理和監(jiān)控是息息相關(guān)的。只有企業(yè)具備完善的管理能力能才保證監(jiān)控發(fā)揮作用。舉例來說,如果管理員沒有辦法解決出現(xiàn)狀況的服務(wù)器發(fā)生的故障,監(jiān)控軟件又告訴你就要發(fā)生故障該如何是好呢?因此將監(jiān)控和將數(shù)據(jù)中心內(nèi)每臺服務(wù)器與每個硬件的主要組件的遠程管理相結(jié)合是非常重要的。