要分享這個題目,是因為前幾天我有個朋友,剛好就在一個創(chuàng)業(yè)團隊,他們的業(yè)務(wù)初步上線,效果比較好,但是有幾次業(yè)務(wù)出現(xiàn)問題,都是收到用戶反饋,然后才去排查,從發(fā)現(xiàn)到處理完成,時間已經(jīng)很長了。經(jīng)過幾次折騰,這時候才意識到監(jiān)控的重要性。
為了快速解決問題,他們使用了商業(yè)監(jiān)控方案,效果不錯,用了一周就完成了系統(tǒng)及業(yè)務(wù)層面比較全面的監(jiān)控,能做到業(yè)務(wù)有問題及時短信、郵件報警,然后快速處理。監(jiān)控系統(tǒng)上來之后,明顯縮短了業(yè)務(wù)故障的處理時間,提升了用戶的滿意度。
本文討論以下幾個問題:
那些企業(yè)適合使用公有云
公有云監(jiān)控的難點在那里
云上業(yè)務(wù)應(yīng)監(jiān)控那些方面
云上業(yè)務(wù)監(jiān)控的方法介紹
中小企業(yè)云上監(jiān)控的建議
那些企業(yè)適合使用公有云
云計算的概念熱了好幾年了,云計算、虛擬化對互聯(lián)網(wǎng)行業(yè)來說已經(jīng)是標配?;ヂ?lián)網(wǎng)行業(yè)現(xiàn)在都是使用各種云,或者使用公有云,或者自己搞私有云。大部分企業(yè)使用的是混合云,即私有云、公有云一起使用,而且即使使用公有云,也會選擇多家使用。
傳統(tǒng)行業(yè)現(xiàn)在也在積極擁抱云計算,各個行業(yè)都在將自己的業(yè)務(wù)和互聯(lián)網(wǎng)結(jié)合,向“互聯(lián)網(wǎng)+”轉(zhuǎn)變。
最開始擁抱公有云的是中小創(chuàng)業(yè)團隊,尤其是手游頁游興起的時候,云確實解決了中小創(chuàng)業(yè)團隊的痛點,不需要自己買服務(wù)器,自己建設(shè)數(shù)據(jù)中心,自己部署網(wǎng)絡(luò)。
中小創(chuàng)業(yè)團隊本來人力、資源緊張,云降低了他們的門檻,使他們可以專注自己的業(yè)務(wù)。初創(chuàng)的云計算公司和中小創(chuàng)業(yè)團隊,一起抱團,開始了云計算行業(yè)的第一波使用熱潮,目前這股熱潮還在繼續(xù)。
云計算是目前火熱的創(chuàng)業(yè)浪潮的加速劑,使創(chuàng)業(yè)變的更簡單,門檻更低。甚至,許多企業(yè)已經(jīng)養(yǎng)成了習慣,公司做大了,上市了,還繼續(xù)使用云,因為確實從云上嘗到了甜頭。國外還有一些例子,經(jīng)歷從云到自建,再到完全純云化的過程。
但是,企業(yè)上云只是第一步,業(yè)務(wù)在云上跑得如何,穩(wěn)定不穩(wěn)定,出了問題如何及時發(fā)現(xiàn),只有及早的發(fā)現(xiàn),甚至預(yù)警,才能盡量減少業(yè)務(wù)的影響時間和范圍,整個環(huán)節(jié)要依賴許多技術(shù)手段,監(jiān)控就是其中最重要的環(huán)節(jié)之一。
公有云監(jiān)控的難點在那里
第一個難點,公有云服務(wù)商不可能提供完善的監(jiān)控手段
從宿主機層面監(jiān)控云主機要做到準確很難,CPU利用率、網(wǎng)絡(luò)、磁盤IO,能做到近似準確,但是更細節(jié)的信息是沒有辦法看到的,比如到底是那個應(yīng)用使用CPU較多,更別說應(yīng)用層面指標的監(jiān)控。
而且即使目前公有云上提供的這些簡單的CPU、網(wǎng)絡(luò)、磁盤監(jiān)控,都是有時間限制的,從7天到30天不等,因為存儲長期的數(shù)據(jù),會消耗公有云運營商大量的存儲空間。
第二個難點,公有云服務(wù)器即使能提供完善的監(jiān)控服務(wù),用戶也很顧忌
公有云要提供完善的監(jiān)控數(shù)據(jù),必須在云主機內(nèi)部安裝客戶端程序,用戶一般都這個都很顧忌,公有云服務(wù)商也會很顧慮。
理論上,從宿主機上獲得正在運行的云主機上的數(shù)據(jù),難度很低,何況還安裝一個客戶端,大部分用戶是不放心的,前段時間,某云安裝在用戶云主機內(nèi)部的客戶端出現(xiàn)問題,更是一個佐證。
第三個難點,用戶要實施監(jiān)控,成本也比較高
使用云的以中小企業(yè)居多,這些企業(yè)的特點就是開發(fā)人員是個位數(shù),運維是開發(fā)兼任,最多一個人。這時候運維的主要職責是業(yè)務(wù)的部署,業(yè)務(wù)跑得穩(wěn)定最重要,對系統(tǒng)、業(yè)務(wù)的監(jiān)控只能做到很初級的監(jiān)控,很難做到非常細致的監(jiān)控。
云上業(yè)務(wù)應(yīng)監(jiān)控那些方面
企業(yè)實施在云部署業(yè)務(wù),需要監(jiān)控以下幾個方面的內(nèi)容:
1. 云服務(wù)器商的網(wǎng)絡(luò)質(zhì)量情況
這一點最容易被忽視,許多企業(yè)以為選擇了公有云,網(wǎng)絡(luò)質(zhì)量這里就萬事大吉了,放到公有云上面的業(yè)務(wù),肯定是要依賴網(wǎng)絡(luò)來開展服務(wù),有些業(yè)務(wù)對網(wǎng)絡(luò)質(zhì)量是非常敏感的,大部分云不提供網(wǎng)絡(luò)質(zhì)量監(jiān)控的,建議上云的企業(yè),對網(wǎng)絡(luò)質(zhì)量的監(jiān)控也要重視起來。
2. 云主機系統(tǒng)層面的監(jiān)控
云主機系統(tǒng)層面監(jiān)控包括云主機的健康狀況及CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤使用情況,監(jiān)控云主機主要是為了以下幾個方面:
云上業(yè)務(wù)監(jiān)控方法介紹
我們知道業(yè)務(wù)的監(jiān)控非常重要,那么監(jiān)控方法有那些:
1. 使用開源工具,網(wǎng)絡(luò)質(zhì)量監(jiān)控方面,可以使用開源的SmokePing,系統(tǒng)和業(yè)務(wù)方面,目前國內(nèi)比較流行的是Zabbix,也有其他監(jiān)控工具,比如Cacti等。這些工具的共同特點是:
云主機系統(tǒng)層面的監(jiān)控方法,監(jiān)控寶有針對云主機專用的解決方案。
中小企業(yè)云上監(jiān)控的建議
很多人認為已經(jīng)有開源的解決方案就沒有必要使用商業(yè)方案,其實中小企業(yè)非常適合使用商業(yè)方案,好處如下: