考慮到業(yè)務部門是隨機性的出現(xiàn)10分鐘左右的中斷,如果機器存在硬件故障,那么美信CreCloud云網(wǎng)管肯定也會有所體現(xiàn)。美信CreCloud云網(wǎng)管對ping值的反饋是默認每2分鐘一次,3000ms算超時,7*24小時任務制。我們查看ping的監(jiān)控點,同時自定義發(fā)生故障的日期,可以查看到在此期間,ping的服務成功率是100%,同時相應時間最長也不超過8ms,并沒有發(fā)現(xiàn)如業(yè)務部門所說的情況。
繼續(xù)檢查CPU利用率的情況,發(fā)現(xiàn)利用率較低,同時服務成功率也是100%。
在物理內(nèi)存方面的檢測依然沒有發(fā)現(xiàn)任何問題。
以同樣的方法在0.61的服務器上進行了排查,結(jié)果和上面的并無二致。因此可以判斷問題并不在網(wǎng)絡硬件方面。
最終與業(yè)務部門共同檢查,發(fā)現(xiàn)問題出在“應用”上。0.176上跑的是業(yè)務部門自己寫的一個服務。于是我們將該服務添加到美信CreCloud云網(wǎng)管的監(jiān)控點上繼續(xù)排查故障。最終發(fā)現(xiàn)該服務隨機性的掛死,在測試的兩個小時內(nèi),服務就掛掉了兩次。(在圖表中,實心區(qū)域是正常時間段,空心區(qū)域是服務失敗的時間段。)
在監(jiān)測數(shù)據(jù)列表中,還可以查看到發(fā)生故障狀態(tài)的具體時間,以及持續(xù)時間等詳細信息。
從業(yè)務部門提出疑惑,到我們給出專業(yè)的答案,整個過程不超過1個小時。領導對我們解決問題的速度和專業(yè)性提出了肯定。而這個過程中,美信CreCloud云網(wǎng)管這種高效的工作機制和準確簡單的圖表可以說是功不可沒。通過美信CreCloud云網(wǎng)管的圖表數(shù)據(jù),我們和業(yè)務部門找到一種更快捷也更準確的溝通方式。