隨著云計(jì)算市場(chǎng)的不斷擴(kuò)大,數(shù)據(jù)中心服務(wù)器的規(guī)模也隨之快速增長(zhǎng)。在增長(zhǎng)的同時(shí),大規(guī)模數(shù)據(jù)中心在運(yùn)維層面面臨著巨大的阻礙因素。一邊是海量設(shè)備、高度復(fù)雜運(yùn)維環(huán)境的現(xiàn)實(shí),另一邊是提供高質(zhì)量的IT服務(wù),提升效率并降低成本的訴求,運(yùn)維團(tuán)隊(duì)面臨巨大挑戰(zhàn)。而對(duì)于數(shù)據(jù)中心面臨的挑戰(zhàn),勢(shì)必要在事前就制定各類風(fēng)險(xiǎn)的應(yīng)對(duì)策略。
TIFDS(Tencent & Inspur Fault Diagnosis System)是騰訊云與浪潮信息聯(lián)合研發(fā)的故障診斷系統(tǒng),是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱。該系統(tǒng)以騰訊云數(shù)百萬(wàn)服務(wù)器運(yùn)營(yíng)數(shù)據(jù)和浪潮信息深厚的固件研發(fā)專家經(jīng)驗(yàn)庫(kù)為基礎(chǔ),建立一套以帶外BMC為中心的故障診斷系統(tǒng),利用AI技術(shù)對(duì)海量服務(wù)器運(yùn)行數(shù)據(jù)實(shí)時(shí)分析,實(shí)現(xiàn)運(yùn)維工作由人工離線分析向自動(dòng)智能在線識(shí)別的方向發(fā)展。
據(jù)浪潮信息發(fā)布的白皮書(shū)介紹,TIFDS系統(tǒng)具有風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警,可結(jié)合AI智能算法,可對(duì)非宕機(jī)類故障進(jìn)行實(shí)時(shí)預(yù)警,降低服務(wù)器高負(fù)荷運(yùn)行下突然失效的風(fēng)險(xiǎn);同時(shí)具備障精準(zhǔn)診斷功能,基于浪潮信息構(gòu)建的專家經(jīng)驗(yàn)庫(kù),該系統(tǒng)可以將故障自動(dòng)明確化率提升至95%以上,精準(zhǔn)反饋故障觸發(fā)源,提升運(yùn)維效率;此外,TIFDS系統(tǒng)還具備日志定制化透明安全的特點(diǎn),浪潮信息創(chuàng)新性地按照騰訊云需求聯(lián)合定制日志輸出上報(bào)方式,使診斷過(guò)程清晰透明,并對(duì)疑難問(wèn)題進(jìn)行了識(shí)別并建立了線上聯(lián)合診斷系統(tǒng),不斷提升系統(tǒng)運(yùn)維效率。
在數(shù)據(jù)中心領(lǐng)域,開(kāi)放計(jì)算正成為當(dāng)前乃至未來(lái)數(shù)據(jù)中心的創(chuàng)新主力。作為開(kāi)放計(jì)算的倡導(dǎo)者和踐行者,浪潮信息將繼續(xù)堅(jiān)持開(kāi)放開(kāi)源的技術(shù)路線,攜手業(yè)內(nèi)優(yōu)質(zhì)伙伴,為數(shù)據(jù)中心發(fā)展和高效價(jià)值挖掘貢獻(xiàn)更多效能。