作為國內(nèi)頭部的云計(jì)算廠商,騰訊云運(yùn)營著一百多萬臺(tái)服務(wù)器。面對(duì)千萬級(jí)的測點(diǎn)及千億級(jí)的日均消息量,基于數(shù)據(jù)中心自動(dòng)化運(yùn)營的管理平臺(tái)“騰訊智維”,大規(guī)模落地基于AI、數(shù)字孿生等技術(shù),騰訊云數(shù)據(jù)中心顯著提升了運(yùn)營效率。
數(shù)據(jù)算法加持 走向“預(yù)測性維護(hù)”
目前,騰訊云已在數(shù)據(jù)中心規(guī)?;瘧?yīng)用AI和軟件機(jī)器人等技術(shù),基于數(shù)字孿生的智能化建模、基于數(shù)倉的數(shù)據(jù)治理等手段,實(shí)現(xiàn)數(shù)據(jù)和算法驅(qū)動(dòng)的預(yù)測性維護(hù)、智能化告警。
“騰訊智維平臺(tái)基于圖模一體化推進(jìn)事前(風(fēng)險(xiǎn)識(shí)別和預(yù)警)、事中(告警收斂和影響分析)、事后(事件回顧和設(shè)計(jì)優(yōu)化)管理,利用兩張圖(電力單線圖和暖通組態(tài)圖)融合物模型、實(shí)時(shí)數(shù)據(jù)、系統(tǒng)拓?fù)鋵?shí)現(xiàn)數(shù)據(jù)治理、容量管理、圖形可視化和仿真模擬,從系統(tǒng)角度實(shí)現(xiàn)自動(dòng)化和智能化運(yùn)維?!彬v訊云數(shù)據(jù)中心相關(guān)負(fù)責(zé)人表示。
風(fēng)險(xiǎn)識(shí)別和預(yù)警層面,AI 智能化技術(shù)已得到廣泛應(yīng)用。例如,騰訊云數(shù)據(jù)中心通過電池檢測模型,能實(shí)現(xiàn)對(duì)電池故障、壽命和容量的預(yù)測,提前14天發(fā)現(xiàn)隱患電池,在確保可靠性的同時(shí)延長電池使用周期;基于震動(dòng)/聲音/溫度/電流的頻譜分析和機(jī)器學(xué)習(xí),騰訊云數(shù)據(jù)中心能對(duì)電機(jī)和水泵進(jìn)行預(yù)警分析和故障診斷,例如底座不平衡、松動(dòng)、匝間絕緣等,可提前預(yù)警和更換,避免宕機(jī)事故。
告警收斂和影響分析層面,在監(jiān)控事件、告警運(yùn)營和輔助決策等智能平臺(tái)的支持下,騰訊云數(shù)據(jù)中心的告警準(zhǔn)確率已達(dá)98%,重大運(yùn)營風(fēng)險(xiǎn)主動(dòng)監(jiān)控率和事件處理效率達(dá)99%以上,此外,“運(yùn)營吹哨人”機(jī)制可實(shí)現(xiàn)一分鐘內(nèi)同步告警的影響范圍。
同時(shí),通過提升告警收斂技術(shù),騰訊云將能把99%的非高危風(fēng)險(xiǎn)工單進(jìn)行準(zhǔn)確收斂和自動(dòng)派單,極大降低運(yùn)維人員的心智負(fù)擔(dān),將重心轉(zhuǎn)移到故障分析、整改措施跟進(jìn)等工作中。
“未來,運(yùn)營人員軟技能的提升是數(shù)據(jù)中心運(yùn)營質(zhì)量的重要保證”,相關(guān)負(fù)責(zé)人表示。目前,騰訊云數(shù)據(jù)中心運(yùn)營團(tuán)隊(duì)正從“數(shù)據(jù)中心運(yùn)維工程師”向“基礎(chǔ)設(shè)施可靠性工程師(FRE)”轉(zhuǎn)型,不僅具備產(chǎn)品設(shè)計(jì)、數(shù)據(jù)分析和低代碼等技能,還能依托系統(tǒng)平臺(tái)和低碼平臺(tái)進(jìn)行管理,助力數(shù)據(jù)中心的運(yùn)維工作更加安全、智能和高效。
此外,面對(duì)千萬級(jí)的基礎(chǔ)設(shè)施測點(diǎn)規(guī)模,騰訊云通過AI實(shí)現(xiàn)了PUE自動(dòng)調(diào)優(yōu)。能夠在沒有人力投入的情況下,每天自動(dòng)完成對(duì)大規(guī)模集群的精準(zhǔn)調(diào)節(jié)。以南方某1000個(gè)機(jī)架的模組為例,每年節(jié)約電費(fèi)超過100萬。在具備冷源優(yōu)化條件的數(shù)據(jù)中心,騰訊云還在構(gòu)建風(fēng)冷系統(tǒng)的AI模型。
基于海量的經(jīng)驗(yàn)積累,通過將AI技術(shù)從標(biāo)桿項(xiàng)目推向全模組覆蓋,騰訊云數(shù)據(jù)中心將能基于更廣闊的場景和數(shù)據(jù),建立可長期演進(jìn)的數(shù)據(jù)中心可靠性模型。
建立物模型體系 推動(dòng)行業(yè)標(biāo)準(zhǔn)建設(shè)
基于長期的運(yùn)營經(jīng)驗(yàn)積累,騰訊云數(shù)據(jù)中心正在將自身經(jīng)驗(yàn)輸出給行業(yè),并推動(dòng)建立標(biāo)準(zhǔn)。
本次大會(huì)上,騰訊云數(shù)據(jù)中心發(fā)布了“達(dá)爾文物模型開放聯(lián)盟站點(diǎn)”。所謂“物模型”,指的是將數(shù)據(jù)中心型號(hào)繁多的設(shè)備進(jìn)行抽象歸納,形成行業(yè)標(biāo)準(zhǔn)。建立物模型體系,不僅能通過即插即用顯著減少接入工作量、實(shí)現(xiàn)規(guī)模效應(yīng),還能打通告警、變更等關(guān)鍵業(yè)務(wù)場景,拉通端、邊、云的整體鏈條。
“只有整個(gè)行業(yè)去推動(dòng)標(biāo)準(zhǔn),才能實(shí)現(xiàn)真正的即插即用,減少現(xiàn)場監(jiān)控系統(tǒng)調(diào)試,做到成本的最優(yōu)解?!彬v訊云相關(guān)負(fù)責(zé)人表示,希望與物模型廠商合作,共同建立標(biāo)準(zhǔn),最大限度優(yōu)化部署成本和質(zhì)量。
據(jù)了解,騰訊云數(shù)據(jù)中心建立的物模型標(biāo)準(zhǔn),包含 IOT 物聯(lián)模型和DC業(yè)務(wù)模型,沉淀騰訊十多年海量運(yùn)營之道、安全策略和最佳實(shí)踐,將設(shè)備驅(qū)動(dòng)、機(jī)理模型、數(shù)據(jù)治理、告警策略、控制規(guī)則、業(yè)務(wù)管理、大數(shù)據(jù)分析、AI 策略融合在一起,是實(shí)現(xiàn)系統(tǒng)高度自動(dòng)化的必要條件。
值得注意的是,通過與設(shè)備廠商加強(qiáng)統(tǒng)一協(xié)議和標(biāo)準(zhǔn)化模板建設(shè),并自研新北向和智能傳感網(wǎng)絡(luò),騰訊云數(shù)據(jù)中心的多項(xiàng)性能得到提升。例如,監(jiān)控?cái)?shù)據(jù)性能已從分鐘級(jí)提升至10秒,未來有望進(jìn)一步提升至1秒。
此外,騰訊云數(shù)據(jù)中心已經(jīng)在間接蒸發(fā)AHU上進(jìn)行了深度定制化嘗試,未來,還將在更多的數(shù)據(jù)中心基礎(chǔ)設(shè)施產(chǎn)品上持續(xù)投入,通過更精細(xì)化的產(chǎn)品定制,推動(dòng)數(shù)據(jù)中心基礎(chǔ)設(shè)施向模塊化、標(biāo)準(zhǔn)化、簡單、高效方向發(fā)展。
在快速和海量集中自動(dòng)運(yùn)營的的需求下,數(shù)據(jù)中心全鏈路正走向開放和快速創(chuàng)新。未來,騰訊云將與合作伙伴共同推動(dòng)自動(dòng)化運(yùn)營的更多探索,實(shí)現(xiàn)數(shù)據(jù)中心的精耕細(xì)作、智能運(yùn)營。