近日,我們采訪了兩位經(jīng)驗(yàn)豐富的大咖,試圖從博睿數(shù)據(jù)的視角窺探AIOps 的全貌。
關(guān)于AIOps 產(chǎn)品本身
就博睿數(shù)據(jù)而言,博睿數(shù)據(jù)的AIOps的核心是“數(shù)據(jù)+AI+產(chǎn)品+場景”四合一的綜合解決方案。在一體化運(yùn)維、告警管理、故障定位、應(yīng)急快恢等高頻運(yùn)維場景中幫助用戶更高效、更準(zhǔn)確的達(dá)成業(yè)務(wù)目標(biāo)。
就其優(yōu)勢而言,主要有5個(gè)方面:
目前,博睿數(shù)據(jù)基于自研的大數(shù)據(jù)實(shí)時(shí)處理和分析平臺(tái) Zeus做數(shù)據(jù)挖掘,在異常檢測、趨勢預(yù)測、告警收斂、事件分析等應(yīng)用場景方面已實(shí)現(xiàn)產(chǎn)品化落地。
具體來說,異常檢測,主要應(yīng)用于運(yùn)維數(shù)據(jù)的無監(jiān)督異常發(fā)現(xiàn)環(huán)節(jié),不需要運(yùn)維人員手工設(shè)置閾值即可做到異常的自主發(fā)現(xiàn),大幅節(jié)省了人力投入;
趨勢預(yù)測,主要應(yīng)用于業(yè)務(wù)特性運(yùn)維數(shù)據(jù)的預(yù)測場景,比如容量預(yù)測、訪問量預(yù)測、硬件缺陷預(yù)測等等,對(duì)于運(yùn)維人員的預(yù)算編制、業(yè)務(wù)規(guī)劃和提前介入處置起到很大的參考作用;
告警收斂,主要應(yīng)用于統(tǒng)一告警平臺(tái)的事件管理場景,運(yùn)維人員不再需要面對(duì)大量的無效告警,只需要關(guān)注收斂后的少量故障,應(yīng)急處置的效率和精準(zhǔn)度有了大幅提升;
事件分析,主要應(yīng)用于一體化運(yùn)維平臺(tái)的問題管理場景,AI將指標(biāo)、Trace、事件的異常信息匯聚到問題,從問題查找根因,從根因聯(lián)動(dòng)通知、自動(dòng)化等處置步驟,問題分析的效率和精準(zhǔn)度得到大幅改善。
在AIOps實(shí)踐方面,博睿數(shù)據(jù)依托多年APM行業(yè)積累,已具備豐富的數(shù)據(jù)集合。依托IT運(yùn)維監(jiān)控能力,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)持續(xù)構(gòu)建智能運(yùn)維監(jiān)控能力。
2021年,博睿數(shù)據(jù)在國內(nèi)首次提出了“服務(wù)可達(dá)的數(shù)據(jù)鏈DNA”技術(shù)理念,D代表DEM(數(shù)字體驗(yàn)管理),N代表NPM(網(wǎng)絡(luò)性能管理),A代表APM(應(yīng)用性能管理),從而打通從代碼到用戶訪問的全過程,進(jìn)一步釋放企業(yè)IT運(yùn)維監(jiān)控管理所有分支領(lǐng)域DEM、APM、ITIM、NPM和智能運(yùn)維管理的能力。
目前,博睿數(shù)據(jù)算法中臺(tái) SwiftAI已賦能到新一代APM的Server產(chǎn)品、新一代的智能運(yùn)維大數(shù)據(jù)平臺(tái)DataView、“雙模一體”智能應(yīng)急中心OneAlert等,與博睿數(shù)據(jù)統(tǒng)一聯(lián)邦數(shù)據(jù)中臺(tái) Zeus相輔相成,不斷落地智能異常檢測、趨勢預(yù)測、智能告警、事件分析等場景,助力云原生時(shí)代服務(wù)可達(dá)。
2022年5月20日,博睿數(shù)據(jù)正式推出了一體化智能可觀測平臺(tái)ONE,該平臺(tái)旨在建立一體化、智能化、面向業(yè)務(wù)與用戶體驗(yàn)的統(tǒng)一運(yùn)維平臺(tái),助力企業(yè)提高數(shù)字化體驗(yàn),降低運(yùn)維成本,提升工作效率,為數(shù)字化轉(zhuǎn)型賦能升級(jí)。同時(shí),這也是業(yè)界第一個(gè)將所有運(yùn)維監(jiān)控需求“All in ONE”的統(tǒng)一平臺(tái)。博睿數(shù)據(jù)的 AI 能力,比如告警收斂、根因分析、多維分析、影響分析等,也將在 ONE 平臺(tái)的觀測洞察、應(yīng)急管理等模塊中逐步落地。
談及博睿數(shù)據(jù)AIOps未來的發(fā)展,賀安輝表示:“未來,博睿數(shù)據(jù)在AIOps 方面將在根因定位、影響分析、NLP、算法實(shí)驗(yàn)室四個(gè)方面發(fā)力。”
同時(shí),未來博睿數(shù)據(jù)也將繼續(xù)發(fā)展多模態(tài)數(shù)據(jù)聯(lián)邦“底座”和AI算法的廣度和深度,支持全程服務(wù)可觀測。
AIOps 未來已來
雖然AI技術(shù)給運(yùn)維工作帶來的價(jià)值顯而易見,但需要明確的是AIOps 不是一個(gè)一蹴而就的實(shí)踐,而是一個(gè)長期演進(jìn)的過程,需要不斷創(chuàng)新發(fā)展。
就當(dāng)前國內(nèi)智能運(yùn)維的環(huán)境而言,李驊宸認(rèn)為AIOps還存在以下幾方面的挑戰(zhàn):
在他看來,博睿數(shù)據(jù)今后要在智能運(yùn)維方面持續(xù)發(fā)力。
首先,要打破數(shù)據(jù)孤島,做DNA 數(shù)據(jù)的最大化融合,建立數(shù)據(jù)資產(chǎn)的統(tǒng)一管理倉庫,產(chǎn)生聯(lián)邦數(shù)據(jù)的次生價(jià)值。以博睿數(shù)據(jù)提出的數(shù)據(jù)鏈DNA 概念為例,AIOps是DNA中重要的一環(huán),可助力APM產(chǎn)品和數(shù)據(jù)實(shí)現(xiàn)端到端打通,讓DNA更加自動(dòng)化和智能化。同時(shí),DNA數(shù)據(jù)鏈也給AI提供場景和數(shù)據(jù)土壤,讓AI通過信息整合、特征關(guān)聯(lián)真正的跑出優(yōu)質(zhì)算法模型。
其次,要加強(qiáng)數(shù)據(jù)分析和數(shù)據(jù)挖掘,擴(kuò)展AI產(chǎn)品能力,夯實(shí)算法基礎(chǔ)能力,讓AI支持輕量級(jí)的模塊化和產(chǎn)品化。在算法可解釋性和評(píng)價(jià)體系方面建立一套標(biāo)準(zhǔn),引入不同的數(shù)據(jù)集進(jìn)行數(shù)據(jù)加工分析,用真實(shí)故障注入的方式來不斷錘煉AIOps能力,在商業(yè)化輸出時(shí)能夠以近乎開箱即用、極低適配成本的方式實(shí)現(xiàn)價(jià)值的最大化輸出。
更為重要的是,AIOps本就是基于已有的運(yùn)維數(shù)據(jù),并通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決自動(dòng)化運(yùn)維沒辦法解決的問題。企業(yè)實(shí)現(xiàn)AIOps的前提是建立起全面獲取IT數(shù)據(jù)的能力,這里的數(shù)據(jù)主要包括但不限于日志、指標(biāo)和事件等。將這些數(shù)據(jù)輸送給AIOps平臺(tái),為AIOps提供數(shù)據(jù)資產(chǎn),以進(jìn)行整合的更高級(jí)別的分析和洞察。如果沒有這些大數(shù)據(jù)的支持,AIOps則是無源之水。所以對(duì)于企業(yè)來說,大數(shù)據(jù)采集工作至關(guān)重要。
兩位大咖對(duì)AIOps的未來發(fā)展充滿信心。總體而言,中國市場足夠大,數(shù)據(jù)也足夠豐富,而在國家戰(zhàn)略和政策的支持下,傳統(tǒng)制造業(yè)正向智能創(chuàng)造逐步發(fā)展,發(fā)展的過程中必然會(huì)涉及大量數(shù)據(jù)處理,而這也是AI技術(shù)的強(qiáng)項(xiàng),當(dāng)前在運(yùn)維領(lǐng)域,AI技術(shù)的應(yīng)用還是剛剛起步,慢慢成熟,在未來的3-5年內(nèi),AI技術(shù)會(huì)廣泛應(yīng)用到運(yùn)維場景中,向自助式服務(wù)方向發(fā)展。
寫在最后
每一個(gè)產(chǎn)品最需要的是被市場認(rèn)可。
在標(biāo)準(zhǔn)制定方面,2021年博睿數(shù)據(jù)獲信通院首批AIOps評(píng)估的異常檢測全面級(jí),同年博睿數(shù)據(jù)作為信通院組織的AIOps標(biāo)準(zhǔn)工作小組成員,多項(xiàng)建議納入到規(guī)范標(biāo)準(zhǔn)。
在產(chǎn)學(xué)研方面,博睿數(shù)據(jù)也跟廈門大學(xué)成立聯(lián)合實(shí)驗(yàn)室,開展機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方面的合作。
在行業(yè)應(yīng)用落地方面,博睿數(shù)據(jù)的AIOps解決方案已經(jīng)落地到銀行、保險(xiǎn)、證券、教育、航空等行業(yè)中,如異常檢測場景、告警收斂場景、趨勢預(yù)測場景等,為客戶的數(shù)字化轉(zhuǎn)型加速賦能。