博睿數(shù)據(jù)產(chǎn)品部高級總監(jiān)孫麗

云原生的定義很復(fù)雜,但用過云的人都懂,它指的是可以只管應(yīng)用而不用管理底層基礎(chǔ)設(shè)施的架構(gòu),不用費(fèi)心思管別的,只關(guān)心應(yīng)用的業(yè)務(wù)邏輯即可,具有這類特征的技術(shù)架構(gòu)都是云原生。

經(jīng)常與云原生一起出沒的是容器技術(shù),容器可以幫助人們構(gòu)建云原生技術(shù)架構(gòu)。容器技術(shù)的理想是屏蔽底層的復(fù)雜性,它可以加速開發(fā)者的開發(fā)部署和迭代速度,但卻為運(yùn)維帶來了“可觀測性”方面的難題。

“可觀測性”會導(dǎo)致看不到問題所在,看不到問題也就無從解決問題,最終表現(xiàn)為排除故障很難。

云原生的興起推動了微服務(wù)和分布式技術(shù)的發(fā)展,這些技術(shù)正常工作時一切都好,但當(dāng)故障發(fā)生時,需要在錯綜復(fù)雜的調(diào)用關(guān)系中捋出問題所在。同時,由于容器化技術(shù)的環(huán)境動態(tài)性很強(qiáng),運(yùn)維排障時的環(huán)境經(jīng)常已經(jīng)發(fā)生了變化。

傳統(tǒng)監(jiān)控的可觀測性問題

在孫麗看來,傳統(tǒng)監(jiān)控技術(shù)很難幫用戶構(gòu)建一套高效的排障體系,當(dāng)前工具式的監(jiān)控體系已經(jīng)無法滿足企業(yè)的運(yùn)維需求,看不到或者看不清問題就無法解決問題。

結(jié)合Gartner相關(guān)報告的觀點(diǎn),孫麗分享了目前IT監(jiān)控存在的五方面問題。

1、孤島式監(jiān)控。由于缺少規(guī)劃,企業(yè)中經(jīng)常存在各種監(jiān)控平臺,有的是重復(fù)的,有的是相互獨(dú)立的,總之都無法組成一個有機(jī)的監(jiān)控系統(tǒng)。由于可觀測性比較差,當(dāng)系統(tǒng)發(fā)生問題時,就很難找出原因。

2、IT建設(shè)與業(yè)務(wù)目標(biāo)脫節(jié)。IT建設(shè)和運(yùn)維關(guān)注的是如何提供資源,而業(yè)務(wù)人員關(guān)注的是業(yè)務(wù)發(fā)展和用戶體驗(yàn),兩者的目標(biāo)是不一致的,當(dāng)IT人員看不到用戶體驗(yàn)的影響,IT部門就會與業(yè)務(wù)部門脫節(jié)。

3、智能運(yùn)維不成熟。Gartner的報告中能看到,雖然智能運(yùn)維說了很多,但實(shí)際落的效果非常差。孫麗認(rèn)為,高質(zhì)量的可觀測數(shù)據(jù)加上較強(qiáng)的AI能力引擎才能讓智能運(yùn)維走向成熟。

4、新技術(shù)監(jiān)控可見性不足。Gartner的報告提到,當(dāng)前的監(jiān)控手段在面對云原生、微服務(wù)、物聯(lián)網(wǎng)等新技術(shù)時存在一些可觀測性的問題,因?yàn)樵瓉淼牡讓淤Y源層面的信息已經(jīng)不可見了。

5、敏捷性不足。運(yùn)維追求的是系統(tǒng)的穩(wěn)定運(yùn)行,應(yīng)用研發(fā)人員追求的是更快上線新業(yè)務(wù)。當(dāng)缺少自動化能力時,敏捷性會明顯不足,兩者難免會產(chǎn)生許多矛盾。

許多運(yùn)維監(jiān)控的專業(yè)廠商也都在關(guān)注這些問題,但大部分廠商的服務(wù)都存在一些局限性。孫麗將其總結(jié)為1.0時代的廠商和2.0時代的廠商。

在孫麗看來,市場上大概80%的廠商都屬于1.0時代,這類廠商一般只有監(jiān)控體系的一個或幾個產(chǎn)品,沒有組成有機(jī)的運(yùn)維監(jiān)控體系,經(jīng)常以單產(chǎn)品或者沒有關(guān)聯(lián)的產(chǎn)品去提供服務(wù),這類產(chǎn)品提供的可觀測性是片面的。

2.0時代的廠商有相對完善的產(chǎn)品監(jiān)控體系,覆蓋了從用戶、到網(wǎng)絡(luò)、到應(yīng)用、到基礎(chǔ)設(shè)施的不同層級,但由于缺少產(chǎn)品的有機(jī)整合,導(dǎo)致無法站在在運(yùn)維的全局視角去組織數(shù)據(jù),會缺少有機(jī)融合的能力。

1.0和2.0時代的核心問題就是可觀測性問題,也就是能否快速發(fā)現(xiàn)問題的問題。

博睿數(shù)據(jù)以O(shè)NE平臺三大特性提升可觀測性

博睿數(shù)據(jù)原本是2.0時代的典型代表,隨著一體化智能可觀測ONE平臺的發(fā)布,博睿數(shù)據(jù)已經(jīng)邁向了3.0時代,強(qiáng)調(diào)運(yùn)維監(jiān)控數(shù)智融合能力。

所謂數(shù)智融合,先要具備全局的數(shù)據(jù)采集能力,二是要以運(yùn)維視角重塑產(chǎn)品,三是要對這些被采集的數(shù)據(jù)進(jìn)行有機(jī)的關(guān)聯(lián)和融合,四是基于這些數(shù)據(jù)做深入挖掘。

一體化智能可觀測ONE平臺用三大特性詮釋了什么叫數(shù)智融合,詮釋了如何提升可觀測性。

第一點(diǎn)就是統(tǒng)一,通過一個平臺去滿足所有運(yùn)維監(jiān)控需求,不需要再去重復(fù)建設(shè)或購買不同廠商產(chǎn)品來自行組裝,只需要一套ONE平臺即可實(shí)現(xiàn)任意能力的開箱即用。

想要實(shí)現(xiàn)這種統(tǒng)一,需要監(jiān)控能力覆蓋APP、WEB、PC、小程序等多種終端,可采集來自用戶端到網(wǎng)絡(luò)、到云端、中間件、基礎(chǔ)設(shè)施、設(shè)備、場景等等多個方面的數(shù)據(jù),滿足企業(yè)在數(shù)字體驗(yàn)、業(yè)務(wù)、網(wǎng)絡(luò)性能、應(yīng)用性能、安全等等所有方面的監(jiān)控需求。

第二點(diǎn)就是關(guān)聯(lián)性,相互不關(guān)聯(lián)的數(shù)據(jù)對于提升可觀測性沒什么幫助。博睿數(shù)據(jù)ONE平臺在對Log、Trace、Metric數(shù)據(jù)做關(guān)聯(lián)的基礎(chǔ)上,還加入各種實(shí)體、事件以及元數(shù)據(jù)的關(guān)聯(lián),實(shí)現(xiàn)了更好的可觀測性。

具體做法上,ONE平臺對企業(yè)的數(shù)字化系統(tǒng)做了1:1的復(fù)刻,構(gòu)建了數(shù)字系統(tǒng)各種實(shí)體的數(shù)字孿生,真實(shí)系統(tǒng)發(fā)生的一舉一動都會得到映射,從而大幅提升可觀測性。同時,ONE平臺還會基于這些數(shù)據(jù)來進(jìn)行圖計算,從而更好地做根因定位。

第三點(diǎn)就是智能見解。ONE平臺可以像一個專業(yè)顧問一樣告訴用戶發(fā)生了什么問題,導(dǎo)致問題的原因是什么,從而緩解追查問題慢,解決問題慢的情況,幫助運(yùn)維人員節(jié)省時間,讓專業(yè)人員把精力放在其它業(yè)務(wù)領(lǐng)域。

ONE平臺內(nèi)置了博睿數(shù)據(jù)自研的Swift AI中臺,該平臺目前在事件關(guān)聯(lián)、異常檢測預(yù)測、智能告警、智能根因分析等等方面落地,博睿數(shù)據(jù)重視基于場景的、基于專業(yè)的知識庫的AI,認(rèn)為只有這樣才能實(shí)現(xiàn)真正的智能運(yùn)維。

從統(tǒng)一、關(guān)聯(lián)性和智能見解,博睿數(shù)據(jù)完成了從看得更多到看的更透徹的整個過程,最終提升可觀測性。

提升金融行業(yè)云原生架構(gòu)可觀測性

博睿數(shù)據(jù)資深技術(shù)總監(jiān)常旭介紹了提升金融行業(yè)云原生架構(gòu)可觀測性的實(shí)踐案例。
某銀行在嘗試容器化的過程中,對原來的單體應(yīng)用進(jìn)行了容器化改造,這對于運(yùn)維工作帶來了不小變化。

博睿數(shù)據(jù)資深技術(shù)總監(jiān)常旭

單體應(yīng)用時代,所有應(yīng)用都運(yùn)行在固定的幾臺物理服務(wù)器上,如果有問題就直接去這幾臺服務(wù)器上找,而現(xiàn)在的容器化應(yīng)用將業(yè)務(wù)應(yīng)用打散到了多臺云節(jié)點(diǎn)里,運(yùn)維方式也發(fā)生了很大變化。

比如,要解決手機(jī)銀行App響應(yīng)慢的問題,首先要考慮手機(jī)端性能數(shù)據(jù),但比如查詢、轉(zhuǎn)帳等大部分業(yè)務(wù)都需要后臺服務(wù)來完成。由于這些業(yè)務(wù)都變成了微服務(wù)的狀態(tài),運(yùn)維人員無法獲知微服務(wù)的調(diào)用關(guān)系及具體信息,想要優(yōu)化往往無從下手。

博睿數(shù)據(jù)的Smart?Agent技術(shù)能在業(yè)務(wù)被拉起的過程中自動實(shí)現(xiàn)探針的抓取,使用該技術(shù)之后,所有探針在業(yè)務(wù)生成的過程中都會自動加載、自動識別、并基于預(yù)定策略自動實(shí)現(xiàn)所有信息的采集。當(dāng)采集到數(shù)據(jù)之后,即可基于數(shù)據(jù)進(jìn)行分析、處理和縫合,最終可視化整個業(yè)務(wù)的調(diào)用鏈。

在這個案例中,當(dāng)博睿數(shù)據(jù)把可視化業(yè)務(wù)鏈的數(shù)據(jù)展示出來時,部分研發(fā)人員認(rèn)為展示的數(shù)據(jù)有問題,但隨后,在多位研發(fā)人員的反復(fù)確認(rèn)的過程中發(fā)現(xiàn)許多開發(fā)人員對業(yè)務(wù)調(diào)用鏈過程的本身并不是非常清楚。

最后,在博睿數(shù)據(jù)的幫助下,開發(fā)人員驚奇地看到了應(yīng)用的調(diào)用關(guān)系以及其背后的潛在風(fēng)險,可觀測性有了大幅提升。不僅在整個應(yīng)用性能表現(xiàn)上有大幅提升,還將排查效率提升了51.3%,這對于后續(xù)業(yè)務(wù)調(diào)優(yōu)、業(yè)務(wù)處理以及運(yùn)維管理都提供了非常大的幫助。

結(jié)束語

隨著云化轉(zhuǎn)型,隨著企業(yè)IT架構(gòu)構(gòu)成越來越復(fù)雜,IT架構(gòu)的“可觀測性”問題會越來越明顯,博睿一體化智能可觀測ONE平臺在提升可觀測性方面的努力非常有意義。

分享到

zhupb

相關(guān)推薦