今天為大家?guī)淼难葜v主題是《七牛云機器數(shù)據(jù)分析平臺 Pandora 最佳實踐》,在介紹 Pandora 之前,我們可以先了解七牛云目前的整體架構。依下圖所示,圖中最下面一橫是七牛云 cloud 的部分,包括直播云、實時音視頻云、攝像頭的監(jiān)控云,其中所有的數(shù)據(jù)都匯聚到脫胎于對象存儲的異構數(shù)據(jù)湖中。數(shù)據(jù)湖之上是視覺數(shù)據(jù)的分析平臺以及機器數(shù)據(jù)分析平臺。我們今天講的 Pandora 就隸屬于機器數(shù)據(jù)的分析平臺。

Pandora 在七牛云整個版圖里,屬于機器數(shù)據(jù)智能的這個模塊。機器數(shù)據(jù)包含幾個部分,像是 Iot 的數(shù)據(jù)、各種設備的數(shù)據(jù)都可以成為機器數(shù)據(jù)。

什么是機器數(shù)據(jù)

我們對它有個簡單的定義:機器數(shù)據(jù)是任何機器或者系統(tǒng)所產(chǎn)生的數(shù)據(jù)。比如說服務器產(chǎn)生的數(shù)據(jù)、傳感器產(chǎn)生的數(shù)據(jù)、還有各種應用產(chǎn)生的數(shù)據(jù),包括網(wǎng)絡設備等等。機器數(shù)據(jù)的一個特點,它是由大量的時序的非結構化的數(shù)據(jù)組成的。對于我們處理定義的機器數(shù)據(jù)來講,沒有預先定義好的 schema,并且它的數(shù)據(jù)格式特別多,而且很難預測和定義,也就是說很難說預知是什么樣的格式進來,或者說我預先定義好它的格式。

Pandora 的特點和采集流程

Pandora 定位作為一個機器數(shù)據(jù)的實時分析平臺,它有哪些特點呢?第一是 Pandora 原生支持 schema free 的數(shù)據(jù)。也就是說可以隨時動態(tài)地添加刪除字段,Pandora 更進一步地原生支持了 schema on read 的能力,所以產(chǎn)生的數(shù)據(jù)怎么樣,進 Pandora 就是怎么樣,不需要經(jīng)過任何的這個加工。同時我們支持模型加速的功能。通過SPL分層持久化、列式存儲、CodeGen、向量計算等技術對數(shù)據(jù)模型進行迭代優(yōu)化。第二個特點是云原生的架構,Pandora 的整個體系可以避免ETL加工帶來的預處理建模困難,同時計算(動態(tài)資源)和存儲(靜態(tài)資源)分離,降低成本,提高計算彈性,另外完整的熱-溫-冷數(shù)據(jù)生命周期管理,可以大幅降低存儲成本。第三,是我們比較有特色的一個點:SPL 強大的分析表達能力。支持豐富機器學習命令,滿足大量機器數(shù)據(jù)分析及 AI 場景;同時支持 SPL 實時計算,結果導出對接系統(tǒng),完成業(yè)務閉環(huán)第四點是我們有一個強大的系統(tǒng)擴展能力。也就是說你可以把 Pandora 看成一個 os,在其中可以利用 Pandora 的各種原生能力,去打造你自己的 APP 生態(tài)系統(tǒng),SDK 支持對于平臺的可視化系統(tǒng)、業(yè)務組織形式進行可插拔擴展。同時 Pandora 不僅可以支持 SQL,更能夠通過 Python, Go+ 等擴展 SPL 計算能力;另外支持平臺圖表能力輸出,能夠集成到業(yè)務系統(tǒng),完成數(shù)據(jù)價值輸出。

下面是 Pandora 的全景圖。從大數(shù)據(jù)分析的角度來看,先收集,然后處理、清洗,最后再分析和應用,是所有大數(shù)據(jù)廠商的通用做法。Pandora 在其中有一點是獨特之處,就是 Pandora 支持原始數(shù)據(jù)格式的實時索引,也就是說除了分析之外,可以同時支持檢索服務。整個檢索和分析被統(tǒng)一到 SPL 的分析引擎里面,能夠同時支持檢索和分析服務。意味著用戶不用在意是檢索還是分析,可以一站式解決。

Pandora 的數(shù)據(jù)采集管理流程如下圖所示,通過這樣的流程,只要有數(shù)據(jù)產(chǎn)生,都可以有一個非常方便的方式來取得。

Schema On Road

在數(shù)據(jù)取得之后,就是 Pandora 的重頭戲——Schema On Read。我們可以從這張圖上可以看到 Pandora 的不同之處。Pandora 可以在原始數(shù)據(jù)直接上傳后,在分析時進行動態(tài)解析。也就說只需要一份原始數(shù)據(jù),我們多種數(shù)據(jù)模型就能解答不同用戶的所有問題。這樣的優(yōu)勢在于你可以針對各種數(shù)據(jù)進行各種建模。針對變化的數(shù)據(jù)格式,只要在 Pandora 里做一些小小的變化便可完全兼容。這是純粹的日志系統(tǒng)做不到的。

SPL:機器分析數(shù)據(jù)的標準語言

SQL是我們機器數(shù)據(jù)分析的標準語言。通過一行的 SQL 的命令,便可以檢索,分析,可視化告警。支持對原始數(shù)據(jù)進行直接處理,并且專為時序數(shù)據(jù)做了優(yōu)化,大家可以看到我們之前對機器數(shù)據(jù)定義的時候,包括大量的時序可以結構化數(shù)據(jù),所以給了我們很大的優(yōu)化空間。另外我們在數(shù)據(jù)湖里做了多存儲引擎,并且可以接各種各樣的存儲引擎。最后我們寫了一個公式 SPL = SQL + Unix Pipeline,也就是說通過 SPL 我們可以做搜索,我們甚至可以寫解析的條件,但是又不用像寫代碼麻煩。

通過提供機器數(shù)據(jù)分析高級語言,支持復雜的搜索、聚合以及關聯(lián)分析的能力,處理能力更加強大。支持各種數(shù)學運算、關聯(lián)分析、事務分析、預測分析等。在事務分析中,可以分析連續(xù)相互關聯(lián)的事件集合,這也是 Pandora 特別適合安全場景的原因。

目前我們把 SPL 的能力也集成到了 platform 里,用戶可以非常簡單地去做數(shù)據(jù)接入,特征激活、算法的建模、效果展示、價值應用等,都可以在其中完成。

Pandora 擴展應用

有了 SPL 能力以后,Pandora 支持用戶在上面沉淀自己的知識。所以我們的理念是,Pandora 不是一個 platform,我們更希望它在傳遞價值。也就是說希望以 app 的形式,能將知識沉淀在 Pandora 的 App Store 里。Pandora 的 App Store 作為完整產(chǎn)品架構不可獲取的一部分,形成了從數(shù)據(jù)接入到數(shù)據(jù)展示的完整鏈路。

存儲架構:數(shù)據(jù)全生命周期管理

面對數(shù)據(jù)量較大的,并且強調(diào)實時處理的情況,我們在 Pandora 的存儲架構中,構建數(shù)據(jù)的全生命周期管理。在成本和性能的雙重考慮下,我們在連貫的過程中,實現(xiàn)計算與存儲的完全解耦,資源應需而變;數(shù)據(jù)可實現(xiàn)歷史數(shù)據(jù)長期存儲,積累的海量歷史數(shù)據(jù)可以支持未來的機器學習、AIOps 等場景。

同時 Pandora 也在努力與七牛云的存儲進行對接,使大家在直接對七牛云云存儲進行分析時,也能享受到盡可能高的性能。

技術點分享

我們做了正向索引與倒排索引以及行列混合存儲,也支持分層的存儲和 On Read、CodeGen、向量化。TimeSeries 的優(yōu)化可以反映到計算引擎中,讓用戶體驗到更快的性能和更穩(wěn)定的服務。

Pandora 案例

01 某大型保險公司

主要用于對信息系統(tǒng)整體日志進行全生命周期智能管理,實現(xiàn)對日志的統(tǒng)一采集,合并處理,集中存儲,關聯(lián)分析與智能管理。適用于解決運維開發(fā)領域的三大場景:IT 運維,安全審計,業(yè)務運營分析;可提供包括線上監(jiān)控、運維數(shù)據(jù)支撐、問題診斷、故障預警,資源監(jiān)測、用戶行為審計、規(guī)則提取、歸檔、攻擊溯源、業(yè)務走勢分析等服務。

02 某頂尖手機制造企業(yè)

第二個案例是某頂尖手機制造企業(yè)監(jiān)控診斷和根因分析。手機在出廠前都要有一個測試的過程,但每次測試的時會產(chǎn)生很多很多的測試的數(shù)據(jù),來反映手機的故障情況。在沒有制造系統(tǒng)知識的時候,需要員工要去看,非常復雜。在 Pandora 的賦能下,手機的制造廠商可以遠程監(jiān)控我們的這個車間的生產(chǎn)質(zhì)量,并且很快地定位到故障原因。

03 某領軍半導體企業(yè)

下面是半導體的企業(yè)案例,半導體的產(chǎn)業(yè)鏈非常長,在源頭是一個叫做單晶爐的設備,用來提煉單晶硅。Pandora 可以幫助單晶硅做健康度的檢查,也就說我們可以及時發(fā)現(xiàn)單晶爐的故障,在故障發(fā)生時及時報警,避免原材料無謂的投入,及時止損。從圖中我們可以看出,Pandora 通過多個維度做分析,通過單晶爐里面的傳感器收集數(shù)據(jù),對設備進行生產(chǎn)監(jiān)控和預測性維護。

04 智能網(wǎng)聯(lián)車分析

最后一個案例是智能網(wǎng)聯(lián)車,Pandora 可以判斷車子的數(shù)據(jù),比如什么時候打了方向盤,什么時候踩了剎車等等,在 Pandora 里都可以一目了然。

大家可以通過以上幾個案例看出,Pandora 所針對的數(shù)據(jù),都是由機器產(chǎn)生的、非常不規(guī)則的、帶有 time stamp 的數(shù)據(jù)。所以我們在金融、制造業(yè)、車聯(lián)網(wǎng)等等都有比較有意思的應用。Pandora 也希望通過大數(shù)據(jù)、AI 手段,為更多相關產(chǎn)業(yè)賦能,實現(xiàn)產(chǎn)業(yè)升級。

分享到

songjy

相關推薦