這樣的架構存在三大問題:
一是它把數(shù)據(jù)根據(jù)時間的屬性走向兩條處理邏輯,應用程序的處理邏輯會被寫兩遍;
二是這樣的架構要得到批處理的正確結果才可以做聚合處理,對實時處理平臺而言帶來的是無法忍受的延遲;
三是原始數(shù)據(jù)在不同的開源項目當中被拷貝了多份,如在Kafka中會有3拷貝,到了Spark Steaming還會有3拷貝,在整個系統(tǒng)和里存在6份甚至是9份拷貝的現(xiàn)象都很普遍。但其帶來容量的需求對客戶來說是一場噩夢,尤其是AI引入之后數(shù)據(jù)的增速是爆發(fā)式的。關鍵的是,Message bus并不是一個存儲系統(tǒng),在Kafka中的數(shù)據(jù)并不能保證被長期存儲。而對大數(shù)據(jù)處理平臺來說,最重要的是先得把數(shù)據(jù)存下來才談得上發(fā)掘出更多的商業(yè)價值。
另外,Hadoop只能針對歷史數(shù)據(jù)做批處理,Spark和Kafka只能對Pub/Sub系統(tǒng)進行梳理??梢哉f,傳統(tǒng)大數(shù)據(jù)平臺并不完美。
可以說,傳統(tǒng)單一的計算平臺已經(jīng)無法應對如此復雜、多樣、海量的數(shù)據(jù)采集、處理的挑戰(zhàn)。
海量、低時延、非結構化的數(shù)據(jù)特點將進一步促進數(shù)據(jù)處理和分析技術的進步,推動流式處理技術的發(fā)展。
那么,應對5G和物聯(lián)網(wǎng)時代的下一代大數(shù)據(jù)處理平臺,需要具備哪些能力?
5G時代呼喚新的數(shù)據(jù)處理平臺
2019年12月初的戴爾科技集團上海研發(fā)中心之旅活動中,戴爾科技集團Dell EMC軟件工程總監(jiān)滕昱首先分析了大數(shù)據(jù)處理領域近期的三大趨勢。
一是在Amazon S3A推出之后,憑借其高可用容量和可擴充性等特點逐漸形成對Hadoop分布式文件系統(tǒng)(HDFS)的取代之勢,流式大數(shù)據(jù)處理平臺存儲端工作負載顯著增加;加上Hadoop可以直接運行于S3A上,突破了綁定于HDFS上的限制??梢哉f,2020年將會是從HDFS轉向流存儲的元年。
二是在容器編排戰(zhàn)爭中,Kubernetes贏得了勝利,意味著未來的軟件平臺都將以Kubernetes為基礎,在各種各樣公有云和私有云中自由地進行工作負載的遷移變得更加容易。
三是在計算方面,除了要求準確結果,還需要滿足更多實時計算的需求。一個經(jīng)典的用例就是銀行實時監(jiān)控的需求,除了能對線上數(shù)據(jù)進行實時監(jiān)控處理,還要同時能調用歷史數(shù)據(jù)。類似的場景還有IoT和5G,特別是車聯(lián)網(wǎng)的連接等越來越多的領域。
為了滿足層出不窮的實時應用場景,同時降低大數(shù)據(jù)應用平臺的投入,戴爾科技集團決定推出一個 “All in one”的新的大數(shù)據(jù)處理平臺,即Dell EMC流數(shù)據(jù)處理平臺(Dell EMC Streaming Data Platform,簡稱“DESDP”)。
起底Dell EMC流數(shù)據(jù)處理平臺
Dell EMC流數(shù)據(jù)處理平臺是戴爾科技集團從零開始構建的一套實時流式數(shù)據(jù)分析與存儲解決方案,旨在為編寫可靠的流式應用程序提供基礎。
借助于該平臺,客戶除了通過諸如S3一類的接口傳輸數(shù)據(jù),還可以通過Dell EMC即將提供的Streaming接口去注入數(shù)據(jù),計算端不再需要了解數(shù)據(jù)的來源及傳輸過程,僅需使用SQL或者通用的搜索語法,即可從數(shù)據(jù)中實時獲得商業(yè)價值。
Dell EMC Streaming接口與眾不同的最大特點,是它能接入流數(shù)據(jù)。
流數(shù)據(jù)具有四個特點,一是數(shù)據(jù)實時到達,二是數(shù)據(jù)到達次序獨立,不受應用系統(tǒng)所控制,三是數(shù)據(jù)規(guī)模宏大且不能預知其最大值,四是數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理,或者再次提取數(shù)據(jù)代價昂貴。
從存儲端而言,流數(shù)據(jù)要求在大并發(fā)下實現(xiàn)實時數(shù)據(jù)低延遲的讀和寫,同時對歷史數(shù)據(jù)要能高吞吐量的讀,這樣的特性才是一個合格的流存儲接口。
因此,一個成熟的流數(shù)據(jù)處理平臺,首要的就是能具有同時存儲和處理實時數(shù)據(jù)的能力,開發(fā)者也無需根據(jù)數(shù)據(jù)的時間屬性開發(fā)兩套不同的商業(yè)邏輯,其次,對于企業(yè)而言,只要做好存儲和計算動態(tài)的擴容和縮容,應用程序無需根據(jù)工作負載大小進行感知,第三,平臺當中的數(shù)據(jù)一定會被處理而且僅被處理一次,保證大數(shù)據(jù)處理平臺企業(yè)級應用的價值。
(1)Dell EMC流數(shù)據(jù)處理平臺架構剖析
分析Dell EMC新的流數(shù)據(jù)處理平臺架構,中間部分是計算端和流處理端,其上是分為左右兩部分的流數(shù)據(jù)平臺。
左邊是Dell EMC開發(fā)并開源的流式數(shù)據(jù)存儲引擎Pravega,它作為該平臺的基礎組件實現(xiàn)流存儲的抽象來滿足計算平臺達到實時和歷史數(shù)據(jù)抽象統(tǒng)一的要求。
數(shù)據(jù)注入到一定程度后就會放置到持久化存儲中,或者是Isilon 或者是ECS,也可以是今年將推出的全新的對象存儲架構。歷史數(shù)據(jù)存儲在Tier2的Isilon和ECS上,之后對數(shù)據(jù)處理引擎也進行了統(tǒng)一處理。
這種兩層的架構解決了存儲端去進行實時和歷史數(shù)據(jù)的抽象統(tǒng)一。
(2)Isilon——百分百本地化研發(fā)生產(chǎn)的存儲產(chǎn)品
在這里必須給Isilon打個廣告。
上一篇文章曾說過,戴爾科技集團中國研發(fā)集團有兩大引以為自豪的產(chǎn)品,一個是VxRail,另一個就是Isilon,而且是百分百本地化研發(fā)生產(chǎn)的產(chǎn)品。
談到Isilon的應用場景,戴爾科技集團大中華區(qū)企業(yè)技術戰(zhàn)略總監(jiān)許良謀表示,解決數(shù)據(jù)孤島就是Isilon一個典型的擅長,因為它海納百川,支持各種協(xié)議。另外,Isilon還可當作數(shù)據(jù)的承載,用這樣的方式去解耦,甚至還可以在VMware上做Hadoop,幫助客戶降低成本。這在制造業(yè)的優(yōu)勢尤其明顯。除此之外,Isilon在媒體、生物科技以及基因測序等領域的需求都非常旺盛。
戴爾科技集團全球資深副總裁、大中華區(qū)企業(yè)解決方案總經(jīng)理曹志平補充說,風靡2018年的電影《哪吒》也是在Isilon平臺上完成的三維動畫渲染;每一次展會上戴爾科技集團Isilon支持播放的自動駕駛的輔助設計系統(tǒng)效果最好,因而受到很多的汽車廠商的青睞,Isilon行業(yè)的應用是非常普遍的。
戴爾科技集團中國研發(fā)集團上海研發(fā)中心總經(jīng)理陳春曦很風趣:作為一名高科技研發(fā)工作者,他自我感覺很高大上,但在他母親眼里他一直就是一個“修電腦“的?!赌倪浮飞鲜泻螅嬖V母親說影片采用的就是他參與研究的成果,令母親對他從此刮目相看,自己在家里的地位也提高了不少。
“所以要感謝《哪吒》!” 陳春曦開心地說。
回到Dell EMC新的流數(shù)據(jù)處理平臺架構,在該圖右邊的計算平臺方面,Dell EMC與開源社區(qū)合作,創(chuàng)建和管理Flink集群并集成了Flink的企業(yè)特性,以現(xiàn)代流行的開源方式提供運營能力——將內(nèi)部的Metrics(指標)開源給成熟的硬件供應商,同時大量簡化開發(fā)框架。畢竟流處理和實時處理對應用程序開發(fā)者來說也是一個新的挑戰(zhàn)。
除了2019年新支持的Flink,Dell EMC今年還將支持Search,把它們的功能帶入流處理世界。
最終,只要寫Flink SQL或Search語義,平臺就可以從這些數(shù)據(jù)中抓取商業(yè)邏輯。這是企業(yè)級下一代數(shù)據(jù)處理平臺最重要特點,也就是前面提到的,客戶只需通過對象存儲接口、文件接口或新的Streaming接口注入數(shù)據(jù),在分析端,完全不需要了解下層數(shù)據(jù)是款如何被存儲和計算一類的各種復雜環(huán)節(jié)。
一切以客戶為中心
Dell EMC流數(shù)據(jù)處理平臺并不只針對流數(shù)據(jù)處理,它可以處理實時數(shù)據(jù)和歷史數(shù)據(jù),目的是取代以Hadoop和Spark、Kafka為代表的現(xiàn)有大數(shù)據(jù)處理平臺。Dell EMC新的流數(shù)據(jù)處理平臺是一個揚長避短,或者說是取長補短后達成一個統(tǒng)一的架構。
基于新的架構,Dell EMC在數(shù)據(jù)注入端和存儲端做到歷史數(shù)據(jù)和實時數(shù)據(jù)的統(tǒng)一,而且因為開源,高度的安全得以保證,最終智能地降低了用戶在DevOps上的開銷。
所有這一切創(chuàng)建的Dell EMC流數(shù)據(jù)處理平臺,終極目標就是為了降低客戶擁抱新平臺的投入,同時提供關鍵的安全隔離、穩(wěn)定和容易支持的特性,幫助客戶加速數(shù)字化轉型。
采訪的最后,滕昱表示,“現(xiàn)有技術無法滿足現(xiàn)有用例的需求,就是技術進步的動力。Dell EMC真的是從客戶那里收集這些要求去設計各種新的架構的。”