這樣的架構(gòu)存在三大問題:
一是它把數(shù)據(jù)根據(jù)時(shí)間的屬性走向兩條處理邏輯,應(yīng)用程序的處理邏輯會(huì)被寫兩遍;
二是這樣的架構(gòu)要得到批處理的正確結(jié)果才可以做聚合處理,對(duì)實(shí)時(shí)處理平臺(tái)而言帶來的是無法忍受的延遲;
三是原始數(shù)據(jù)在不同的開源項(xiàng)目當(dāng)中被拷貝了多份,如在Kafka中會(huì)有3拷貝,到了Spark Steaming還會(huì)有3拷貝,在整個(gè)系統(tǒng)和里存在6份甚至是9份拷貝的現(xiàn)象都很普遍。但其帶來容量的需求對(duì)客戶來說是一場(chǎng)噩夢(mèng),尤其是AI引入之后數(shù)據(jù)的增速是爆發(fā)式的。關(guān)鍵的是,Message bus并不是一個(gè)存儲(chǔ)系統(tǒng),在Kafka中的數(shù)據(jù)并不能保證被長(zhǎng)期存儲(chǔ)。而對(duì)大數(shù)據(jù)處理平臺(tái)來說,最重要的是先得把數(shù)據(jù)存下來才談得上發(fā)掘出更多的商業(yè)價(jià)值。
另外,Hadoop只能針對(duì)歷史數(shù)據(jù)做批處理,Spark和Kafka只能對(duì)Pub/Sub系統(tǒng)進(jìn)行梳理。可以說,傳統(tǒng)大數(shù)據(jù)平臺(tái)并不完美。
可以說,傳統(tǒng)單一的計(jì)算平臺(tái)已經(jīng)無法應(yīng)對(duì)如此復(fù)雜、多樣、海量的數(shù)據(jù)采集、處理的挑戰(zhàn)。
海量、低時(shí)延、非結(jié)構(gòu)化的數(shù)據(jù)特點(diǎn)將進(jìn)一步促進(jìn)數(shù)據(jù)處理和分析技術(shù)的進(jìn)步,推動(dòng)流式處理技術(shù)的發(fā)展。
那么,應(yīng)對(duì)5G和物聯(lián)網(wǎng)時(shí)代的下一代大數(shù)據(jù)處理平臺(tái),需要具備哪些能力?
5G時(shí)代呼喚新的數(shù)據(jù)處理平臺(tái)
2019年12月初的戴爾科技集團(tuán)上海研發(fā)中心之旅活動(dòng)中,戴爾科技集團(tuán)Dell EMC軟件工程總監(jiān)滕昱首先分析了大數(shù)據(jù)處理領(lǐng)域近期的三大趨勢(shì)。
一是在Amazon S3A推出之后,憑借其高可用容量和可擴(kuò)充性等特點(diǎn)逐漸形成對(duì)Hadoop分布式文件系統(tǒng)(HDFS)的取代之勢(shì),流式大數(shù)據(jù)處理平臺(tái)存儲(chǔ)端工作負(fù)載顯著增加;加上Hadoop可以直接運(yùn)行于S3A上,突破了綁定于HDFS上的限制??梢哉f,2020年將會(huì)是從HDFS轉(zhuǎn)向流存儲(chǔ)的元年。
二是在容器編排戰(zhàn)爭(zhēng)中,Kubernetes贏得了勝利,意味著未來的軟件平臺(tái)都將以Kubernetes為基礎(chǔ),在各種各樣公有云和私有云中自由地進(jìn)行工作負(fù)載的遷移變得更加容易。
三是在計(jì)算方面,除了要求準(zhǔn)確結(jié)果,還需要滿足更多實(shí)時(shí)計(jì)算的需求。一個(gè)經(jīng)典的用例就是銀行實(shí)時(shí)監(jiān)控的需求,除了能對(duì)線上數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控處理,還要同時(shí)能調(diào)用歷史數(shù)據(jù)。類似的場(chǎng)景還有IoT和5G,特別是車聯(lián)網(wǎng)的連接等越來越多的領(lǐng)域。
為了滿足層出不窮的實(shí)時(shí)應(yīng)用場(chǎng)景,同時(shí)降低大數(shù)據(jù)應(yīng)用平臺(tái)的投入,戴爾科技集團(tuán)決定推出一個(gè) “All in one”的新的大數(shù)據(jù)處理平臺(tái),即Dell EMC流數(shù)據(jù)處理平臺(tái)(Dell EMC Streaming Data Platform,簡(jiǎn)稱“DESDP”)。
起底Dell EMC流數(shù)據(jù)處理平臺(tái)
Dell EMC流數(shù)據(jù)處理平臺(tái)是戴爾科技集團(tuán)從零開始構(gòu)建的一套實(shí)時(shí)流式數(shù)據(jù)分析與存儲(chǔ)解決方案,旨在為編寫可靠的流式應(yīng)用程序提供基礎(chǔ)。
借助于該平臺(tái),客戶除了通過諸如S3一類的接口傳輸數(shù)據(jù),還可以通過Dell EMC即將提供的Streaming接口去注入數(shù)據(jù),計(jì)算端不再需要了解數(shù)據(jù)的來源及傳輸過程,僅需使用SQL或者通用的搜索語法,即可從數(shù)據(jù)中實(shí)時(shí)獲得商業(yè)價(jià)值。
Dell EMC Streaming接口與眾不同的最大特點(diǎn),是它能接入流數(shù)據(jù)。
流數(shù)據(jù)具有四個(gè)特點(diǎn),一是數(shù)據(jù)實(shí)時(shí)到達(dá),二是數(shù)據(jù)到達(dá)次序獨(dú)立,不受應(yīng)用系統(tǒng)所控制,三是數(shù)據(jù)規(guī)模宏大且不能預(yù)知其最大值,四是數(shù)據(jù)一經(jīng)處理,除非特意保存,否則不能被再次取出處理,或者再次提取數(shù)據(jù)代價(jià)昂貴。
從存儲(chǔ)端而言,流數(shù)據(jù)要求在大并發(fā)下實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)低延遲的讀和寫,同時(shí)對(duì)歷史數(shù)據(jù)要能高吞吐量的讀,這樣的特性才是一個(gè)合格的流存儲(chǔ)接口。
因此,一個(gè)成熟的流數(shù)據(jù)處理平臺(tái),首要的就是能具有同時(shí)存儲(chǔ)和處理實(shí)時(shí)數(shù)據(jù)的能力,開發(fā)者也無需根據(jù)數(shù)據(jù)的時(shí)間屬性開發(fā)兩套不同的商業(yè)邏輯,其次,對(duì)于企業(yè)而言,只要做好存儲(chǔ)和計(jì)算動(dòng)態(tài)的擴(kuò)容和縮容,應(yīng)用程序無需根據(jù)工作負(fù)載大小進(jìn)行感知,第三,平臺(tái)當(dāng)中的數(shù)據(jù)一定會(huì)被處理而且僅被處理一次,保證大數(shù)據(jù)處理平臺(tái)企業(yè)級(jí)應(yīng)用的價(jià)值。
(1)Dell EMC流數(shù)據(jù)處理平臺(tái)架構(gòu)剖析
分析Dell EMC新的流數(shù)據(jù)處理平臺(tái)架構(gòu),中間部分是計(jì)算端和流處理端,其上是分為左右兩部分的流數(shù)據(jù)平臺(tái)。
左邊是Dell EMC開發(fā)并開源的流式數(shù)據(jù)存儲(chǔ)引擎Pravega,它作為該平臺(tái)的基礎(chǔ)組件實(shí)現(xiàn)流存儲(chǔ)的抽象來滿足計(jì)算平臺(tái)達(dá)到實(shí)時(shí)和歷史數(shù)據(jù)抽象統(tǒng)一的要求。
數(shù)據(jù)注入到一定程度后就會(huì)放置到持久化存儲(chǔ)中,或者是Isilon 或者是ECS,也可以是今年將推出的全新的對(duì)象存儲(chǔ)架構(gòu)。歷史數(shù)據(jù)存儲(chǔ)在Tier2的Isilon和ECS上,之后對(duì)數(shù)據(jù)處理引擎也進(jìn)行了統(tǒng)一處理。
這種兩層的架構(gòu)解決了存儲(chǔ)端去進(jìn)行實(shí)時(shí)和歷史數(shù)據(jù)的抽象統(tǒng)一。
(2)Isilon——百分百本地化研發(fā)生產(chǎn)的存儲(chǔ)產(chǎn)品
在這里必須給Isilon打個(gè)廣告。
上一篇文章曾說過,戴爾科技集團(tuán)中國(guó)研發(fā)集團(tuán)有兩大引以為自豪的產(chǎn)品,一個(gè)是VxRail,另一個(gè)就是Isilon,而且是百分百本地化研發(fā)生產(chǎn)的產(chǎn)品。
談到Isilon的應(yīng)用場(chǎng)景,戴爾科技集團(tuán)大中華區(qū)企業(yè)技術(shù)戰(zhàn)略總監(jiān)許良謀表示,解決數(shù)據(jù)孤島就是Isilon一個(gè)典型的擅長(zhǎng),因?yàn)樗<{百川,支持各種協(xié)議。另外,Isilon還可當(dāng)作數(shù)據(jù)的承載,用這樣的方式去解耦,甚至還可以在VMware上做Hadoop,幫助客戶降低成本。這在制造業(yè)的優(yōu)勢(shì)尤其明顯。除此之外,Isilon在媒體、生物科技以及基因測(cè)序等領(lǐng)域的需求都非常旺盛。
戴爾科技集團(tuán)全球資深副總裁、大中華區(qū)企業(yè)解決方案總經(jīng)理曹志平補(bǔ)充說,風(fēng)靡2018年的電影《哪吒》也是在Isilon平臺(tái)上完成的三維動(dòng)畫渲染;每一次展會(huì)上戴爾科技集團(tuán)Isilon支持播放的自動(dòng)駕駛的輔助設(shè)計(jì)系統(tǒng)效果最好,因而受到很多的汽車廠商的青睞,Isilon行業(yè)的應(yīng)用是非常普遍的。
戴爾科技集團(tuán)中國(guó)研發(fā)集團(tuán)上海研發(fā)中心總經(jīng)理陳春曦很風(fēng)趣:作為一名高科技研發(fā)工作者,他自我感覺很高大上,但在他母親眼里他一直就是一個(gè)“修電腦“的?!赌倪浮飞鲜泻螅嬖V母親說影片采用的就是他參與研究的成果,令母親對(duì)他從此刮目相看,自己在家里的地位也提高了不少。
“所以要感謝《哪吒》!” 陳春曦開心地說。
回到Dell EMC新的流數(shù)據(jù)處理平臺(tái)架構(gòu),在該圖右邊的計(jì)算平臺(tái)方面,Dell EMC與開源社區(qū)合作,創(chuàng)建和管理Flink集群并集成了Flink的企業(yè)特性,以現(xiàn)代流行的開源方式提供運(yùn)營(yíng)能力——將內(nèi)部的Metrics(指標(biāo))開源給成熟的硬件供應(yīng)商,同時(shí)大量簡(jiǎn)化開發(fā)框架。畢竟流處理和實(shí)時(shí)處理對(duì)應(yīng)用程序開發(fā)者來說也是一個(gè)新的挑戰(zhàn)。
除了2019年新支持的Flink,Dell EMC今年還將支持Search,把它們的功能帶入流處理世界。
最終,只要寫Flink SQL或Search語義,平臺(tái)就可以從這些數(shù)據(jù)中抓取商業(yè)邏輯。這是企業(yè)級(jí)下一代數(shù)據(jù)處理平臺(tái)最重要特點(diǎn),也就是前面提到的,客戶只需通過對(duì)象存儲(chǔ)接口、文件接口或新的Streaming接口注入數(shù)據(jù),在分析端,完全不需要了解下層數(shù)據(jù)是款如何被存儲(chǔ)和計(jì)算一類的各種復(fù)雜環(huán)節(jié)。
一切以客戶為中心
Dell EMC流數(shù)據(jù)處理平臺(tái)并不只針對(duì)流數(shù)據(jù)處理,它可以處理實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù),目的是取代以Hadoop和Spark、Kafka為代表的現(xiàn)有大數(shù)據(jù)處理平臺(tái)。Dell EMC新的流數(shù)據(jù)處理平臺(tái)是一個(gè)揚(yáng)長(zhǎng)避短,或者說是取長(zhǎng)補(bǔ)短后達(dá)成一個(gè)統(tǒng)一的架構(gòu)。
基于新的架構(gòu),Dell EMC在數(shù)據(jù)注入端和存儲(chǔ)端做到歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的統(tǒng)一,而且因?yàn)殚_源,高度的安全得以保證,最終智能地降低了用戶在DevOps上的開銷。
所有這一切創(chuàng)建的Dell EMC流數(shù)據(jù)處理平臺(tái),終極目標(biāo)就是為了降低客戶擁抱新平臺(tái)的投入,同時(shí)提供關(guān)鍵的安全隔離、穩(wěn)定和容易支持的特性,幫助客戶加速數(shù)字化轉(zhuǎn)型。
采訪的最后,滕昱表示,“現(xiàn)有技術(shù)無法滿足現(xiàn)有用例的需求,就是技術(shù)進(jìn)步的動(dòng)力。Dell EMC真的是從客戶那里收集這些要求去設(shè)計(jì)各種新的架構(gòu)的。”