當(dāng)然需要警告的情況也有,因?yàn)楣雀杵刚?qǐng)了Mammoth數(shù)據(jù)來開展基準(zhǔn)化谷歌云計(jì)算數(shù)據(jù)流研究,主要對(duì)象是其數(shù)據(jù)處理服務(wù)和編程模型。數(shù)據(jù)流是一種有償服務(wù),但該平臺(tái)的API最近被作為與Apache軟件基金會(huì)的聯(lián)合孵化項(xiàng)目而采納,并以Apache Beam命名,于今年年初已經(jīng)提交。
似乎是為了強(qiáng)調(diào)項(xiàng)目的中立性,Mammoth數(shù)據(jù)指出,實(shí)際上該項(xiàng)目使用Apache Spark幫助其顧問業(yè)務(wù)。因此,該項(xiàng)目進(jìn)行了一次全面的“對(duì)象研究”,顧問說。 “鑒于我們?cè)诂F(xiàn)實(shí)世界中使用Hadoop和星火的經(jīng)驗(yàn),谷歌要求我們“淺嘗輒止”,并分享我們的見解與發(fā)現(xiàn) – 好的壞的都要分享,”?Mammoth數(shù)據(jù)在一份聲明中說。
然而結(jié)果對(duì)于谷歌而言是非常有利的,數(shù)據(jù)流和幾個(gè)主要指標(biāo)Spark的性能相比,已經(jīng)翻了一番,甚至更多。例如,數(shù)據(jù)流以更小的集群共五次擊敗了Spark,并以更大的集群兩次獲勝,Mammoth數(shù)據(jù)說道。
“由于我們部署了更大的集群,Spark的確展示了其近乎線性的時(shí)鐘時(shí)間性能的提升,然而數(shù)據(jù)流曲線更多地呈現(xiàn)出漸進(jìn)式?!?“我們也注意到,大約需要8倍的Spark資源才能達(dá)到最慢的數(shù)據(jù)流任務(wù)運(yùn)行時(shí)間(128核),考慮到成本的影響和資源容量的規(guī)劃時(shí),這是一個(gè)關(guān)鍵點(diǎn)?!?/p>
時(shí)鐘時(shí)間性能對(duì)比(以秒為單位)來自Mammoth數(shù)據(jù)
Mammoth數(shù)據(jù)也觀察到自動(dòng)縮放功能,方便使用和編程模型(對(duì)開發(fā)商實(shí)用)的平臺(tái),數(shù)據(jù)流再次技高一籌,特別是在使用歷史數(shù)據(jù)的時(shí)候。
“依托Spark的云數(shù)據(jù)流有一個(gè)明顯的優(yōu)勢(shì),那就是Spark的內(nèi)置窗口功能不可以與“合成”的時(shí)間戳共同工作,時(shí)間戳; “的報(bào)告中說,你只能使用基于時(shí)間的Spark窗口來接收數(shù)據(jù),而不是存儲(chǔ)與數(shù)據(jù)的時(shí)間戳?!斑@樣就很難使用Spark來批量處理歷史數(shù)據(jù)了”。
相比之下,Mammoth數(shù)據(jù)表示,數(shù)據(jù)流的原生窗口功能是直接使用的,并采用更簡(jiǎn)易的模式。使用Spark也有必要“揉”進(jìn)一些緩存和存儲(chǔ)選項(xiàng),從而避免在基準(zhǔn)程序運(yùn)行期間耗盡內(nèi)存。數(shù)據(jù)流,從另一方面看,即使使用較小的節(jié)點(diǎn)集群也可以自動(dòng)管理資源優(yōu)化。
【更多行業(yè)資訊,請(qǐng)關(guān)注DOIT官方微信(微信號(hào):doitmedia),關(guān)注科技與數(shù)據(jù)經(jīng)濟(jì),洞察IT走向DT?!?/p>