當然需要警告的情況也有,因為谷歌聘請了Mammoth數(shù)據(jù)來開展基準化谷歌云計算數(shù)據(jù)流研究,主要對象是其數(shù)據(jù)處理服務和編程模型。數(shù)據(jù)流是一種有償服務,但該平臺的API最近被作為與Apache軟件基金會的聯(lián)合孵化項目而采納,并以Apache Beam命名,于今年年初已經(jīng)提交。
似乎是為了強調項目的中立性,Mammoth數(shù)據(jù)指出,實際上該項目使用Apache Spark幫助其顧問業(yè)務。因此,該項目進行了一次全面的“對象研究”,顧問說。 “鑒于我們在現(xiàn)實世界中使用Hadoop和星火的經(jīng)驗,谷歌要求我們“淺嘗輒止”,并分享我們的見解與發(fā)現(xiàn) – 好的壞的都要分享,”?Mammoth數(shù)據(jù)在一份聲明中說。
然而結果對于谷歌而言是非常有利的,數(shù)據(jù)流和幾個主要指標Spark的性能相比,已經(jīng)翻了一番,甚至更多。例如,數(shù)據(jù)流以更小的集群共五次擊敗了Spark,并以更大的集群兩次獲勝,Mammoth數(shù)據(jù)說道。
“由于我們部署了更大的集群,Spark的確展示了其近乎線性的時鐘時間性能的提升,然而數(shù)據(jù)流曲線更多地呈現(xiàn)出漸進式。” “我們也注意到,大約需要8倍的Spark資源才能達到最慢的數(shù)據(jù)流任務運行時間(128核),考慮到成本的影響和資源容量的規(guī)劃時,這是一個關鍵點?!?/p>
時鐘時間性能對比(以秒為單位)來自Mammoth數(shù)據(jù)
Mammoth數(shù)據(jù)也觀察到自動縮放功能,方便使用和編程模型(對開發(fā)商實用)的平臺,數(shù)據(jù)流再次技高一籌,特別是在使用歷史數(shù)據(jù)的時候。
“依托Spark的云數(shù)據(jù)流有一個明顯的優(yōu)勢,那就是Spark的內置窗口功能不可以與“合成”的時間戳共同工作,時間戳; “的報告中說,你只能使用基于時間的Spark窗口來接收數(shù)據(jù),而不是存儲與數(shù)據(jù)的時間戳?!斑@樣就很難使用Spark來批量處理歷史數(shù)據(jù)了”。
相比之下,Mammoth數(shù)據(jù)表示,數(shù)據(jù)流的原生窗口功能是直接使用的,并采用更簡易的模式。使用Spark也有必要“揉”進一些緩存和存儲選項,從而避免在基準程序運行期間耗盡內存。數(shù)據(jù)流,從另一方面看,即使使用較小的節(jié)點集群也可以自動管理資源優(yōu)化。
【更多行業(yè)資訊,請關注DOIT官方微信(微信號:doitmedia),關注科技與數(shù)據(jù)經(jīng)濟,洞察IT走向DT?!?/p>