當(dāng)然需要警告的情況也有,因為谷歌聘請了Mammoth數(shù)據(jù)來開展基準(zhǔn)化谷歌云計算數(shù)據(jù)流研究,主要對象是其數(shù)據(jù)處理服務(wù)和編程模型。數(shù)據(jù)流是一種有償服務(wù),但該平臺的API最近被作為與Apache軟件基金會的聯(lián)合孵化項目而采納,并以Apache Beam命名,于今年年初已經(jīng)提交。
似乎是為了強(qiáng)調(diào)項目的中立性,Mammoth數(shù)據(jù)指出,實際上該項目使用Apache Spark幫助其顧問業(yè)務(wù)。因此,該項目進(jìn)行了一次全面的“對象研究”,顧問說。 “鑒于我們在現(xiàn)實世界中使用Hadoop和星火的經(jīng)驗,谷歌要求我們“淺嘗輒止”,并分享我們的見解與發(fā)現(xiàn) – 好的壞的都要分享,”?Mammoth數(shù)據(jù)在一份聲明中說。
然而結(jié)果對于谷歌而言是非常有利的,數(shù)據(jù)流和幾個主要指標(biāo)Spark的性能相比,已經(jīng)翻了一番,甚至更多。例如,數(shù)據(jù)流以更小的集群共五次擊敗了Spark,并以更大的集群兩次獲勝,Mammoth數(shù)據(jù)說道。
“由于我們部署了更大的集群,Spark的確展示了其近乎線性的時鐘時間性能的提升,然而數(shù)據(jù)流曲線更多地呈現(xiàn)出漸進(jìn)式?!?“我們也注意到,大約需要8倍的Spark資源才能達(dá)到最慢的數(shù)據(jù)流任務(wù)運(yùn)行時間(128核),考慮到成本的影響和資源容量的規(guī)劃時,這是一個關(guān)鍵點。”
時鐘時間性能對比(以秒為單位)來自Mammoth數(shù)據(jù)
Mammoth數(shù)據(jù)也觀察到自動縮放功能,方便使用和編程模型(對開發(fā)商實用)的平臺,數(shù)據(jù)流再次技高一籌,特別是在使用歷史數(shù)據(jù)的時候。
“依托Spark的云數(shù)據(jù)流有一個明顯的優(yōu)勢,那就是Spark的內(nèi)置窗口功能不可以與“合成”的時間戳共同工作,時間戳; “的報告中說,你只能使用基于時間的Spark窗口來接收數(shù)據(jù),而不是存儲與數(shù)據(jù)的時間戳?!斑@樣就很難使用Spark來批量處理歷史數(shù)據(jù)了”。
相比之下,Mammoth數(shù)據(jù)表示,數(shù)據(jù)流的原生窗口功能是直接使用的,并采用更簡易的模式。使用Spark也有必要“揉”進(jìn)一些緩存和存儲選項,從而避免在基準(zhǔn)程序運(yùn)行期間耗盡內(nèi)存。數(shù)據(jù)流,從另一方面看,即使使用較小的節(jié)點集群也可以自動管理資源優(yōu)化。
【更多行業(yè)資訊,請關(guān)注DOIT官方微信(微信號:doitmedia),關(guān)注科技與數(shù)據(jù)經(jīng)濟(jì),洞察IT走向DT?!?/p>