周建丁 發(fā)表于:14年06月26日 10:43 [翻譯] DOIT.com.cn
Google已經(jīng)棄用其曾經(jīng)的三大核心技術之一MapReduce,因為該系統(tǒng)已不能滿足這家互聯(lián)網(wǎng)巨頭的數(shù)據(jù)分析需求。
于周三在舊金山舉行的Google I/O大會上,Google宣布了這一消息。取而代之的,是一個新開發(fā)的稱為Cloud Dataflow的云分析系統(tǒng)。
MapReduce一直是一個非常受歡迎的基礎架構和編程模型,用于在服務器集群上做并行分布式計算。它也是Apache Hadoop大數(shù)據(jù)基礎架構平臺的一個基礎,后者已經(jīng)得到廣泛的部署,并成為許多公司的商業(yè)產(chǎn)品的核心。
然而,該技術已無法處理Google當前希望分析的數(shù)據(jù)量。Google技術基礎設施高級副總裁Urs Hölzle表示,當數(shù)據(jù)規(guī)模達到PB級別,MapReduce變得太麻煩。
“我們真的不再使用MapReduce了,”Hölzle在他的主題演講中說,該公司“多年前”就停止使用該系統(tǒng)。
在舊金山舉行的2014 Google I/O大會上,Google技術基礎設施高級副總裁Urs Hölzle宣布了一項新的云分析系統(tǒng)Cloud Dataflow。
Cloud Dataflow還將作為一項服務提供給使用Google云計算平臺的開發(fā)者,它沒有MapReduce的規(guī)模限制。
“Cloud Dataflow是數(shù)十年數(shù)據(jù)分析經(jīng)驗的成果,”Hölzle說。“和任何其他的系統(tǒng)相比,它的運行速度更快,擴展性更好。”
他表示,Cloud Dataflow是一項自動優(yōu)化、部署、管理和擴展的全面的管理服務。它允許開發(fā)人員使用統(tǒng)一的編程輕松地創(chuàng)建復雜的管道用于批處理和流媒體服務,并且可以迅速抓取任意大型數(shù)據(jù)集。
Google還表示,Cloud Dataflow可以通過動態(tài)圖顯示數(shù)據(jù)流,Google演示了在本屆世界杯上巴西對陣克羅地亞時的Twitter社區(qū)討論追蹤,當裁判“誤判點球”時,網(wǎng)友的反映變化一目了然。
Google認為,Cloud Dataflow所有的這些特性解決了MapReduce搞不定的工作:它很難迅速攝取數(shù)據(jù),它需要很多不同的技術,批處理和流是無關的,還有,MapReduce集群的部署和操作始終是必需的。