袁紹龍 發(fā)表于:14年02月07日 10:35 [原創(chuàng)] DOIT.com.cn
Spark作為一個(gè)通用的并行計(jì)算框架,已經(jīng)成為繼Hadoop之后又一大熱門開(kāi)元項(xiàng)目,逐漸獲得很多企業(yè)的支持。近日,Cloudera正式宣布開(kāi)始商業(yè)支持Apache Spark 機(jī)器學(xué)習(xí)和數(shù)據(jù)流處理環(huán)境。
Spark內(nèi)存計(jì)算框架適合各種迭代算法和交互式數(shù)據(jù)分析,能夠提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性。而MapReduce處理框架則擅長(zhǎng)復(fù)雜的批處理操作、登陸過(guò)濾、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載)、網(wǎng)頁(yè)索引等應(yīng)用,MapReduce在低延遲業(yè)務(wù)上一直被人所詬病。
圖一:Spark內(nèi)存計(jì)算框架。
“Spark記錄著數(shù)據(jù)產(chǎn)生的每一個(gè)操作,能夠可靠地將這些數(shù)據(jù)存儲(chǔ)在內(nèi)存之中,這使得它非常適用于第掩飾的計(jì)算和有效的迭代算法。”Cloudera表示。
據(jù)悉,Cloudera Enterprise Data Hub版本提供多種先進(jìn)的組件的無(wú)限支持,如交互式SQL分析的Impala、交互式搜索、導(dǎo)航數(shù)據(jù)管理以及Hbase NoSQL。Enterprise Flex版本則提供可選擇組件版本,Enterprise Basic版本則是僅僅提供Hadoop基礎(chǔ)核心組件。
根據(jù)Cloudera介紹,Cloudera將會(huì)在兩個(gè)版本中安裝支持Spark組件。用戶可以利用它作為Enterprise Flex版本中一個(gè)可選組件,或者作為Enterprise Data Hub版本中包含的組件。
圖二:Spark On YARN
據(jù)悉,該產(chǎn)品采用了Spark 0.9.0,Spark獨(dú)立模式已經(jīng)在Cloudera Enterprise Data Hub4.4.0中測(cè)試過(guò)。在不久的將來(lái),Cloudera表示Enterprise 5.0和YARN中也將支持Spark。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.