基于Java語言構(gòu)建的Hadoop框架實際上一種分布式處理大數(shù)據(jù)平臺,其包括軟件和眾多子項目。在近十年中Hadoop已成為大數(shù)據(jù)革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數(shù)據(jù)集(TB級別的數(shù)據(jù)。包括網(wǎng)絡點擊產(chǎn)生的流數(shù)據(jù)、日志文件、社交網(wǎng)絡等所帶來的數(shù)據(jù))并生成相關的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言借鑒而來的,同時也包含了從矢量編程語言借鑒的特性。
互聯(lián)網(wǎng)巨頭Yahoo!作為Hadoop框架的先驅(qū)研究者,在6年時間已經(jīng)將Hadoop塑造成了極為成功的技術(shù)。但相比于SQL,Hadoop在某些方面仍然顯得不夠完善。這直接導致現(xiàn)今所有目光都集中在Hadoop供應商的身上。包括Amazon、Cloudera等公司帶來眾多的創(chuàng)新并提供強大的工具。
Cloudera推出的CHD3包含眾多的附加軟件,可以幫助管理、運行Hadoop上的復雜任務,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等。同時Cloudera也是目前最大的提供企業(yè)Hadoop技術(shù)支持和培訓的廠商。而Amazon是較早在公共云中運行Hadoop的公司,其提供的基于MapReduce的彈性計算可提供海量的數(shù)據(jù)計算服務。
但數(shù)據(jù)處理只是大數(shù)據(jù)處理的一部分,組織最終想要得到的是經(jīng)過分析后的有價值的數(shù)據(jù)。商業(yè)智能和數(shù)據(jù)分析廠商如Datameer、Hadapt以及Karmasphere就顯的不可或缺。
Hadoop在2011年證明自神的價值,最明顯的跡象就是五大數(shù)據(jù)庫管理軟件供應商EMC、IBM、Informatica、Microsoft 以及Oracle都投入了Hadoop的懷抱。EMC與MapR展開合作,而Microsoft和Oracle則分別與Hortonworks和 Cloudera展開了合作。而EMC和Oracle已經(jīng)推出了Hadoop專有設備。下面就讓我們來看一下Hadoop在大數(shù)據(jù)領域都俘虜了那些公司的心。
Amazon基于MapReduce的服務
Amazon早在2009年就推出了基于Hadoop MapReduce的EC2(Elastic Compute Cloud)服務。因此Amazon在應對用戶應用和需求上顯得胸有成竹。無論是中小型企業(yè)還是超大型的組織,基于MapReduce的EC2服務都經(jīng)受住了考驗。同時AWS(Amazon Web Service)還包括Amazon S3(Simple storage Service)。Amazon S3可提供高伸縮性、靠可靠性、高可用性以及極低的存儲成本。利用AWS可高效的處理數(shù)據(jù)密集型的任務,如Web索引、數(shù)據(jù)挖掘、日志文件分析、機器學習以及科技和生物信息的學術(shù)研究。
Cloudera提供安全的Hadoop平臺
Cloudera也是比較早的大規(guī)模Hadoop軟件和服務提供商。Cloudera一直專注于將開源的Apache Hadoop完善成可靠的平臺。Cloudera目前擁有100多家客戶,并且在本月還與Oracle展開合作,共同進軍大數(shù)據(jù)領域。
在Cloudera提供了用于管理大數(shù)據(jù)的管理控制臺和負責管理Hadoop部署的工具以及企業(yè)級的支持。Cloudera的管理工具提供基于向?qū)降腍adoop安裝和配置菜單。同時提供相應的工具,以幫助系統(tǒng)管理員監(jiān)控平臺的健康狀況、診斷問題、優(yōu)化性能,并進行所需的配置和安全變更。而 Cloudera的企業(yè)級支持與服務包括配置檢查、升級和與第三方系統(tǒng)集成以及其他技術(shù)資源?,F(xiàn)今Cloudera管理軟件現(xiàn)在的價格是每節(jié)點每年 4000美元(不包括硬件)。
Datameer將大數(shù)據(jù)與商業(yè)智能有機結(jié)合
Datameer宣稱其公司基于Hadoop平臺的產(chǎn)品方案DAS(Datameer Analytics Solution)非常適用于商業(yè)智能(BI)。Datameer可通過JDBC、Hive、Http連接任何的數(shù)據(jù)源。同時包括一個向?qū)?qū)動集成平臺,可安排負載并從任何結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的大數(shù)據(jù)集。Datameer的大數(shù)據(jù)分析解決方案通過表格接口整合Hadoop的數(shù)據(jù)挖掘能力。并通過 REST API在私有云和公共云中輸入和輸出數(shù)據(jù)。
EMC的統(tǒng)一數(shù)據(jù)分析平臺
EMC推出用于支持大數(shù)據(jù)分析的平臺――EMC Greenplum統(tǒng)一分析平臺(UAP)。Greenplum UAP是一個唯一的統(tǒng)一數(shù)據(jù)分析平臺,可擴展至其他工具,其獨特之處在于,它將對大數(shù)據(jù)的認知和分享貫穿整個分析過程,實現(xiàn)比以往更高的商業(yè)價值。UAP 包括EMC Greenplum 關系數(shù)據(jù)庫、EMC Greenplum HD Hadoop以及EMC Greenplum Chorus。UAP就好比一個數(shù)據(jù)分析團隊,包括了從數(shù)據(jù)科學家和BI分析師到DBA和在線商業(yè)用戶和管理者。EMC針對硬件設備DCA(Data Computing Appliance),其足以運行EMC Greenplum 關系數(shù)據(jù)庫和EMC Greenplum HD節(jié)點。DCA提供控制管理界面,方便管理人員監(jiān)視、管理Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能。
Hadapt與Hadoop環(huán)境無縫集成
Hive作為運行在Hadoop上的數(shù)據(jù)倉庫組件并不像Hadoop那樣受人關注。而Hadapt則提供集眾多功能于一身的數(shù)據(jù)分析環(huán)境,旨在處理存在于Hadoop和SQL環(huán)境中傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)。Hadapt平臺可運行在私有云和公共云之上,并提供從一個環(huán)境訪問數(shù)據(jù)的能力。包括現(xiàn)有基于SQL 的工具以及MapReduce處理和大數(shù)據(jù)分析。Hadapt自動分開執(zhí)行Hadoop和關系數(shù)據(jù)庫之間的查詢,處分利用了Hadoop的高擴展性和關系數(shù)據(jù)庫的高速性。
Hortonworks繼承Yahoo! Hadoop衣缽
Yahoo!在去年剝離了Hadoop業(yè)務,并與硅谷風投公司Benchmark Capital合資組建一家名為Hortonworks的公司。新公司包含在Yahoo!貢獻最大的50名工程師,旨在繼續(xù)推動Hadoop的發(fā)展。 Hortonworks高管斷言這支以Yahoo!開發(fā)團隊為班底的公司將會貢獻更多的Hadoop代碼,并指引Hadoop平臺未來的發(fā)展。 Hortonworks已在去年10月與微軟成為合作伙伴關系。Hortonworks可幫助Microsoft推出Windows平臺之上的 Hadoop。Hortonworks在去年11月也推出了自由的HDP(Hortonworks Data Platform)V1,而結(jié)合了最新0.23版Hadoop的HDP V2將在2012年第一季度推出。Hortonworks還提供Hadoop的培訓與支持,加強在這方面與Cloudera和MapR的競爭。
IBM的Hadoop之路
IBM在多年以前就開始研究Hadoop。現(xiàn)今IBM提供基于云服務的海量數(shù)據(jù)分析方面多種方案的選擇,但目前IBM的策略似乎主要是圍繞 Hadoop在發(fā)展。IBM在4月推出了其SmartCloud云計算平臺。并承諾改善Hadoop工作負載。IBM提供了基于Hadoop的 InfoSphere BigInsights(IBM InfoSphere BigInsights是用于分析和虛擬化海量數(shù)據(jù)的軟件和服務,這款新產(chǎn)品由 Apache Hadoop 提供技術(shù)支持。)基本版和企業(yè)版。 InfoSphere BigInsights之前作為IBM測試和開發(fā)的云產(chǎn)品,現(xiàn)在被SmartCloud取代。
Informatica 向云更進一步
大多數(shù)的數(shù)據(jù)管理軟件供應商(如IBM、Oracle、Syncsort、Talend)都涉及到Hadoop。Informatica在去年10月也推出了Hadoop環(huán)境下的數(shù)據(jù)編譯轉(zhuǎn)換解決方案――HParser。
該方案可以運行在幾乎所有的Apache Hadoop分布式環(huán)境中,與MapReduce架構(gòu)平行,能高效率地把無結(jié)構(gòu)的復雜數(shù)據(jù)――諸如網(wǎng)絡記錄、社交媒體數(shù)據(jù)、通話詳細記錄以及其他數(shù)據(jù)格式 ――轉(zhuǎn)換為Hadoop中結(jié)構(gòu)或半結(jié)構(gòu)格式。當把數(shù)據(jù)轉(zhuǎn)化為更具結(jié)構(gòu)性的格式后,便可以得到更快速的使用和生效,從而驅(qū)動業(yè)務發(fā)展、提高運營效率。
Karmasphere Hadoop數(shù)據(jù)分析利器
Karmasphere提供了直接訪問Hadoop中結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以及進一步分析查詢的特性,同時Karmasphere還提供的可視化工作空間。Karmasphere提供的可視化工具提供了SQL或其他特定查詢語言分析位于Amazon S3、工作流以及本地文件系統(tǒng)上的結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)的特性。企業(yè)還可以使用數(shù)據(jù)庫或相關工具(例如Excel)來提取分析得出的數(shù)據(jù)。
MapR帶來更高性能的Hadoop
MapR在Hadoop的舞臺上顯得格外耀眼,其提供Hadoop非常獨特。MapR基于開源Hadoop,在只需有限硬件的環(huán)境中提供更快的 Hadoop。同時Mapr配備了快照,并號稱不會出現(xiàn)SPOF單節(jié)點故障,且被認為是與現(xiàn)有HDFS的API兼容。因此非常容易替換原有的系統(tǒng)。 MapR最新的0.23版解決許多開源Hadoop的缺陷。而MapR與EMC的合作體現(xiàn)在了EMC Greenplum HD Enterprise Edition上,其就是基于MapR M5構(gòu)建的。
Microsoft全面擁抱Hadoop
當EMC、IBM、Oracle都在2011年涉及Hadoop時,Microsoft全面擁抱Hadoop的舉動就顯得不足為奇了。而 Hadoop的Windows Server將在在2012年推出,屆時其還會與微軟現(xiàn)有的BI工具聯(lián)合處理任務。去年微軟表示推出Windows Azure上的Hadoop預覽版,微軟還使Hadoop的數(shù)據(jù)通過部署在基于云的Windows Azure獲取。并使其能夠與企業(yè)的商業(yè)智能工具一起分析數(shù)據(jù)。微軟目前正與Hortonworks合作旨在努力簡化下載、安裝和配置等幾個Hadoop 的相關技術(shù)。包括HDFS、Hive、Pig。這將有利于企業(yè)通過Hadoop拓寬自身的業(yè)務。微軟將編寫新的ODBC驅(qū)動程序并擴展自己現(xiàn)有的查詢系統(tǒng)到Hive。這樣一來用戶將能夠直接從Excel、PowerView執(zhí)行Hadoop查詢。
Oracle進軍云計算
Oracle在2011 Oracle全球大會上宣布推出了Oracle Big Data Appliance。Big Data Appliance是一個集成了Hadoop、NoSQL Database、Oracle數(shù)據(jù)庫Hadoop適配器、Oracle數(shù)據(jù)庫Hadoop裝載器及R語言的系統(tǒng)。Oracle還在今年1月與 Cloudera成為合作伙伴關系。Oracle現(xiàn)已將Cloudera Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大數(shù)據(jù)機之中。
Oracle也將利用Cloudera在Hadoop領域的專業(yè)知識提供培訓及咨詢業(yè)務。Oracle大數(shù)據(jù)機中運行了Oracle Linux操作系統(tǒng),1個機架中包含18個Oracle-Sun服務器,共計216個核心,同時具備864GB的內(nèi)存和648TB的存儲能力,其售價為 45萬美元。