HDP的Datasheet中描述的版本特點(diǎn)是
集成和測試封裝 – HDP包括穩(wěn)定版本的Apache Hadoop的所有關(guān)鍵組件,集成和測試封裝。
安裝方便– HDP包括一個(gè)現(xiàn)代化的,直觀的用戶界面的安裝和配置工具。
管理和監(jiān)控服務(wù) – HDP包括直觀的儀表板,為監(jiān)測集群和建立警示。
數(shù)據(jù)集成服務(wù) – HDP包括Talend大數(shù)據(jù)平臺,領(lǐng)先的開源整合工具,輕松連接Hadoop集群,而無需編寫Hadoop代碼的數(shù)據(jù)系統(tǒng)集成工具。
元數(shù)據(jù)服務(wù) – HDP包括的Apache HCatalog,從而簡化了Hadoop的應(yīng)用程序之間和Hadoop和其他數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)共享。
高可用性– HDP與成熟的高可用性解決方案的無縫集成。
定價(jià)以集群為基礎(chǔ),每10個(gè)節(jié)點(diǎn)每年為12500美元。
cloudera和hortonworks均是在不斷的提交代碼完善Apache hadoop,而2009年成立的MapR公司在Hadoop領(lǐng)域顯得有點(diǎn)特立獨(dú)行,它提供了一款獨(dú)特的發(fā)行版 。Hadoop在性能(在當(dāng)前Hadoop的設(shè)計(jì)中,所有的meta data操作都要通過集中式的Namenode來進(jìn)行,Namenode有可能是性能的瓶頸;M/R 應(yīng)用程序需要通過DataNode來訪問HDFS, 這就涉及到格外的進(jìn)程切換和網(wǎng)絡(luò)傳輸開銷),可靠性與擴(kuò)展性(namenode,jobtracker單點(diǎn)問題),企業(yè)級應(yīng)用上的弱點(diǎn)(比如完全可讀寫的 文件系統(tǒng),snapshot,mirror等等)各大廠商均知,MapR則認(rèn)為,Hadoop的這些缺陷來自于其架構(gòu)設(shè)計(jì)本身,小修小補(bǔ)不能解決問題。他 們選擇了一條艱難得多的路: 用新架構(gòu)重寫HDFS,同時(shí)在API級別,和目前的Hadoop 發(fā)行版保持兼容。這家2009年成立的創(chuàng)業(yè)公司,在蟄伏了兩年之后,終于一鳴驚人,大放異彩。他們成功的“構(gòu)建一個(gè)HDFS的私有替代品,這個(gè)替代品比當(dāng) 前的開源版本快三倍,自帶快照功能,而且支持無Namenode單點(diǎn)故障(SPOF),并且在API上和兼容,所以可以考慮將其作為替代方案。” mapR版本不再需要單獨(dú)的namenode機(jī)器,元數(shù)據(jù)分散在集群中,也類似數(shù)據(jù)默認(rèn)存儲三份。也不再需要用NAS來協(xié)助namenode做元數(shù)據(jù)備 份,提供了機(jī)器使用率。還有個(gè)重要的特點(diǎn)的可以使用nfs直接訪問hdfs,提供了與舊有應(yīng)用的兼容性。鏡像功能也很適合做數(shù)據(jù)備份,而且支持跨數(shù)據(jù)中心 的鏡像,快照功能對于數(shù)據(jù)的恢復(fù)作用明顯。據(jù)報(bào)道m(xù)apR標(biāo)價(jià)也為每年每個(gè)節(jié)點(diǎn)4000美元。
mapR有免費(fèi)和商業(yè)兩個(gè)版本,免費(fèi)版本在功能上有所縮減。
EMC的Greenplum HD是基于mapR版本二次開發(fā)改造而成,特點(diǎn)同mapR。
IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的 數(shù)據(jù)。IBM在平臺管理,安全認(rèn)證,作業(yè)調(diào)度算法,與DB2及netezza的集成上做了增強(qiáng)。從IBM中國開發(fā)中心信息管理總經(jīng)理朱輝下面這句話就可以 看出IBM對于biginsights的定位:BigInsights并沒有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)應(yīng)用程序,但它可以整合其中,用于“過濾大量原始數(shù)據(jù)并合并結(jié)果,將結(jié)果以結(jié)構(gòu)化數(shù)據(jù)的形式保存在DBMS或數(shù)據(jù)倉庫中”。
傳統(tǒng)的硬件廠商,華為,Intel也提供hadoop的版本
Intel 的商業(yè)版本,主要是強(qiáng)調(diào)其能提供全面的軟硬件解決方案設(shè)計(jì),針對硬件具有更好的性能優(yōu)化,以及提供集群管理工具和安裝工具簡化了 Hadoop 的安裝和配置,能夠提供項(xiàng)目規(guī)劃到實(shí)施各階段專業(yè)的咨詢服務(wù),實(shí)際中采購Intel版本貌似動(dòng)力不足。
華為在硬件上具有天然的優(yōu)勢,在網(wǎng)絡(luò),虛擬化,PC 機(jī)等都有很強(qiáng)的硬件實(shí)力。華為的hadoop版本基于自研的Hadoop HA平臺,構(gòu)建NameNode、JobTracker、HiveServer的HA功能,進(jìn)程故障后系統(tǒng)自動(dòng)Failover,無需人工干預(yù),這個(gè)也是 對hadoop的小修補(bǔ),遠(yuǎn)不如mapR解決的徹底。華為在hadoop社區(qū)中的Contributor和committer也是國內(nèi)最多的,算是國內(nèi)技 術(shù)實(shí)力較強(qiáng)的公司。