Pivotal發(fā)布首款Hadoop大數(shù)據(jù)處理產(chǎn)品
ZDNet 發(fā)表于:13年07月22日 15:48 [轉載] DOIT.com.cn
作為由VMware與EMC共同創(chuàng)立的后起之秀,Pivotal正努力面向未來打造應用程序平臺,并在近日推出了其第一款基于Hadoop大數(shù)據(jù)處理工具的產(chǎn)品。
這款新產(chǎn)品被稱為Pivotal HD,也就是Pivotal Hadoop發(fā)行版的縮寫。這款1.0版本將以相對低廉的價格與輔助插件共同為用戶帶來合約支持,成為Hadoop陣營的又一顆新星。
從技術角度講,這已經(jīng)不是磁盤陣列制造商與軟件供應商EMC公司第一次推出Hadoop發(fā)行版了。隨著幾年前該公司完成了對Grrenplum并行數(shù)據(jù)庫與相關數(shù)據(jù)倉儲設備的收購,EMC成功將MapR技術與經(jīng)過重新設計及品牌包裝的Greenplum HD衍生方案相結合。
不過隨著Pivotal HD 1.0版本的發(fā)布,我們看到EMC與VMware將關注重點再次集中在Apache Hadoop身上,將其2.0代碼作為Pivotal HD 1.0的創(chuàng)建基礎。
具體說來,Pivotal HD中包含著Hadoop 2.0.2軟件核心,即利用原有MapReduce 1.0算法與新增YARN 2.0算法共同負責服務器集群端的數(shù)據(jù)交付與處理任務,而這一切都以Hadoop分布式文件系統(tǒng)(簡稱HDFS)為基礎。
所謂YARN(也就是眾所周知的MapReduce 2.0)層允許Hadoop框架載入其它各類算法,并對整套集群進行分散與收集處理。
Pivotal HD的社區(qū)版作為免費發(fā)行并擁有社區(qū)支持的版本,包含有HBase 0.94.2列式數(shù)據(jù)庫、Hive 0.9.1 SQL查詢引擎、Mahout 0.8.0機器學習層以及Pig 0.10.0腳本語言等組件。Flume 1.3.1日志收集工具與Sqoop 1.4.2數(shù)據(jù)交換工具也是該社區(qū)版本的重要組成部分。
Pivotal HD企業(yè)版則加入了Spring Java框架(由VMware提供)以及名為Serengeti的Hadoop虛擬化擴展項目。企業(yè)版還擁有一套用于從其它來源將數(shù)據(jù)導入HDFS的數(shù)據(jù)載入器及一項基于HDFS的統(tǒng)一化存儲服務。Pivotal Command Center也是企業(yè)版中的一員,且與之前提到的各組件一樣由Pivotal自家開發(fā)。
HAWQ分布式SQL查詢引擎通過HDFS與Greenplum并行數(shù)據(jù)庫的結合實現(xiàn)智能化特性,因此能夠流暢地與SQL進行交互并充當企業(yè)版的一款在售插件。(我們意識到El Reg網(wǎng)站對于HAWQ的定義過于單純化。)
▲Pivotal HD Hadoop堆棧的不同版本與插件
HAWQ是一種實時查詢語言并被用于代替Hive,它使用類SQL查詢并將其劃入MapReduce批量任務。HAWQ與Cloudera CDH4發(fā)行版中的Impala數(shù)據(jù)庫層也存在競爭關系,而經(jīng)過加速的HBase功能也是MapR M7發(fā)行版中的組成部分。
在針對Pivotal HD 1.0發(fā)布撰寫的博文中,Pivotal公司Hadoop堆棧產(chǎn)品戰(zhàn)略與前景部門負責人Saravana Krishnamurthy解釋稱,目前有三套Hadoop代碼軟件包可供選擇:前面提到的社區(qū)版、企業(yè)版以及名為Pivotal單節(jié)點(Single Node)的版本。
社區(qū)版提供免費下載,大家可以將其融入產(chǎn)品并利用社區(qū)網(wǎng)絡支持構建起最多擁有50個節(jié)點的集群。(目前我們還不清楚用戶是否需要購買技術支持合約或者進行付費升級。)
企業(yè)版則集萬千寵愛于一身,不過用戶需要支付費用——每個服務器節(jié)點每年的社區(qū)支持費用為1000美元。相比之下,Hortonworks開出的每個集群(至少由十個節(jié)點構成)要價12000美元顯得不夠厚道,Cloudera與MapR在各自版本中開出的單節(jié)點4000美元到5000美元的價格更是有些夸張。(兩者的定價都有些模糊,且各個版本之間的功能集也并不一致。)當然,大家也可以直接購買企業(yè)版終身使用權,但Pivotal并未披露其具體售價。
HAWQ為HDFS提供的SQL數(shù)據(jù)庫查詢層與Pivotal HD企業(yè)版一樣以節(jié)點為基礎進行計費,不過Pivotal同樣沒有泄露具體價格。我們很難估量Pivotal將如何為這項功能制定計費標準,但同類關系型數(shù)據(jù)庫往往每個計算核心都要求用戶支付數(shù)萬美元。如果確定以每臺服務器節(jié)點作為基礎,則盈利空間也將至少達到數(shù)千乃至數(shù)萬美元。
如果硬要El Reg網(wǎng)站存儲頻道做出判斷,我們認為如果數(shù)據(jù)倉儲的價格為每TB 20000美元而僅搭配HDFS與HBase的原始Hadoop集群每TB要價500美元,則Pivotal可能會以HAWQ作為計費分界線,并為此開出10000美元每TB的價位。
如果大家采用搭配12塊3TB磁盤驅動器的惠普DL380e Gen8服務器節(jié)點,那么整體數(shù)據(jù)容量將達到36TB。根據(jù)前面得到的結論,每TB 10000美元的定價意味著用戶將需要在這臺節(jié)點設備身上花掉360000美元。這樣的要價聽起來好像是窮瘋了,但如果與IBM及甲骨文在關系類數(shù)據(jù)庫的企業(yè)版本中開出的價格相比較,以上數(shù)字還算可以接受。不過在雙插槽服務器方面,其實際支出又會大幅提升。
問題的關鍵是,排除價格因素,Pivotal真正出售的并非Hadoop支持而是HAWQ數(shù)據(jù)庫層。這家年輕的企業(yè)顯然不希望走上低調上市、后期漲價的道路。
相反,Pivotal公司希望將HAWQ定位為特定領域的關系類數(shù)據(jù)庫替代方案,并希望以競爭對手的售價以及市場承受能力作為基礎參考。不過最后的結果很可能是主流客戶根本不會為任何其它方案掏出與關系類數(shù)據(jù)庫同級別的資金投入,甚至連打個對折都不會考慮。HAWQ最終將不得不嘗試按量計費的方針,正如Linux與MySQl一樣。
而且如果Pivotal對于HAWQ的定價過高,企業(yè)用戶將很可能轉而投向Impala項目懷抱甚至選擇自主研發(fā)方案(這要看Cloudera給Impala開出怎樣的社區(qū)支持價碼)?梢哉f目前Hadoop的類SQL或SQL查詢層方面進入了價格競低的時代,哪家廠商敢于開出業(yè)界最低的價位、他們就將掌握該領域的階段性定價權。
不過目前還沒人急于探詢價格底限——除了Hadoop客戶自己。