作為由VMware與EMC共同創(chuàng)立的后起之秀,Pivotal正努力面向未來打造應(yīng)用程序平臺,并在近日推出了其第一款基于Hadoop大數(shù)據(jù)處理工具的產(chǎn)品。
這款新產(chǎn)品被稱為Pivotal HD,也就是Pivotal Hadoop發(fā)行版的縮寫。這款1.0版本將以相對低廉的價(jià)格與輔助插件共同為用戶帶來合約支持,成為Hadoop陣營的又一顆新星。
從技術(shù)角度講,這已經(jīng)不是磁盤陣列制造商與軟件供應(yīng)商EMC公司第一次推出Hadoop發(fā)行版了。隨著幾年前該公司完成了對Grrenplum并行數(shù)據(jù)庫與相關(guān)數(shù)據(jù)倉儲設(shè)備的收購,EMC成功將MapR技術(shù)與經(jīng)過重新設(shè)計(jì)及品牌包裝的Greenplum HD衍生方案相結(jié)合。
不過隨著Pivotal HD 1.0版本的發(fā)布,我們看到EMC與VMware將關(guān)注重點(diǎn)再次集中在Apache Hadoop身上,將其2.0代碼作為Pivotal HD 1.0的創(chuàng)建基礎(chǔ)。
具體說來,Pivotal HD中包含著Hadoop 2.0.2軟件核心,即利用原有MapReduce 1.0算法與新增YARN 2.0算法共同負(fù)責(zé)服務(wù)器集群端的數(shù)據(jù)交付與處理任務(wù),而這一切都以Hadoop分布式文件系統(tǒng)(簡稱HDFS)為基礎(chǔ)。
所謂YARN(也就是眾所周知的MapReduce 2.0)層允許Hadoop框架載入其它各類算法,并對整套集群進(jìn)行分散與收集處理。
Pivotal HD的社區(qū)版作為免費(fèi)發(fā)行并擁有社區(qū)支持的版本,包含有HBase 0.94.2列式數(shù)據(jù)庫、Hive 0.9.1 SQL查詢引擎、Mahout 0.8.0機(jī)器學(xué)習(xí)層以及Pig 0.10.0腳本語言等組件。Flume 1.3.1日志收集工具與Sqoop 1.4.2數(shù)據(jù)交換工具也是該社區(qū)版本的重要組成部分。
Pivotal HD企業(yè)版則加入了Spring Java框架(由VMware提供)以及名為Serengeti的Hadoop虛擬化擴(kuò)展項(xiàng)目。企業(yè)版還擁有一套用于從其它來源將數(shù)據(jù)導(dǎo)入HDFS的數(shù)據(jù)載入器及一項(xiàng)基于HDFS的統(tǒng)一化存儲服務(wù)。Pivotal Command Center也是企業(yè)版中的一員,且與之前提到的各組件一樣由Pivotal自家開發(fā)。
HAWQ分布式SQL查詢引擎通過HDFS與Greenplum并行數(shù)據(jù)庫的結(jié)合實(shí)現(xiàn)智能化特性,因此能夠流暢地與SQL進(jìn)行交互并充當(dāng)企業(yè)版的一款在售插件。(我們意識到El Reg網(wǎng)站對于HAWQ的定義過于單純化。)
Pivotal HD Hadoop堆棧的不同版本與插件
HAWQ是一種實(shí)時查詢語言并被用于代替Hive,它使用類SQL查詢并將其劃入MapReduce批量任務(wù)。HAWQ與Cloudera CDH4發(fā)行版中的Impala數(shù)據(jù)庫層也存在競爭關(guān)系,而經(jīng)過加速的HBase功能也是MapR M7發(fā)行版中的組成部分。
在針對Pivotal HD 1.0發(fā)布撰寫的博文中,Pivotal公司Hadoop堆棧產(chǎn)品戰(zhàn)略與前景部門負(fù)責(zé)人Saravana Krishnamurthy解釋稱,目前有三套Hadoop代碼軟件包可供選擇:前面提到的社區(qū)版、企業(yè)版以及名為Pivotal單節(jié)點(diǎn)(Single Node)的版本。
社區(qū)版提供免費(fèi)下載,大家可以將其融入產(chǎn)品并利用社區(qū)網(wǎng)絡(luò)支持構(gòu)建起最多擁有50個節(jié)點(diǎn)的集群。(目前我們還不清楚用戶是否需要購買技術(shù)支持合約或者進(jìn)行付費(fèi)升級。)
企業(yè)版則集萬千寵愛于一身,不過用戶需要支付費(fèi)用——每個服務(wù)器節(jié)點(diǎn)每年的社區(qū)支持費(fèi)用為1000美元。相比之下,Hortonworks開出的每個集群(至少由十個節(jié)點(diǎn)構(gòu)成)要價(jià)12000美元顯得不夠厚道,Cloudera與MapR在各自版本中開出的單節(jié)點(diǎn)4000美元到5000美元的價(jià)格更是有些夸張。(兩者的定價(jià)都有些模糊,且各個版本之間的功能集也并不一致。)當(dāng)然,大家也可以直接購買企業(yè)版終身使用權(quán),但Pivotal并未披露其具體售價(jià)。
HAWQ為HDFS提供的SQL數(shù)據(jù)庫查詢層與Pivotal HD企業(yè)版一樣以節(jié)點(diǎn)為基礎(chǔ)進(jìn)行計(jì)費(fèi),不過Pivotal同樣沒有泄露具體價(jià)格。我們很難估量Pivotal將如何為這項(xiàng)功能制定計(jì)費(fèi)標(biāo)準(zhǔn),但同類關(guān)系型數(shù)據(jù)庫往往每個計(jì)算核心都要求用戶支付數(shù)萬美元。如果確定以每臺服務(wù)器節(jié)點(diǎn)作為基礎(chǔ),則盈利空間也將至少達(dá)到數(shù)千乃至數(shù)萬美元。
如果硬要El Reg網(wǎng)站存儲頻道做出判斷,我們認(rèn)為如果數(shù)據(jù)倉儲的價(jià)格為每TB 20000美元而僅搭配HDFS與HBase的原始Hadoop集群每TB要價(jià)500美元,則Pivotal可能會以HAWQ作為計(jì)費(fèi)分界線,并為此開出10000美元每TB的價(jià)位。
如果大家采用搭配12塊3TB磁盤驅(qū)動器的惠普DL380e Gen8服務(wù)器節(jié)點(diǎn),那么整體數(shù)據(jù)容量將達(dá)到36TB。根據(jù)前面得到的結(jié)論,每TB 10000美元的定價(jià)意味著用戶將需要在這臺節(jié)點(diǎn)設(shè)備身上花掉360000美元。這樣的要價(jià)聽起來好像是窮瘋了,但如果與IBM及甲骨文在關(guān)系類數(shù)據(jù)庫的企業(yè)版本中開出的價(jià)格相比較,以上數(shù)字還算可以接受。不過在雙插槽服務(wù)器方面,其實(shí)際支出又會大幅提升。
問題的關(guān)鍵是,排除價(jià)格因素,Pivotal真正出售的并非Hadoop支持而是HAWQ數(shù)據(jù)庫層。這家年輕的企業(yè)顯然不希望走上低調(diào)上市、后期漲價(jià)的道路。
相反,Pivotal公司希望將HAWQ定位為特定領(lǐng)域的關(guān)系類數(shù)據(jù)庫替代方案,并希望以競爭對手的售價(jià)以及市場承受能力作為基礎(chǔ)參考。不過最后的結(jié)果很可能是主流客戶根本不會為任何其它方案掏出與關(guān)系類數(shù)據(jù)庫同級別的資金投入,甚至連打個對折都不會考慮。HAWQ最終將不得不嘗試按量計(jì)費(fèi)的方針,正如Linux與MySQl一樣。
而且如果Pivotal對于HAWQ的定價(jià)過高,企業(yè)用戶將很可能轉(zhuǎn)而投向Impala項(xiàng)目懷抱甚至選擇自主研發(fā)方案(這要看Cloudera給Impala開出怎樣的社區(qū)支持價(jià)碼)?梢哉f目前Hadoop的類SQL或SQL查詢層方面進(jìn)入了價(jià)格競低的時代,哪家廠商敢于開出業(yè)界最低的價(jià)位、他們就將掌握該領(lǐng)域的階段性定價(jià)權(quán)。
不過目前還沒人急于探詢價(jià)格底限——除了Hadoop客戶自己。