Concurrent公司工程總監(jiān)William Lazzaro

“Hadoop是我們用來解決大數(shù)據(jù)問題的‘鐵榔頭’,”Concurrent公司工程總監(jiān)William Lazzaro表示,“它讓我們在很短時(shí)間內(nèi)能夠處理大量數(shù)據(jù)。”

Concurrent公司的一個(gè)部門負(fù)責(zé)收集和存儲關(guān)于視頻的客戶統(tǒng)計(jì)數(shù)據(jù),這也是Hadoop發(fā)揮作用的地方,Lazzaro表示:“我們現(xiàn)在有一個(gè)客戶一個(gè)月要生成和保存30億數(shù)據(jù)記錄,我們預(yù)計(jì)在接下來的三個(gè)月,這個(gè)數(shù)字將達(dá)到一個(gè)月100億數(shù)據(jù)記錄。”

過去,Concurrent公司面對的兩個(gè)主要局限是:傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法處理非結(jié)構(gòu)化數(shù)據(jù)(如視頻),并且需要處理和存儲的數(shù)據(jù)量成倍增長。“我的客戶想要保存數(shù)據(jù)四到五年,”Lazzaro說道,“當(dāng)他們每天產(chǎn)生1PB數(shù)據(jù)時(shí),這將是一個(gè)大數(shù)據(jù)問題。”

有了Hadoop,Concurrent公司工程師發(fā)現(xiàn)他們能夠滿足其客戶日益增長的需求,Lazzaro 表示,“在測試過程中,他們嘗試為該客戶每天處理20億條記錄,通過向節(jié)點(diǎn)加入另一臺服務(wù)器后,我們發(fā)現(xiàn)完全能夠滿足他們的需求,并且能夠迅速擴(kuò)展。”

為了對比,該公司使用傳統(tǒng)數(shù)據(jù)庫進(jìn)行了相同的測試,發(fā)現(xiàn)Hadoop的主要優(yōu)勢之一在于它可以方便快捷地根據(jù)需要增加額外的硬件,而不需要額外的授權(quán)費(fèi)用,因?yàn)樗情_源產(chǎn)品。

生命科學(xué)和基因組公司NextBio公司是另一個(gè)Hadoop用戶,該公司主要負(fù)責(zé)涉及龐大的關(guān)于人類基因測序數(shù)據(jù)集的項(xiàng)目以及相關(guān)科研工作。

NextBio公司工程副總裁Satnam Alag

“我們引入各種基因組數(shù)據(jù),然后使用Hadoop對數(shù)據(jù)進(jìn)行處理,并與其他數(shù)據(jù)集進(jìn)行比較,”NextBio公司工程副總裁Satnam Alag表示,“Hadoop讓我們可以根據(jù)客戶需要對大量公共數(shù)據(jù)進(jìn)行分析,我們的客戶范圍包括制藥公司到學(xué)術(shù)研究人員。”NextBio使用的是來自 MapR的Hadoop產(chǎn)品。

一個(gè)典型的完整基因組序列可以包含120GB到150GB壓縮數(shù)據(jù),需要0.5TB的存儲容量以進(jìn)行處理。在過去,該公司需要花費(fèi)三天來分析這些數(shù)據(jù),但現(xiàn)在通過30到40臺運(yùn)行Hadoop的機(jī)器,NextBio的工作人員只需要三到四個(gè)小時(shí)就可以完成工作。Alag表示:“對于任何需要利用這些數(shù)據(jù)的應(yīng)用程序,Hadoop都帶來了很大的變化。”

Hadoop的另一大優(yōu)勢是它可以簡單地通過增加更多節(jié)點(diǎn)來按需擴(kuò)展系統(tǒng)。他表示:“如果沒有Hadoop,擴(kuò)展將是極具挑戰(zhàn)性和昂貴的工作。”這種所謂的橫向擴(kuò)展(增加更多商品硬件節(jié)點(diǎn)到Hadoop集群)是非常具有成本效益的系統(tǒng)方式。Hadoop框架“會自動處理集群中失效的節(jié)點(diǎn)”。

這極大地改變了該公司擴(kuò)大其計(jì)算能力以滿足其需求的方式。他表示:“我們不想在基礎(chǔ)設(shè)施上花費(fèi)太多錢,我們并沒有那么多資金。”

新類型應(yīng)用層出不窮

Hadoop的一個(gè)巨大優(yōu)勢在于它能夠?qū)Υ罅繑?shù)據(jù)集進(jìn)行分析并迅速發(fā)現(xiàn)趨勢。對于一家大型零售商,這可能意味著分析Facebook或者 Twitter用戶數(shù)據(jù)以了解上一季流行什么顏色的圍巾,將分析結(jié)果與現(xiàn)在的熱門顏色流行趨勢相比較就能夠幫助確定本季度銷售什么顏色的圍巾。

“它讓你能夠從過去的數(shù)據(jù)中尋求新的銷售機(jī)會,”Lazzaro說道。Concurrent公司就曾為一家汽車經(jīng)銷商分析商業(yè)廣告數(shù)據(jù),“我們可以從數(shù)據(jù)看出哪些人查看了商業(yè)廣告,然后就可以確定消費(fèi)群。”

傳統(tǒng)數(shù)據(jù)庫能夠滿足很多數(shù)據(jù)分類和分析需要,但對于超大規(guī)模數(shù)據(jù)集,Hadoop能夠更有效地找出信息,Lazzaro表示:“Hadoop就是為了這個(gè)目的而設(shè)計(jì)的。”

對于eBay來說,eBay的工程師“喜歡和非結(jié)構(gòu)化數(shù)據(jù)打交道,以及迅速為eBay建立新產(chǎn)品,”Williams表示,eBay工程師可以訪問該公司的3億份清單、歷史資料和大量相關(guān)信息,“這讓我們能夠更好地了解客戶,并建立他們想要的用戶體驗(yàn)。”這并不是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之爭,而是,“我們的工程師現(xiàn)在可以以前所未有的方式與數(shù)據(jù)打交道”。

Williams表示,在過去一年中,eBay使用Hadoop完成了一些非常了不起的事情,包括對商品陳列、用戶體驗(yàn)和用戶使用網(wǎng)站的方式的改善等。

例如,eBay工作人員可以看到客戶什么時(shí)候開始搜索萬圣節(jié)和圣誕節(jié)產(chǎn)品。“我還能告訴你人們在尋找的產(chǎn)品,而在五年以前,我們根本不理解這些數(shù)據(jù)。”

制定策略須謹(jǐn)慎

雖然Hadoop非常強(qiáng)大,但是也有一些注意事項(xiàng)。首先,“不要完全僅將目光放在一個(gè)供應(yīng)商上”,因?yàn)檫@仍然是一個(gè)十分“動蕩”的市場,F(xiàn)orrester公司的Kobielus表示,“供應(yīng)商們都正在快速發(fā)展,另一方面來看,這確實(shí)創(chuàng)建了一個(gè)充滿活力的生態(tài)系統(tǒng)。”

Gartner研究所分析師Marcus Collins表示:“這主要取決于企業(yè),獲取必要的專業(yè)知識來最大化Hadoop的優(yōu)勢。運(yùn)用Hadoop需要一定水平的分析能力,而現(xiàn)在很多企業(yè)還不具備這樣的能力。你需要對員工進(jìn)行培訓(xùn),并對分析能力進(jìn)行投資,這將讓你充分利用這項(xiàng)技術(shù)的優(yōu)勢。”

eBay交易市場搜索平臺和體驗(yàn)部門副總裁Hugh Williams

另一個(gè)重要考慮因素:大多數(shù)企業(yè)將需要聘請Hadoop專家,而這種人才目前供不應(yīng)求,或者需要培養(yǎng)內(nèi)部專家。eBay的Williams表示: “我們安排了很多培訓(xùn),讓我們的工程師學(xué)習(xí)如何使用Hadoop和編寫代碼。你還需要對開發(fā)人員和項(xiàng)目經(jīng)理進(jìn)行培訓(xùn),讓他們也成為熟練的使用者。不要低估了這一點(diǎn)的作用。”

如果將開源系統(tǒng)應(yīng)用于關(guān)鍵任務(wù)應(yīng)用程序,還要準(zhǔn)備組織學(xué)習(xí)曲線。最好讓你的管理層了解開源的優(yōu)勢。

Collins的另一個(gè)秘訣就是“密切參與”項(xiàng)目以確保按計(jì)劃進(jìn)行,“不要將你的問題歸咎于Hadoop供應(yīng)商,”他表示,“畢竟是你在運(yùn)行Hadoop。”

此外,Kobielus解釋說,Hadoop的最佳做法仍然在不斷發(fā)展中,所以最好想辦法從Hadoop獲得一些短期優(yōu)勢,而不要好高騖遠(yuǎn)。隨著你的專業(yè)知識的增加,你會發(fā)現(xiàn)更多Hadoop的優(yōu)勢。然而,早期使用者為建立系統(tǒng)和擴(kuò)展集群而采用的方法范圍完全取決于董事會。

Hadoop只會錦上添花 不會喧賓奪主

大多數(shù)客戶使用Hadoop添加到其他類型的軟件上,而不是取代其他軟件。例如,eBay仍然在使用關(guān)系型數(shù)據(jù)庫,并需要處理大量自定義(數(shù)據(jù)庫) 工作,Williams說道:“在eBay,我們發(fā)現(xiàn)了使用多種技術(shù)來處理數(shù)據(jù)的價(jià)值。Hadoop對于某些目的而言,是一個(gè)非常好的選擇,而對于其他目的,其他技術(shù)更加適用。”

例如,當(dāng)涉及交易時(shí),他表示,“當(dāng)然應(yīng)該使用關(guān)系型數(shù)據(jù)庫系統(tǒng)。我們的總體想法是靈活的選擇適合的技術(shù),并不存在一個(gè)‘包治百病’的技術(shù)。”

Concurrent公司同樣是如此。Hadoop并沒有取代該公司的傳統(tǒng)關(guān)系型數(shù)據(jù)庫,包括MySQL、PostgreSQL和Oracle。 “這是一個(gè)綜合解決方案,”Lazzaro表示,“我們使用Hadoop來完成繁重的工作,例如大規(guī)模數(shù)據(jù)處理。然后我們會使用Hadoop內(nèi)的 Map/Reduce來創(chuàng)建匯總數(shù)據(jù),這種數(shù)據(jù)能夠通過傳統(tǒng)RDBMS來查看。”

關(guān)系型數(shù)據(jù)庫的發(fā)展趨勢是,當(dāng)系統(tǒng)變得太大時(shí),例如2.5億條記錄一天,數(shù)據(jù)庫就無法響應(yīng)數(shù)據(jù)查詢。然而,他表示,“面對這么龐大的數(shù)據(jù),Hadoop仍然不費(fèi)吹灰之力。Hadoop可以存儲50億條數(shù)據(jù),通過Map/Reduce我們可以創(chuàng)建數(shù)據(jù)匯總,并將其插入到標(biāo)準(zhǔn)RDBMS以提供快速查看。”

在一般情況下,Williams表示,“我并不會過多考慮Hadoop的局限性,而是會考慮機(jī)會。你可以通過開源社區(qū)迅速找出解決任何問題的解決方案。雖然有些人對于Hadoop有著這樣那樣的抱怨,但它畢竟屬于新技術(shù),就好像早在1993年或1994年的Linux一樣。”

“我們確實(shí)看到獨(dú)特的技術(shù)挑戰(zhàn),”Williams表示,包括架構(gòu)數(shù)據(jù)中心、設(shè)計(jì)支持Hadoop的網(wǎng)絡(luò)和選擇正確的硬件。

總體而言,Hadoop一直是eBay的良好戰(zhàn)略,Williams說道:“對于我們而言,Hadoop真的幫了大忙,我們的工程師都對它贊不絕口,它幫助我們成為真正的數(shù)據(jù)驅(qū)動型企業(yè)。”

相關(guān)鏈接

企業(yè)級Hadoop供應(yīng)商 vendors

免費(fèi)開源應(yīng)用程序Apache Hadoop可供企業(yè)IT部門下載、使用和根據(jù)其需要進(jìn)行改變。

但對于很多企業(yè)用戶而言,Hadoop對支持和技術(shù)技能的需要在很大程度上掩蓋了這個(gè)免費(fèi)DIY應(yīng)用程序的光芒。

而受支持的企業(yè)版本Hadoop則是更好更實(shí)際的選擇。

以下是一些Hadoop主要供應(yīng)商,這些供應(yīng)商可以幫助你的公司開始享受Hadoop的優(yōu)勢,有些供應(yīng)商還提供內(nèi)部部署軟件包,有些供應(yīng)商還銷售云端Hadoop,還有剛剛出現(xiàn)的Hadoop數(shù)據(jù)庫設(shè)備,包括最近宣布合作的Oracle和Cloudera。

Amazon提供的Amazon Elastic MapReduce,運(yùn)行在Amazon的彈性云以及Simple Storage服務(wù)中的托管Hadoop框架

Cloudera公司的Enterprise訂閱服務(wù)

使用Hadoop的Datameer Analytics Solution

DataStax Enterprise Hadoop軟件

EMC分公司Greenplum公司提供的Greenplum HD Enterprise-Ready Apache Hadoop

Hortonworks數(shù)據(jù)平臺

BigInsights,基于Hadoop的來自IBM的非結(jié)構(gòu)化數(shù)據(jù)云服務(wù)

Karmasphere Analyst, 使用Hadoop幫助生成數(shù)據(jù)的工具包

MapR提供的企業(yè)級Hadoop軟件M5版本

以上只是列出了一些提供企業(yè)級Hadoop產(chǎn)品和服務(wù)的供應(yīng)商,隨著Hadoop在數(shù)據(jù)市場上關(guān)注度的提升,供應(yīng)商的數(shù)量還將增加。

技術(shù)小貼士

eBay的Williams為大家提供了以下秘訣:

通過學(xué)習(xí)Hadoop的組織結(jié)構(gòu)來學(xué)習(xí)如何有效管理Hadoop。 “如果你的企業(yè)有很多人在使用Hadoop集群,他們可能會嘗試一次性做很多相同的事情,”Williams表示,“這意味著他們可能會產(chǎn)生相同的中間數(shù)據(jù),這是一種浪費(fèi)。”

他建議,一天運(yùn)行一次通用數(shù)據(jù)查詢,并將結(jié)果保存在一個(gè)地方,讓需要的人可以使用,這樣做可以節(jié)省大量處理時(shí)間和相關(guān)資源,“仔細(xì)想想哪些數(shù)據(jù)集對于你的用戶是很有用的,然后創(chuàng)建這些數(shù)據(jù)集。”

清理你的Hadoop集群是關(guān)鍵的維護(hù)工作。 “這真的非常重要,”Williams表示,“你可能需要運(yùn)行大量Hadoop工作,創(chuàng)建大量數(shù)據(jù),通常情況下,通過文件來處理工作的用戶會一走了之,這對于用戶很常見,如果你這樣做的話,你最終將會面對大量額外的Hadoop文件。”

“所以你需要制定一個(gè)策略以保持Hadoop集群的整潔,這樣就不會超出磁盤空間。讓用戶清理出他們不需要的東西。如果你有一個(gè)大型Hadoop集群,定期清理是非常重要的。”

分享到

wangzhen

相關(guān)推薦