圖一:暴風(fēng)影音基于Hadoop和X86開放基礎(chǔ)架構(gòu)的數(shù)據(jù)平臺架構(gòu)示意圖,暴風(fēng)影音公司先通過X86服務(wù)器構(gòu)建數(shù)據(jù)采集集群,數(shù)據(jù)采集之后通過匯集服務(wù)器將加載到X86服務(wù)器構(gòu)建的Hadoop集群,利用Hadoop集群處理與分析數(shù)據(jù),最終得出統(tǒng)計(jì)與分析結(jié)果。
暴風(fēng)影音Hadoop技術(shù)專家趙修湘表示:“Hadoop集群可用性非常高,能夠輕松處理TB級的數(shù)據(jù)量,通過X86服務(wù)器構(gòu)建的集群能夠隨時根據(jù)業(yè)務(wù)需求以增加集群節(jié)點(diǎn)的方式來增加集群能力,超大集群能力使得Hadoop的數(shù)據(jù)處理能力非常高。同時采用開放基礎(chǔ)架構(gòu)而言,構(gòu)建Hadoop在硬件上要求并不高,多點(diǎn)數(shù)據(jù)備份機(jī)制和計(jì)算容錯功能使得構(gòu)建和使用集群變得非常容易。”
同時,趙修湘還補(bǔ)充道:“Hadoop集群具有豐富的編程接口,能夠支持幾乎所有現(xiàn)在流行的編程語言,使得大家能夠通過主流編程語言來使用Hadoop;更加關(guān)鍵的是HadoopMapred編程模型使得分析人員能夠方便快捷地分析超大數(shù)據(jù)量;而且,Hadoop目前支持多種數(shù)據(jù)倉庫,在使用過程中非常方便?!?/p>
圖二:圖中顯示了暴風(fēng)影音數(shù)據(jù)平臺中的X86服務(wù)器在內(nèi)存和CPU上的使用率。暴風(fēng)影音大數(shù)據(jù)平臺建立之后,充分發(fā)揮了集群的威力,大幅提升了公司基礎(chǔ)架構(gòu)中各種X86服務(wù)器的資源利用率。
暴風(fēng)影音通過部署基于Hadoop和開放基礎(chǔ)架構(gòu)的數(shù)據(jù)平臺,告別了過去傳統(tǒng)方式在大數(shù)據(jù)量的分析能力不足、存在大量重復(fù)性工作、無法分析長時間的數(shù)據(jù)、數(shù)據(jù)分析工具匱乏、服務(wù)器硬件資源利用不足等缺點(diǎn),最為直接的結(jié)果就是大幅提升了數(shù)據(jù)統(tǒng)計(jì)與分析的效果,趙修湘表示:“通過Hadoop數(shù)據(jù)平臺,有些過去需要花費(fèi)幾個小時的業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì)工作現(xiàn)在往往只需要幾分鐘就能夠完成。”
暴風(fēng)影音通過自身在Hadoop集群平臺的構(gòu)建、測試與應(yīng)用也摸索出Hadoop集群構(gòu)建和使用需要注意的要點(diǎn):構(gòu)建Hadoop集群需要在應(yīng)用、軟件和硬件三個方面注意,需要公司IT人員加強(qiáng)對Hadoop軟件組件Hive、Pig的了解和使用;需要注意Hadoop集群進(jìn)程崩潰的風(fēng)險(xiǎn)等。趙修湘還認(rèn)為在硬件層面也不能夠忽視,他表示:“Hadoop由于是處理大數(shù)據(jù),因此不僅僅要求計(jì)算能力,在數(shù)據(jù)傳輸?shù)木W(wǎng)絡(luò)上也要求較高。Hadoop集群需要較多的X86服務(wù)器,其實(shí)隨著數(shù)據(jù)量增大和數(shù)據(jù)分析業(yè)務(wù)增加,集群節(jié)點(diǎn)越多處理能力也越強(qiáng)。與此同時,建議集群節(jié)點(diǎn)采用配置價(jià)高的服務(wù)器,暴風(fēng)影音這邊采用較多的是英特爾8核至強(qiáng)服務(wù)器,并配置了較高的內(nèi)存?!?/p>
最后,暴風(fēng)影音Hadoop技術(shù)專家趙修湘表示隨著Hadoop數(shù)據(jù)平臺的建立,暴風(fēng)影音的業(yè)務(wù)在大數(shù)據(jù)時代下會更加從容。