“聯(lián)通的海量數(shù)據(jù)用傳統(tǒng)的方式已經(jīng)很難解決。為此我們和英特爾合作引入了Hadoop技術(shù)來解決問題。”黃文良說。
目前,聯(lián)通Hadoop系統(tǒng)部署在北京,各省的數(shù)據(jù)每5分鐘生成一個文件往北京傳輸。采用Hadoop技術(shù)后用戶上網(wǎng)記錄檢索速度上能達(dá)到秒級,用戶輸入中國聯(lián)通任何一個城市的號碼,其上網(wǎng)記錄只需一兩秒就可以檢索出來。
黃文良告訴DOIT記者,聯(lián)通Hadoop系統(tǒng)的后臺是178臺基于英特爾至強(qiáng)5600處理器的兩路刀片服務(wù)器,每臺服務(wù)器配備了14TB存儲容量。此外,系統(tǒng)還有3臺NameNode節(jié)點(diǎn)服務(wù)器、入庫服務(wù)節(jié)點(diǎn)服務(wù)器24臺、Zookeeper節(jié)點(diǎn)服務(wù)器7臺、集群監(jiān)控節(jié)點(diǎn)1臺和Web查詢應(yīng)用服務(wù)節(jié)點(diǎn)20臺。這些也都是IA架構(gòu)的x86服務(wù)器。
“我們也試過用Hadoop的開源版本,但是確實(shí)在性能上不如英特爾的Hadoo發(fā)行版,無論是監(jiān)控能力還是穩(wěn)定性都有很大區(qū)別。最終我們?nèi)娌捎昧擞⑻貭柕腍adoop發(fā)行版。”黃文良介紹說。
目前,市場上除了Hadoop外還有其它的大數(shù)據(jù)解決方案,黃文良認(rèn)為,聯(lián)通選擇時重點(diǎn)考慮了產(chǎn)品的可持續(xù)發(fā)展性。
Hadoop因?yàn)橛杏⑻貭柕鹊闹С?,產(chǎn)業(yè)生態(tài)鏈軟件完善,是值得信賴的方案。此外,聯(lián)通還選擇大公司作為應(yīng)用的風(fēng)向標(biāo),目前Facebook等全球知名企業(yè)都選用了Hadoop,他們的成功經(jīng)驗(yàn)也給聯(lián)通增強(qiáng)了信心。
黃文良透露,上網(wǎng)記錄查詢只是聯(lián)通大數(shù)據(jù)平臺的一部分,未來如何在大數(shù)據(jù)中掘“金”,聯(lián)通已經(jīng)有了一整套的規(guī)劃。目前,聯(lián)通大數(shù)據(jù)解決方案的技術(shù)原型已經(jīng)完成,而到今年10月,整個系統(tǒng)會全部實(shí)施完成,屆時聯(lián)通將會給客戶和廣大用戶提供更多的大數(shù)據(jù)服務(wù)。