北京華智鑫達科技發(fā)展公司首席架構師李寧先生

各位領導下午好!今天我的演講題目是《云計算與大數(shù)據(jù)應用》。我們公司是專注于云計算平臺與大數(shù)據(jù)解決方案的顧問公司,為企業(yè)、尤其是傳統(tǒng)制造企業(yè)提供低成本、高效、安全的信息化解決方案,我們一直研究開源系統(tǒng)應用。Hadoop設計理念跟我們公司服務宗旨非常吻合,所以今天我也要著重講一下Hadoop。

首先看一下現(xiàn)在的真正挑戰(zhàn)。我認為真正的挑戰(zhàn)就是數(shù)據(jù)量幾何式急速增加。這個挑戰(zhàn)是大部分公司都會面臨的問題。幾何式急速增加可能在傳統(tǒng)行業(yè)里沒有那么陡,但是將來也會遇到。那么我們如何面臨數(shù)據(jù)量的增加呢?剛才幾位領導和專家已經談過了,大量結構化數(shù)據(jù)和大量非結構化數(shù)據(jù)。我認為企業(yè)如果建立大數(shù)據(jù)的處理能力需要幾個方面:數(shù)據(jù)快速存儲能力、搜索能力、分享能力、深度分析復雜數(shù)據(jù)等能力。

我們對大數(shù)據(jù)技術發(fā)展也進行了研究。Google在創(chuàng)業(yè)階段,它的想法是把整個互聯(lián)網內容下載下來,計算分析網站內容。他們是創(chuàng)業(yè)階段沒有那么多錢,就買了很多相對便宜的服務器,給集中在一起,將整個互聯(lián)網數(shù)據(jù)下載下來,并且計算。2005年Google發(fā)表了一篇論文,就是分布式計算跟存儲的論文。這個時候Nutch項目的領導人對這個方法很感興趣,使用這個。最后Yahoo也用了這個方法,研發(fā)了幾年把研發(fā)結果回贈給他們。這個項目就變成現(xiàn)在眾所周知的Hadoop項目。

Hadoop特色,剛才嘉賓們也說過了。首先是為大規(guī)模數(shù)據(jù)存儲和計算提供可靠、高效、可伸縮的開源軟件框架,應用的硬件需要成本低廉。這是其他項目所無法比擬的。剛才中國移動的領導也提到一個對比表,一個是400萬投資,一個是25萬的投資,這就是Hadoop的魅力所在之一。它有幾個假設,最重要的假設就是它的主要節(jié)點是要保證運行,如果崩潰了的話,問題很大。DataNode崩潰率是非常高的。這是兩個關鍵的假設,這些假設決定了DataNode可以用很便宜的硬件設施來實施。

下面介紹一下Hadoop的架構。它是一塊數(shù)據(jù)過來,分了很多塊(128M或者64M),通過運算產生中間結果然后得到最終結果,這就是一個最簡單的Hadoop分布式存儲跟計算的架構。

最上面是它的文件結構,下面是map,再下面就是Reduce。我們對這一套開源系統(tǒng)生態(tài)系統(tǒng)也主要的看了一遍,現(xiàn)在這個生態(tài)系統(tǒng)發(fā)展非常非常快,剛才也有專家說,這是一個非?;钴S的。我主要想說的一個是APRCHE HBASE,在Hadoop上面建立的一個數(shù)據(jù)庫系統(tǒng),還有Yahoo用的,這個諾基亞也用的非常多。我們對機器語言的學習能力,比如大規(guī)模數(shù)據(jù)里面找規(guī)則、找規(guī)律,這種應用深度挖掘的能力實際上現(xiàn)在在開源系統(tǒng)里面有,當然它比較復雜,但它能完成很多我們以前沒有辦法完成的東西。咱們也有很多人上亞馬遜買書,買完書以后你再上去的時候會有很多推薦,這些推薦就是類似協(xié)同過濾計算方式,他們會推送給你一些建議。上面的圖標所建立的基礎都是在Hadoop、HDFS等上面的。

下面我談兩個案例,一個是傳統(tǒng)行業(yè)大數(shù)據(jù)的應用。這是我們以前做的一個項目。這個項目是什么呢?這家公司是一個老牌的德國制造企業(yè),他們的數(shù)據(jù)量非常大。面臨的問題一個是查詢速度慢,還有就是ERP里面提供的功能不夠完善(已經沒有辦法拓展了),他們的報告已經不能滿足需求了。這個項目我們叫做“信用管理項目”,大部分ERP信用系統(tǒng)都是建立在應收賬款上面的信用管控體系。而這個信用管控體系不能完全涵蓋企業(yè)的業(yè)務關系。比如說這個公司有一些客戶,希望它在做訂貨的時候就要占用一些信用信息,不然永遠不提貨就占用我們太多資源。但是在我們的信用管控體系是無法涵蓋的,ERP里無法實施。當然它里面還有其他的一些系統(tǒng),CRM、Logs等等。我們會通過預算機制把ERP系統(tǒng)里數(shù)據(jù)實時推送到數(shù)據(jù)聚合和分析系統(tǒng)上,這個系統(tǒng)里包括所有我們所關心的ERP信息,還有CRM里面的很多數(shù)據(jù)。有了這些數(shù)據(jù)以后,就可以進行分析,而得到的結果都是實時的分析結果。

下面的圖就是實時信用報告??梢苑謾嘞揲_放給相關銷售人員。比如說跟某個客戶做生意的時候,我會幾秒之內全部調入信息,去做一些決定。產品下訂單的人也是類似的界面。這個案例就像Hadoop提供了PB級別的數(shù)據(jù)存儲和處理能力。我更加喜歡強調“處理能力”。紅山世紀的領導剛才說了,傳統(tǒng)行業(yè)很少能達到PB級別,但是TB級別你現(xiàn)在有沒有能力去實時處理呢,而在Hadoop上面可以提供這樣的能力。而我們就是專門做這樣的服務。

第二個案例是傳統(tǒng)的BI模型架構。這個架構就是比較簡單的,從各個地方收集的數(shù)據(jù),例如CRM等等數(shù)據(jù),我們可以把它存到一個固定的空間,就是原始數(shù)據(jù)存儲這塊。但是這一塊很有可能是一個很大的數(shù)據(jù)庫的數(shù)據(jù)。我們從數(shù)據(jù)庫里面收取一些進行ETL計算。

這里面有幾個問題必須要說,第一個問題是這些數(shù)據(jù)必須得有備份并且要清理,如果到了TB級別數(shù)據(jù),我覺得產生一個BI可能至少得需要一個晚上,再復雜的話一個晚上肯定完成不了。所以就無法完成正常的ETL計算。再一個這些BI模型里面,我們給用戶回答的問題都是預先設置好的。比如說這幾個月銷售數(shù)據(jù)、對比等等。

而基于大數(shù)據(jù)BI與數(shù)據(jù)分析架構里面,是把ETL計算跟復雜計算都放在了存儲區(qū)域,那么幾乎可以以實時的方式把運營數(shù)據(jù)以及很多的非結構化數(shù)據(jù)給抽象出來,產生報告。這就是大數(shù)據(jù)在新型BI跟數(shù)據(jù)分析架構里面所起的作用。

而傳統(tǒng)BI模型里面它還有一個問題,就是無法做數(shù)據(jù)分析。我說的數(shù)據(jù)分析是很復雜的計算數(shù)據(jù)分析。如果要是把原始數(shù)據(jù)存儲這一塊進行備份清理之后,那么這個存儲區(qū)域里面存的數(shù)據(jù)是不完整的。比如清到兩年前的數(shù)據(jù),那么領導說“要兩年前的數(shù)據(jù)”,你還得恢復。這樣時間會更長。像這種問題,我們在大數(shù)據(jù)BI里面是完全可以解決的。

剛才有人講了云計算與大數(shù)據(jù)的關系。我們認為云計算是大數(shù)據(jù)的基礎。大數(shù)據(jù)也是解決了云計算的一些關鍵問題。以前云計算經常講SOA、集成,集成之后就會產生大數(shù)據(jù),各種奇奇怪怪非結構化的結構、半結構化數(shù)據(jù)、結構化數(shù)據(jù),不一樣的數(shù)據(jù)、復雜數(shù)據(jù)都存儲在一起,這些東西你如何管理?我覺得通過Hadoop都可以解決。

舉個例子,諾基亞在幾年前就一直在使用Hadoop,他們部署的中心有倫敦、柏林、北京,使用的都是Hadoop。

云計算與大數(shù)據(jù)對企業(yè)和政府的影響與價值。提高企業(yè)信息系統(tǒng)的快速應變能力,降低企業(yè)信息系統(tǒng)的部署成本。我從事這個行業(yè)有20多年,其中10年幫助國企做信息化方面的建設。去年有一家公司找我,問我“什么樣的工作會讓你干的時間長?”我回答“這種工作需要長期持續(xù)地激發(fā)我腎上腺激素的能力。而大數(shù)據(jù)它的確是能夠激發(fā)我對這方面的熱情。”上也列出了一些主要的原因。現(xiàn)在很多公司沒有意識到大數(shù)據(jù)對我們的影響,我們總是采購特別多的硬件,但是沒有真正的應用到它。也有一些企業(yè)在面臨著真正實際問題的時候,去找一些顧問公司,那些顧問公司可能會給你很多很多建議,你自己都無法分辨。最后有可能實施結果沒有真正達到你的要求。那么我們公司可以解決,這也是我們公司的價值。

下面介紹一些應用場景。比如說產品應用分析,比如你想分析而基礎數(shù)據(jù)又龐大,如果按照傳統(tǒng)分析模式,你需要很長時間得到結果,而Hadoop不到一分鐘就可以。再比如用戶行為分析、協(xié)同過濾、安全等等。

我們認為大數(shù)據(jù)的行業(yè)應用實在是太多了,這里我也就不一一介紹了,剛才嘉賓也提到了。大數(shù)據(jù)催生了一個行業(yè),就是圖中間的一個數(shù)據(jù)作為服務的行業(yè)。這是非常有潛力可挖的。我的報告就到這,謝謝大家!

分享到

tangrong

相關推薦