大數(shù)據(jù)新的應用和傳統(tǒng)的應用有什么不同的?張瑾認為這是一個補充而不是替換。另外,大數(shù)據(jù)最主要的問題之一是多種數(shù)據(jù)的混合體,也就是說它不再是說像傳統(tǒng)的能夠事先預知數(shù)據(jù)的格式和形態(tài),數(shù)據(jù)交互的手段、協(xié)議。實際上很多的數(shù)據(jù)甚至于不是由企業(yè)本身所擁有的,而是由外界所提供的,所以說這些數(shù)據(jù)是多種數(shù)據(jù)的混合體,這是一個很嚴重的問題。
另外,對企業(yè)應用來說,實際上企業(yè)到現(xiàn)在為止還不是很習慣于采用開源的解決方案,也就是說絕大部分的企業(yè)在大數(shù)據(jù)上的研究的瓶頸是,商用的版本不夠豐富,支持還不夠完善,這對企業(yè)應用來說是一個挑戰(zhàn)和機遇并存的狀態(tài)。今天的幾個議題、大數(shù)據(jù)的特征以及能提供到的新的技術和新的產(chǎn)品以及企業(yè)應用的狀況是什么樣的?
首先看一下大數(shù)據(jù)的定義,我們所說的大數(shù)據(jù)是傳統(tǒng)的架構、傳統(tǒng)的技術無法解決的數(shù)據(jù)的問題。但我想在這里特別指出的是,因為大數(shù)據(jù)的名字有“大”,所以很多人把重點集中在了數(shù)據(jù)的容量上,也就是大家都認為數(shù)據(jù)量是最大的問題。實際上大數(shù)據(jù)除了數(shù)據(jù)量還有很多的問題,大數(shù)據(jù)會把信息管理的各項需求都推向極致。最下面的這一層是大數(shù)據(jù)基本的問題,提到了大的大數(shù)據(jù)量以及多樣性和高速,也就是傳統(tǒng)的3V的概念。另外我加上了有關復雜性,復雜性包括了空間維、時間維等多種數(shù)據(jù)的復雜性。所以說這些問題實際上是大數(shù)據(jù)解決方案首先應該考慮的出發(fā)點。
目前人們對Hadoop的重要的觀察,對Hadoop的關鍵字進行了搜索,近年來的增長是非常迅速的。對Hadoop的興趣一直是來源于金融業(yè)的,但如果我們把Hadoop進行行業(yè)分布的統(tǒng)計的話,會發(fā)現(xiàn)實際上雖然金融業(yè)仍然是最大的一塊,但有很多其他行業(yè)都對Hadoop產(chǎn)生了興趣。也就是說對Hadoop的市場潛力應該說我們不單單地認為是金融業(yè),除了金融業(yè)以外應該說跨很多的行業(yè)都有可能對技術產(chǎn)生新的購買力。
廠商在哪里?現(xiàn)在廠商還是處于相對初級的階段,有很多新興的公司可以提供Hadoop的發(fā)行版本,包括。很多的存儲廠商對Hadoop產(chǎn)生了嚴重的興趣,我提到了NetApp等的解決方案,這些解決方案很大程度上是說把已經(jīng)有的技術針對Hadoop或者是針對大數(shù)據(jù)的應用做了一定的定制化。所以說你很難說它是專門針對Hadoop或者是針對大數(shù)據(jù)的應用來開發(fā)的解決方案,應該說更多的是一些定制化。所以說,這些市場、這些產(chǎn)品和技術仍然處于一個剛剛開始的狀態(tài)。
大數(shù)據(jù)和云的關系未來的融合將是重大的趨勢。云和大數(shù)據(jù)是互為因果的關系,沒有云很多大數(shù)據(jù)就不存在,沒有大數(shù)據(jù)很多云的價值是難以體現(xiàn)的。所以這兩個技術是相輔相成的關系。另外現(xiàn)在我們也看到了一些基于云的Hadoop的應用,包括了MapReduce的應用。
最開始聽到大數(shù)據(jù)的問題是有關數(shù)據(jù)備份和數(shù)據(jù)保護方面的問題。大數(shù)據(jù)在顛覆著所有的數(shù)據(jù)保護的手段,這是一個非?,F(xiàn)實的問題。這么大的容量傳統(tǒng)的數(shù)據(jù)保護的方法根本不能運行。但是,如果真正仔細地看一下大數(shù)據(jù)本身,實際上有很多的大數(shù)據(jù)是不能備份的,90%的大數(shù)據(jù)都是不需要備份的。因為大數(shù)據(jù)本身的價值不是在大數(shù)據(jù)里面的,因為大數(shù)據(jù)提煉出價值之后很有可能的后臺數(shù)據(jù)就沒有必要再繼續(xù)保留了。有很多大數(shù)據(jù)的解決方案在架構設計上已經(jīng)充分地考慮了硬件容錯的問題,所以很多的大數(shù)據(jù)系統(tǒng)實際上現(xiàn)在都是再一個沒有備份的前提下在做運行。
另外是包括了數(shù)據(jù)訪問、安全、隱私、法規(guī)、歸檔,對數(shù)據(jù)管理來說一些非常重要的甚至于可以說是非常致命的一些需求,到現(xiàn)在仍然沒有足夠的解決方案,我們也是希望未來無論是廠商也好、用戶也好能夠重點看一下有關數(shù)據(jù)管理的問題,因為這將會是大數(shù)據(jù)解決方案中的一個可能最薄弱的環(huán)節(jié)了。
因為在大數(shù)據(jù)的時代,數(shù)據(jù)的來源本身是多樣性的,數(shù)據(jù)的格式甚至是無法管理的,因為有很多的數(shù)據(jù)是來自于企業(yè)的外部,來自于互聯(lián)網(wǎng)的提供商。這種情況下數(shù)據(jù)的共享協(xié)議是一個很嚴重的問題,到底如何把這些協(xié)議自動化地拿到數(shù)據(jù)倉庫里面來。另外是有關熱點數(shù)據(jù),在大數(shù)據(jù)的時代也是跟傳統(tǒng)的數(shù)據(jù)管理有了非常明顯的差別。傳統(tǒng)的數(shù)據(jù)管理會把單獨的時間點作為一個熱點數(shù)據(jù),這是傳統(tǒng)的數(shù)據(jù)管理里面基本的假設,但是在大數(shù)據(jù)的時代,我們覺得實際上熱點數(shù)據(jù)首先有可能性并行多個熱點數(shù)據(jù)在您的系統(tǒng)里面。同時,這些熱點數(shù)據(jù)本身之間實際上是有可能有聯(lián)系的。因為各種事件的相互觸發(fā)所以很有可能這些熱點數(shù)據(jù)同時出現(xiàn),而且是相互關聯(lián)的,甚至于有可能是可以預測的。所以說在大數(shù)據(jù)時代,熱點數(shù)據(jù)的管理也是一個重要的話題。
更長遠來講有很多新的商機可以出現(xiàn),英國的客戶考慮采用的一種新的基于大數(shù)據(jù)的模型,希望當一個顧客走到用戶的時候,首先是告訴客戶走進商店,比如說他拿起了一瓶洗發(fā)水,在貨架里停留了十秒鐘,通過之前的購買習慣知道這個用戶是不是從前沒有買過這個牌子。如果沒有買過這個牌子,實際上對這個產(chǎn)品有興趣了,可以及時地發(fā)送短信到手機上,憑這條短信可以在產(chǎn)品上得到10%的優(yōu)惠。這樣的技術實際上可以大大地提高商店的價值,也可以提升廠商推廣新產(chǎn)品的效率。但你可以預想到,里面實際上包含了很多基于大數(shù)據(jù)的技術,比如說移動的定位系統(tǒng),包括了CCTV人臉識別和數(shù)據(jù)庫,還可以非常迅速地能在10秒內(nèi)把數(shù)據(jù)發(fā)送出來,可以對數(shù)據(jù)的計算和傳輸速度有非常高的要求的。如果能實現(xiàn)這些,對很多的企業(yè)都是有非常重要的意義的。但想實現(xiàn)這個功能,我們坐在這里說和想實際上是很容易的,但有很多的技術壁壘必須要突破才能實現(xiàn)。
所以我們認為到現(xiàn)在為止有很多新的形態(tài)可以出現(xiàn)。現(xiàn)在有哪些技術,我提到了大數(shù)據(jù)IT架構的基本的特征,首先必須是橫向擴展的,因為是單點的技術無法承受大數(shù)據(jù)的要求,既然把性能通過橫向擴展的架構實現(xiàn)了,有沒有必要在每個節(jié)點上花費太多的錢。另外它的高可用是通過軟件設計和架構的設計來實現(xiàn)的,而不是通過傳統(tǒng)的高性能、高可用性的、高短的硬件設備來實現(xiàn)的。另外架構是不共享的,避免資源的征用和仲裁。所以一定會是這樣一個基本的架構的特征?,F(xiàn)在的架構的技術應該說離大規(guī)模的商用和普及是有很大的距離的。
另外現(xiàn)在的應用狀況,首先Web的應用把技術可行性進行了充分的論證,但在普遍的傳統(tǒng)行業(yè)還是在非常小規(guī)模的實驗性的應用的狀況下,我也和業(yè)界的很多的企業(yè)溝通過,包括銀行業(yè)、電信業(yè)、能源都有一些小規(guī)模的應用,實際上應該說不算是應用,更多像是一個演習,他們也在積累著相應的技術,業(yè)界關注的重點還是在技術實現(xiàn)上。這對人員和流程管理的關注上還不夠,這將會產(chǎn)生嚴重的問題是有關人才短缺,蓋特納今年剛剛發(fā)布了一個預測,就是我們認為到2015年將會產(chǎn)生1萬個數(shù)據(jù)科學的職位。但實際商業(yè)街只能滿足1/3。也就是說在大數(shù)據(jù)的應用方面,人才短缺將是非?,F(xiàn)實而急迫的問題。我非常高興今天有這么多人,相信各位是下一代的大數(shù)據(jù)的新貴。這是非常好的職業(yè)發(fā)展的方向。
對企業(yè)的建議首先是應該迅速接受大數(shù)據(jù)的概念,不單單是從解決現(xiàn)有的IT的問題的角度,更多的應該從未來的新的利潤增長點和新的競爭點的角度,應該采用非常積極的態(tài)度。另外是避免進入廠商的炒作,要對此有警惕性。同時,需要在實施的階段確定每一步的投資規(guī)模和設立里程碑,最終希望了解這些不成熟性必然會帶來一部分的失誤和風險的可能性,所以應對此有所被。從IT部門的角度來看,數(shù)據(jù)的價值應該說是由業(yè)務部門來產(chǎn)生的,所以必須要充分了解業(yè)務的需求。另外來說,根據(jù)這些需求新的大數(shù)據(jù)的需求重新規(guī)劃加厚并對預算做準備,同時業(yè)務部門內(nèi)實際上也是需要做相應的技術準備。