大數(shù)據(jù)不會(huì)推翻我們傳統(tǒng)構(gòu)建的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的堡壘,特別是普遍應(yīng)用在企業(yè)數(shù)據(jù)中心的關(guān)系型數(shù)據(jù)庫(kù),仍然會(huì)是處理結(jié)構(gòu)化數(shù)據(jù)的主要工具。但在大數(shù)據(jù)時(shí)代,我們更應(yīng)該聚焦非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)已經(jīng)有了不錯(cuò)的歸宿,非結(jié)構(gòu)化數(shù)據(jù)才是我們處理的難題。據(jù)預(yù)測(cè),到2020年,非結(jié)構(gòu)化數(shù)據(jù)將數(shù)十倍于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),成為大數(shù)據(jù)最主要的數(shù)據(jù)來(lái)源。Hadoop在大數(shù)據(jù)時(shí)代如日中天,成為很多企業(yè)追逐的對(duì)象,因?yàn)榻裉斓腍adoop是非結(jié)構(gòu)化數(shù)據(jù)的一大福音,通過(guò)Hadoop可以輕松掌控非結(jié)構(gòu)化數(shù)據(jù)。
但是我們要充分認(rèn)識(shí)到大數(shù)據(jù)確實(shí)不是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)能夠輕松應(yīng)對(duì)的,由于非結(jié)構(gòu)化數(shù)據(jù)的來(lái)臨,傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)立馬力不從心。同時(shí),實(shí)時(shí)數(shù)據(jù)要求的低延遲、數(shù)據(jù)流處理也是傳統(tǒng)數(shù)據(jù)庫(kù)的軟肋。當(dāng)然,靈活模式、云架構(gòu)以及海量數(shù)據(jù)處理要求,都導(dǎo)致傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)陷入困頓,只能尋找新的數(shù)據(jù)處理模式,比如Hadoop等,這也是開(kāi)源的Hadoop如此受業(yè)界追捧的主要原因。
企業(yè)邁向大數(shù)據(jù)時(shí)代之五部曲
當(dāng)然,從傳統(tǒng)數(shù)據(jù)庫(kù)模式走到大數(shù)據(jù)時(shí)代是每個(gè)企業(yè)都需要經(jīng)歷的一次涅槃,下圖給出了常見(jiàn)的五部曲:
1)大數(shù)據(jù)收集。如果你大數(shù)據(jù)在手,恭喜你,至少你已經(jīng)有了穩(wěn)定的數(shù)據(jù)源。如果你沒(méi)有大數(shù)據(jù),可能你需要想想哪些環(huán)節(jié)的重要數(shù)據(jù)從你指間溜走,你要開(kāi)始部署新的工具攔住這些流失的數(shù)據(jù),為他們找個(gè)收容所。當(dāng)然,大數(shù)據(jù)收集最重要的是要確保數(shù)據(jù)質(zhì)量,沒(méi)有質(zhì)量的數(shù)據(jù)堅(jiān)決杜絕,因?yàn)闆](méi)有意義的數(shù)據(jù)只會(huì)增加系統(tǒng)的復(fù)雜性,無(wú)形中增加成本。當(dāng)然,大數(shù)據(jù)的價(jià)值密度本來(lái)就很低,如何辨別有質(zhì)量的大數(shù)據(jù)就不是輕松的一個(gè)環(huán)節(jié),要花大力氣來(lái)解決。
2)混合云或者數(shù)據(jù)的全局保障。收集數(shù)據(jù)要依賴于基礎(chǔ)架構(gòu),云計(jì)算是一個(gè)重要平臺(tái),通過(guò)軟件及服務(wù),實(shí)現(xiàn)全公司數(shù)據(jù)的完整覆蓋,包括各種類型、多種應(yīng)用的數(shù)據(jù),不漏掉任何有價(jià)值的數(shù)據(jù),也不讓垃圾數(shù)據(jù)混入其中。
3)實(shí)現(xiàn)分析工具實(shí)時(shí)、平民化和可視化。將復(fù)雜的、臃腫的、不能實(shí)時(shí)分析的工具統(tǒng)統(tǒng)扔進(jìn)歷史的垃圾桶,只有大數(shù)據(jù)分析工具的革新才能真正實(shí)時(shí)挖掘出大數(shù)據(jù)的價(jià)值。傳統(tǒng)的分析工具會(huì)被大數(shù)據(jù)淹沒(méi),成為企業(yè)的負(fù)擔(dān),不能產(chǎn)生應(yīng)有的價(jià)值。
4)虛擬化可實(shí)現(xiàn)管理自動(dòng)化,降低運(yùn)營(yíng)成本。一個(gè)使用復(fù)雜、成本昂貴的大數(shù)據(jù)平臺(tái)會(huì)成為數(shù)據(jù)中心的新負(fù)擔(dān),帶來(lái)的價(jià)值可能會(huì)被復(fù)雜的平臺(tái)本身直接消耗殆盡。隨著虛擬化,特別是軟件定義的數(shù)據(jù)中心時(shí)代的到來(lái),輕型、便捷的新平臺(tái)成為大數(shù)據(jù)處理的首選平臺(tái),不僅大幅度降低成本,也為大數(shù)據(jù)處理提供了高度的彈性、管理能力等,讓大數(shù)據(jù)處理成為企業(yè)新價(jià)值的發(fā)動(dòng)機(jī),成為企業(yè)競(jìng)爭(zhēng)力的助推器,成為CIO的新頭腦。
5)開(kāi)源軟件也將成為歷史潮流。大數(shù)據(jù)從電商企業(yè)、移動(dòng)互聯(lián)網(wǎng)起家,因此生于開(kāi)源,長(zhǎng)于開(kāi)源,開(kāi)源成為大數(shù)據(jù)平臺(tái)的重要基因,這也是開(kāi)源的Hadoop紅火的另一個(gè)重要原因。當(dāng)然,開(kāi)源并不意味著回到“手工作坊”時(shí)代,每個(gè)企業(yè)都要打造自己的“開(kāi)源”大數(shù)據(jù)平臺(tái),而是要有充分的開(kāi)放性,基于開(kāi)源的理念和架構(gòu),提供成本低廉、穩(wěn)定可靠的選擇。就像今天的開(kāi)源Linux,一般企業(yè)還是選擇第三方企業(yè)包裝測(cè)試好的Linux平臺(tái),而不是一個(gè)客戶完全自主研發(fā)的Linux平臺(tái)。通過(guò)這五部曲,企業(yè)可以輕松實(shí)現(xiàn)從傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)時(shí)代步入數(shù)據(jù)云時(shí)代,也就是走進(jìn)新的大數(shù)據(jù)時(shí)代。
總之,大數(shù)據(jù)不是遙遠(yuǎn)的神話,大數(shù)據(jù)是CIO為企業(yè)提供大價(jià)值的神器,機(jī)遇與挑戰(zhàn)并存。只要善用大數(shù)據(jù),大數(shù)據(jù)定能為您的企業(yè)帶來(lái)不斷的新驚喜:大數(shù)據(jù)能讓你在從來(lái)不知道你有機(jī)會(huì)的地方找到機(jī)會(huì);大數(shù)據(jù)的快速分析能讓你在機(jī)會(huì)消失之前把握住機(jī)會(huì);大數(shù)據(jù)的有效應(yīng)用能夠產(chǎn)生前所未有的商業(yè)新模式。
本文作者張振倫先生是VMware公司大中華區(qū)技術(shù)總監(jiān),用微信關(guān)注公眾號(hào)“中國(guó)云夢(mèng)”,可與作者微信互動(dòng)。