大數(shù)據(jù)的定義是什么?
“昨天網(wǎng)上搜集了一組數(shù)據(jù),第一個(gè)是我們的實(shí)體商店,第一百貨王府井銷售額是150億,我們?cè)賮?lái)看一下天貓商城2011年的交易額,不是一個(gè)數(shù)量級(jí)的。一千個(gè)億,這一組數(shù)據(jù)表明了從我們的維度來(lái)講的話,就是說(shuō)他的量,我們大數(shù)據(jù)首先大家肯定要考慮建一個(gè)量。我們看一下天貓商城2012年11月11日的,這個(gè)數(shù)據(jù)大家都比我清楚,大概是191億,當(dāng)天的銷售額超過(guò)了實(shí)體店一年的銷售額。” 顏陽(yáng)講到。這說(shuō)明什么問(wèn)題呢?網(wǎng)上購(gòu)物基本上是單筆金額不太多。但是如果說(shuō)達(dá)到190億的銷售額,實(shí)際上處理速度是比較快的。從這個(gè)維度上來(lái)講的話大數(shù)據(jù)是體現(xiàn)了速度,這個(gè)案例實(shí)際上是說(shuō)明我們大數(shù)據(jù)是比較關(guān)鍵的,它是不同類別的,包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
大數(shù)據(jù)里面,我們覺(jué)得這三個(gè)維度是同樣重要的。既有速度,又有數(shù)量,還有類別,集合在一起,就變成了中間復(fù)雜度更高的這樣一種情景出來(lái)。這種情景出來(lái)以后我們?cè)趺礃尤ソ鉀Q呢?由于消費(fèi)者和生產(chǎn)者的概念融合,使得我們終端用戶的角色也發(fā)生了變化,也就是使我們終端用戶,既可以消費(fèi)數(shù)據(jù),也可以產(chǎn)生數(shù)據(jù)。
這里面是有幾個(gè)觀點(diǎn)給大家分享一下?,F(xiàn)在大家說(shuō)大數(shù)據(jù)是新時(shí)代的石油,有些方面是正確的,因?yàn)檎f(shuō)大數(shù)據(jù)是新時(shí)代的石油,說(shuō)明它還有很多價(jià)值沒(méi)有挖掘出來(lái)。比如說(shuō)石油是需要勘測(cè)的,這里跟我們大數(shù)據(jù)應(yīng)用是關(guān)聯(lián)的,我們數(shù)據(jù)一定要找到有用的數(shù)據(jù),才能夠放到應(yīng)用空間去。第二個(gè)是我們的數(shù)據(jù)需要挖掘的,挖掘需要相應(yīng)的處理模型跟我們數(shù)據(jù)做關(guān)聯(lián),我們的數(shù)據(jù)是越挖價(jià)值越大的。所以我們說(shuō)大數(shù)據(jù)是新時(shí)代的石油,應(yīng)該是有某些方面是正確的。
大數(shù)據(jù)為存儲(chǔ)廠商帶來(lái)的機(jī)遇
存儲(chǔ)廠商提出很多應(yīng)用方案,需要和用戶進(jìn)行對(duì)接。但是對(duì)用戶來(lái)講,要考慮投入和產(chǎn)出比,這些時(shí)候,數(shù)據(jù)需要有良好的架構(gòu)來(lái)處理真正的大數(shù)據(jù),這種比較復(fù)雜的應(yīng)用?,F(xiàn)有的解決大數(shù)據(jù)的問(wèn)題,一個(gè)企業(yè)如果數(shù)據(jù)都是信息孤島,你要處理大數(shù)據(jù)基本上是無(wú)法實(shí)現(xiàn)的。因?yàn)榇髷?shù)據(jù)處理的話,一個(gè)量大,一個(gè)是效率比較高。
最后一個(gè)數(shù)據(jù)是安全,特別是提到了大數(shù)據(jù),我們特別關(guān)注的是安全。因?yàn)榻鹑谛袠I(yè)在做大數(shù)據(jù),包括云計(jì)算的推進(jìn)的話,是相對(duì)比較低調(diào)的。正是因?yàn)榘踩膯?wèn)題的話,他困擾著不管是我們的用戶,困擾著我們的廠商,也困擾著我們的使用者。那么怎么解決現(xiàn)在大數(shù)據(jù)遇到的這些問(wèn)題呢?第一個(gè),我們的應(yīng)用要進(jìn)行切分,OLTP和OLAP放在一起傳統(tǒng)的解決的話,要做數(shù)據(jù)分析效率提不高,為什么?這兩種應(yīng)用是有很大的質(zhì)的區(qū)別。
比如說(shuō)在線的事務(wù)處理,很多有操作,分析上處理的話,主要是查詢,查詢是對(duì)磁盤(pán)的數(shù)據(jù)的交換,這里面是差別比較大的。
第二個(gè)是解決磁盤(pán)的寫(xiě)盤(pán)的效率有很多方式。第一個(gè)是提高轉(zhuǎn)數(shù),提高轉(zhuǎn)數(shù)也不能完全解決問(wèn)題。于是現(xiàn)在有很多的技術(shù),包括SSD的技術(shù),隨著生產(chǎn)成本降低,可能應(yīng)用得比較多,但是現(xiàn)在來(lái)講的話,成本還是比較高。于是我們用戶在解決的時(shí)候,可以采取一種混合的模式來(lái)解決我們的應(yīng)用問(wèn)題。
另外,第三個(gè)是分布式存儲(chǔ)和共享式。我們?cè)谝恍㎡LTP中多半是采用共享式的,但是在做OLAP的時(shí)候,很多用分布式的方式來(lái)解決,這里尤其是對(duì)大數(shù)據(jù)的應(yīng)用非常重要。
大數(shù)據(jù)的安全很重要
那么,在安全的問(wèn)題上,如果說(shuō)我們將來(lái)的大數(shù)據(jù)放在云上面的話,一定要考慮安全,安全有兩個(gè)方面,一個(gè)是把公共的數(shù)據(jù)放在公有云上面。但是客戶的數(shù)據(jù),私有的數(shù)據(jù),客戶的資金情況,我們的股票的余額等等商業(yè)機(jī)密的話,應(yīng)該放在自己的私有云上面,現(xiàn)在做得越來(lái)越多的是混合云的方式來(lái)實(shí)現(xiàn)的。
這里簡(jiǎn)單說(shuō)一下網(wǎng)絡(luò)存儲(chǔ)里面有很多的數(shù)據(jù)方式,包括網(wǎng)格的存儲(chǔ)也是有比較好的應(yīng)用的前景。當(dāng)然還有其他的存儲(chǔ)模式。隨著我們大數(shù)據(jù)的應(yīng)用落地越來(lái)越多,我們會(huì)有很多的解決方案。
在行業(yè)里面,在應(yīng)用我們的新的技術(shù)和架構(gòu),進(jìn)行相關(guān)的服務(wù),那么,現(xiàn)在的行業(yè)應(yīng)用說(shuō)到這么幾個(gè)特點(diǎn),不知道大家有沒(méi)有關(guān)注。前兩天在開(kāi)中央的金融工作會(huì)議,估計(jì)那邊可能會(huì)有一些相關(guān)的人士的變化。但是,整個(gè)的大金融里面,包括證券、銀行和保險(xiǎn),接下來(lái)的從2013年開(kāi)始發(fā)生了創(chuàng)新,跟我們的想象,遠(yuǎn)遠(yuǎn)超出我們的想象接下來(lái)我們會(huì)簡(jiǎn)單說(shuō)一下證券行業(yè)是怎么樣變化的。
另外一個(gè)是新媒體和社交網(wǎng)絡(luò)的應(yīng)用,在我們的行業(yè)里面也越來(lái)越多了。大家最早從微博,然后再?gòu)木W(wǎng)站上獲取相關(guān)的大數(shù)據(jù),垂直應(yīng)用到我們的金融里面,現(xiàn)在的案例是逐漸的多起來(lái)了第二個(gè),金融業(yè)格局的變化,“我九月份在一個(gè)雜志上發(fā)表了我的觀點(diǎn),就是說(shuō)不管我們承認(rèn)與否,從某個(gè)角度來(lái)講,信息化在整個(gè)金融企業(yè)中的地位是改變了金融企業(yè)生態(tài)。怎么來(lái)講,就是說(shuō)金融企業(yè)肯定是要有IT來(lái)支撐的就是說(shuō)金融企業(yè)必須有IT屬性的。但是企業(yè)的IT屬性達(dá)到了一定的程度,這個(gè)企業(yè)就具備了金融的特質(zhì),也就說(shuō)具備了金融的特征。”
實(shí)際上的話,我們行業(yè)發(fā)生了很大的變化,我們的行業(yè)創(chuàng)新是以大家想不到的速度在發(fā)展,現(xiàn)在的行業(yè)馬上要推出,包括虛擬股權(quán)的交易,這種帶來(lái)的變化,我們很多中小企業(yè)都是比較容易的涉足到資本市場(chǎng)的。以前是要上上交所,或者是深交所的。以后有很多的渠道了。
探測(cè)石油要講到好的數(shù)據(jù)源,要使用我們應(yīng)用的數(shù)據(jù)源。在這個(gè)大數(shù)據(jù)的前提下,一定要找到一個(gè)好的處理架構(gòu)。第三個(gè)我們的處理流程是可以固化的。第四個(gè),我們的處理的主題一定是不能太泛,太泛的話到了后面是不能收斂的。第五個(gè)我們?cè)O(shè)計(jì)的算法一定要簡(jiǎn)單,要快捷。第六個(gè),我們可以通過(guò)各種手段進(jìn)行發(fā)布,使得我們的客戶比較容易想到這樣的一些服務(wù)。“我這里具體講,比如說(shuō)現(xiàn)在我們利用大數(shù)據(jù)的數(shù)據(jù)源來(lái)解決現(xiàn)有的,大家在網(wǎng)上的分析和我們的綜合指數(shù)的一個(gè)對(duì)比。這里的話,我們可以通過(guò)我們相關(guān)金融性網(wǎng)站和微博進(jìn)行相關(guān)的信息采集。第三個(gè)是一定要做一些預(yù)處理,比如說(shuō)廣告和垃圾信息,這些信息的處理都有相關(guān)的原則。”
然后要建模和分析,這是比較難的,大家知道中文的處理和英文的處理是有很大的區(qū)別的,相關(guān)的拆分字詞的話,含義是不一樣的。這有一個(gè)歷史積累的問(wèn)題。我們可以選擇三級(jí)和五級(jí),最后我們利用標(biāo)準(zhǔn)發(fā)差,剛才講了很簡(jiǎn)單的算法,都可以得出大家對(duì)我們股市的研判的分析程度。第五個(gè)通過(guò)我們的方式把用戶提供給客戶。這個(gè)做出來(lái)以后有什么用處呢?
第一個(gè),我們的可混拿著這樣一個(gè)信息的話,多了一種給我們提供決策的信息源,以便他可以進(jìn)行資產(chǎn)配制。如果比如說(shuō)前不久有一些白酒出現(xiàn)了一些問(wèn)題,如果說(shuō)我們?cè)诘谝粫r(shí)間能夠知道這樣的信息的話,我們可以對(duì)我們的手上資產(chǎn)配制做一些調(diào)整。這樣的話只要比人家快五分鐘和八分鐘。我們的損失就會(huì)減少到最低的程度。第二個(gè)是我們可以引導(dǎo)自己或者是客戶做一些交易的篩選。第三個(gè),我們的客戶也可以用這些數(shù)據(jù)來(lái)做一些診斷。比如說(shuō)360在電腦上面可以提供一些基本數(shù)據(jù),客戶可以進(jìn)行分析和診斷,也可以進(jìn)行一對(duì)一的服務(wù)和診斷。最后一個(gè)我們可以把這些數(shù)據(jù)定制成一種產(chǎn)品,進(jìn)行一對(duì)一的服務(wù)。
所以說(shuō)這樣的一個(gè)簡(jiǎn)單的應(yīng)用,當(dāng)然還有很多的路要走,因?yàn)槲覀冊(cè)诰W(wǎng)上的數(shù)據(jù)源受到一些因素,比如說(shuō)人為的因素和其他的不可預(yù)料的因素的影響,使得我們的數(shù)據(jù)源不太穩(wěn)定,或者是產(chǎn)生誤導(dǎo),這需要時(shí)間的積累,國(guó)外已經(jīng)有案例,中國(guó)的輿論導(dǎo)向。大家的市場(chǎng)化程度不高的情況下,通過(guò)這種應(yīng)用的話,它的效率可能會(huì)更高。
大數(shù)據(jù)機(jī)遇和挑戰(zhàn)
第一個(gè)是金融行業(yè)要進(jìn)行產(chǎn)業(yè)升級(jí),金融行業(yè)學(xué)習(xí)了工業(yè)的自動(dòng)化,使得我們的產(chǎn)品生產(chǎn)線也是在進(jìn)行產(chǎn)業(yè)的升級(jí)。不同的原料可以產(chǎn)生不同的生產(chǎn)產(chǎn)品。于是包括產(chǎn)品的生命周期的控制,我們的客戶的生命周期的控制,以及我們的服務(wù)的生命周期的控制都要體現(xiàn)出來(lái)。
第二個(gè)是敏捷化的服務(wù),前面講了,要真正做好數(shù)據(jù)化的服務(wù),必須要有我們懂得IT技術(shù),懂得業(yè)務(wù)的人進(jìn)行主動(dòng)的服務(wù)。所以說(shuō)這種敏捷化的服務(wù),就給我們提出了很多的要求。
第三個(gè),運(yùn)維發(fā)生變化,以前的我們的應(yīng)用系統(tǒng)都是屬于通過(guò)項(xiàng)目管理完了就結(jié)束了,所有的運(yùn)維的周期的話,都是和業(yè)務(wù)來(lái)做,以后的數(shù)據(jù)必須要運(yùn)營(yíng)的。所以說(shuō)我們的IT也要主動(dòng)的站出來(lái)服務(wù)。
第四個(gè)是傳統(tǒng)的,哪怕企業(yè)建成數(shù)據(jù)中心以后,到了一定的時(shí)間拐點(diǎn),一定要上升到數(shù)據(jù)化的數(shù)據(jù)中心,也就是說(shuō)要和互聯(lián)網(wǎng)打通,這樣的一打通就是我們所說(shuō)的大數(shù)據(jù)的落地時(shí)候到了。
第五個(gè)是大數(shù)據(jù)的商業(yè)智能,實(shí)際上這是現(xiàn)在有很多的實(shí)戰(zhàn),客戶的流失分析必須有相關(guān)的支持。這種數(shù)據(jù)拿過(guò)來(lái)以后我們要進(jìn)行挖掘,挖掘完了以后找到可以影響它的相關(guān)因子再分析,分析完了以后就分解到我們業(yè)務(wù)方面,改變我們的業(yè)務(wù)模式。
顏陽(yáng)最后講到大數(shù)據(jù)的出現(xiàn),有機(jī)遇也有挑戰(zhàn)??赡茉趯?lái)的時(shí)候的話,我們?cè)诖髷?shù)據(jù)的應(yīng)用的話,一定是跟云計(jì)算的應(yīng)用是結(jié)合起來(lái)的。當(dāng)前云計(jì)算的推進(jìn)遇到的一些瓶頸經(jīng)過(guò)大家的努力,未來(lái)一定會(huì)融合會(huì)越來(lái)越好。