浪潮集團(tuán)云計(jì)算技術(shù)總監(jiān)張東
數(shù)據(jù)處理周期中所遭遇的挑戰(zhàn)
首先,浪潮還是把大數(shù)據(jù)從一個數(shù)據(jù)的收集聚集起來開始,一直到最后,浪潮把它進(jìn)行分析,進(jìn)行決策,把它展現(xiàn)出來這樣一個過程,包括采集、存儲、分析、可視化,以及最終為決策來服務(wù)。在每一個階段,實(shí)際上現(xiàn)在還有很多的問題,浪潮如果要想將大數(shù)據(jù)推廣到更多的領(lǐng)域,能夠讓更多的行業(yè)用戶,或者說傳統(tǒng)的一些信息化用戶用起來,那么浪潮必須要來解決這個問題。
挑戰(zhàn)1:數(shù)據(jù)收集/清洗/過濾
第一個,就是在采集和匯總領(lǐng)域的問題。因?yàn)槔顺痹谶@一兩年里面頂著大數(shù)據(jù)的名頭去找了很多用戶,很多用戶聽說大數(shù)據(jù)很好,搞完預(yù)算以后,要搞大數(shù)據(jù),他們也很熱心。但是,你去看一看他的系統(tǒng),首先第一個問題,數(shù)據(jù)在哪?很多人想做東西,實(shí)際上并沒有他要做這個東西的數(shù)據(jù),第一個問題就是數(shù)據(jù)的歸集,可能很多數(shù)據(jù)產(chǎn)生了,但是對他來講,他沒有一個有效的辦法把它歸集到系統(tǒng)里面去。當(dāng)然,這個歸集可能是技術(shù)手段原因,也可能是一些管理上的原因。
第二個,就算他歸集來了一些數(shù)據(jù),這些數(shù)據(jù)的來源也非常復(fù)雜,可能是自己產(chǎn)生的,比如說他自己去采集,用機(jī)器采集也好、用人去采集也好,也有的是從別人那拷過來的,然后你也沒有辦法去保證這些數(shù)據(jù)都是好的,或者說都很適合于來做他后期的業(yè)務(wù)。也就是說在這里面數(shù)據(jù)質(zhì)量是個很大的問題,數(shù)據(jù)格式不統(tǒng)一也是個很大的問題。
最后在一些政策或者管理制度上的限制,造成了很多數(shù)據(jù)沒辦法統(tǒng)一起來,浪潮后面可能會講到一個例子,是國內(nèi)一個很典型的部門,就是公安,大家都覺得它應(yīng)該是一個部門,但后來發(fā)現(xiàn)里面是N多部門,里面所有的數(shù)據(jù)在原來都是互補(bǔ)連通的,這個現(xiàn)象不僅僅在這樣一個行業(yè),浪潮在很多行業(yè)都看到了這樣的問題,上下級之間可能不通的,平級部門之間可能也是不通的。
第一個要解決的問題就是怎么把這些東西歸集起來,解決歸集里面一些技術(shù)的手段,和浪潮怎么去做標(biāo)準(zhǔn),怎么把它規(guī)范化的問題。
挑戰(zhàn)2:數(shù)據(jù)存儲和管理
第二個問題,這項(xiàng)數(shù)據(jù)歸集起來了,就會遇到一個問題,就是存儲和管理的問題。其實(shí)也有很多人說我有很好的采集手段,我有很多攝像頭和傳感器,但是這些東西傳回來很困難,后臺沒那么大的存儲能力,過兩天就得重新把它滾一次。在這里面,隨著數(shù)據(jù)規(guī)模的日益龐大,同時,數(shù)據(jù)類型也越來越復(fù)雜,可能有圖片、視頻,有能放到數(shù)據(jù)庫里面的,有放不到數(shù)據(jù)庫里面的,現(xiàn)在很多的那里保存了很多放到數(shù)據(jù)庫里面的東西,放不到數(shù)據(jù)庫的慢慢就被替換掉了,因?yàn)閷?shí)在太大,放不下。
還有就是在統(tǒng)一存儲過程中的共享和隱私的問題,這個浪潮在不止一個用戶那邊都會跟浪潮提出一個要求。浪潮現(xiàn)在建了一個統(tǒng)一的大池子,以前的數(shù)據(jù)都放在我這兒,我現(xiàn)在要把數(shù)據(jù)放到他那去了,你怎么保證我放在他那的數(shù)據(jù)是安全的?你一定要給我上這個手段、那個手段,當(dāng)然很多用戶聽到的都是傳統(tǒng)的手段,比如說強(qiáng)制訪問控制、要加密等等,但是在這里面,傳統(tǒng)安全的一些手段,應(yīng)該說這是在云計(jì)算模式產(chǎn)生之后大家一直在探討的問題,而且也是一直沒有非常好的答案的問題,也就是說我聚集起來以后,怎么防止用戶之間互相滲透,第二怎么防止后臺的管理員,這個我以前根本沒有見過的人,我要去信任他。
挑戰(zhàn)3:數(shù)據(jù)分析過程
第三個問題是在分析過程中產(chǎn)生的問題,從前面的接觸來看,分析過程中問題簡單來講就是兩條。第一,懂業(yè)務(wù)的人不會寫程序,會寫程序的人不懂業(yè)務(wù),如何將這些懂業(yè)務(wù)人的知識轉(zhuǎn)化成計(jì)算機(jī)的知識,這實(shí)際上是一個很麻煩的事情。剛才前面很多專家也講到了,現(xiàn)在在一些大企業(yè)里面做的一些嘗試,做人臉模式識別,包括語音、視頻、音頻,如何訓(xùn)練機(jī)器像人的大腦一樣工作。但是在很多的專業(yè)行業(yè)里,其實(shí)還有很多更專業(yè)的知識。比如說行政領(lǐng)域可能都是靠人,比如說現(xiàn)在浪潮的醫(yī)療,當(dāng)然大家講專家醫(yī)療已經(jīng)逐步往前走了,但是在醫(yī)療系統(tǒng)里面也是一樣的。前一陣子浪潮跟同事在一起討論的時候,大家也在說這個問題,是不是可以通過計(jì)算機(jī)的網(wǎng)絡(luò),大家拿著自己的癥狀、化驗(yàn)單能夠讓計(jì)算機(jī)幫人看病,解決浪潮現(xiàn)在很多時候面臨的醫(yī)療問題,當(dāng)然這是另外一個話題了,但是在這里面,如何能夠?qū)⑷说慕?jīng)驗(yàn)轉(zhuǎn)化成計(jì)算情感,這是很多人都會面臨的,好不容易找到新應(yīng)用的人了,其實(shí)寫出來的應(yīng)用做OA還可以,可能再做一個真的要結(jié)合他的業(yè)務(wù)就會很復(fù)雜,而且現(xiàn)在有很多算法層面或者更深層面的東西是沒有突破、沒有解決,需要更好的再往前進(jìn)一步,真正實(shí)現(xiàn)通過浪潮所有的攝像頭監(jiān)控一個人,這個事情很難做到。
第二個,就是這個應(yīng)用太復(fù)雜了,以前大家都用數(shù)據(jù)技術(shù),后來都用數(shù)據(jù)倉庫,再忽然有一天,大家說Hadoop是個好東西,大家全上Hadoop。是不是所有的應(yīng)用都適合Hadoop,其實(shí)不是的,從原來的數(shù)據(jù)庫切到Hadoop覺得不行又切回去了。如何找到多樣性適合應(yīng)用的一些技術(shù)來解決它的根本問題,也是現(xiàn)在面臨的一個挑戰(zhàn)。
挑戰(zhàn)4:數(shù)據(jù)可視化
最后就是可視化的問題,現(xiàn)在很多人習(xí)慣用平板、手機(jī)將這些東西展現(xiàn)出來,也是一個很大的問題。前面浪潮講到一些挑戰(zhàn),后面說一下浪潮在這方面做的一些工作。
首先,浪潮剛才講了,大數(shù)據(jù)也是浪潮整個云計(jì)算戰(zhàn)略的逐步往前邁進(jìn)的其中一步,浪潮從行業(yè)云開始,幫助用戶做運(yùn)算、聚集資源、分析數(shù)據(jù),這由于浪潮現(xiàn)在這個云計(jì)算的解決方案。浪潮還是專注在浪潮的數(shù)據(jù)中心方面,從底層機(jī)房建設(shè)到服務(wù)器、到存儲,到浪潮提供基礎(chǔ)的系統(tǒng)軟件,一直到上面來提供大數(shù)據(jù)的咨詢服務(wù)、規(guī)劃的服務(wù)等等,來幫助用戶建立一套云計(jì)算和大數(shù)據(jù)體系。
浪潮的解決之道
在過去的一年里面,浪潮在云計(jì)算方面也推出了很多新產(chǎn)品,包括模塊化數(shù)據(jù)中心,面向互聯(lián)網(wǎng)高密度的數(shù)據(jù)中心,現(xiàn)在在互聯(lián)網(wǎng)市場占有率已經(jīng)很高了,包括面向行業(yè)的大數(shù)據(jù)領(lǐng)域等等這樣的一些產(chǎn)品。
張東表示,為用戶規(guī)劃云計(jì)算需要一步一步走,不能從零一下子蹦到三,而是逐步從建云開始到聚集數(shù)據(jù),浪潮也為用戶提供整個一套建設(shè)方案的咨詢。
具體到大數(shù)據(jù)方面,浪潮提供的方案一個關(guān)鍵詞,就是一體化?浪潮認(rèn)為一體化分三個部分,第一是浪潮前面講到的所有處理過程的,從采集、存儲、分析、可視化,都可以用這樣一套系統(tǒng)解決。第二,發(fā)揮浪潮在硬件方面的優(yōu)勢,通過軟硬結(jié)合來提升整體性能,包括硬件方面的加速算是,以及現(xiàn)在專門面向大內(nèi)存計(jì)算的能力,提升整個大數(shù)據(jù)處理的性能。最后就是解決方案的一體化,面向不同的行業(yè),像今年浪潮發(fā)布了面向金融行業(yè)的一體機(jī),未來還會發(fā)布面向公安行業(yè)的一體機(jī),來做整體的解決方案。
最后為大家分享幾個解決方案的例子,這個實(shí)際上也是浪潮的案例,浪潮現(xiàn)在還在建設(shè)過程當(dāng)中,這是一個省級公安從云到大數(shù)據(jù)的整體案例。前面列到的這些問題在剛才已經(jīng)說到了,比如說浪潮也覺得一個政府部門可能領(lǐng)導(dǎo)一句話,大家什么事都好辦,實(shí)際上什么事都不好辦。這里面的很多東西,比如說數(shù)據(jù)共享,在這之前可能刑警、經(jīng)濟(jì)、戶籍、海關(guān)、出入境全都是分開的,數(shù)據(jù)之間的共享度在這之前非常差,業(yè)務(wù)系統(tǒng)重復(fù)建設(shè)很嚴(yán)重,所有的系統(tǒng)都是單機(jī)運(yùn)行的,數(shù)據(jù)處理能力也較差。
這個就是剛才浪潮說的,每一個系統(tǒng)都對應(yīng)了一套硬件,對應(yīng)了一套數(shù)據(jù)庫,對應(yīng)了一套獨(dú)立數(shù)據(jù),當(dāng)你要做應(yīng)用的時候,你給這個做應(yīng)用,可能在那個上面就沒法跑。通過浪潮給他從底層進(jìn)行規(guī)劃,包括底層的IaaS層,到中間的基于浪潮開放的大數(shù)據(jù)處理平臺,浪潮可理解為一個PaaS,但是浪潮還是一個初步的數(shù)據(jù)共享連通的平臺,將它所有的IT系統(tǒng)集中在一起,將它所有的數(shù)據(jù)集中在一起,實(shí)際上它原有的應(yīng)用,這個業(yè)務(wù)系統(tǒng)可以不動,它只要說我跑在這個上面,訪問那個地方的特殊數(shù)據(jù),就形成了一個新的平臺,將內(nèi)部所有數(shù)據(jù)共享起來,同時將外面的數(shù)據(jù)拿進(jìn)來,可以進(jìn)行多點(diǎn)碰撞,實(shí)現(xiàn)更多的它以前解決不了的問題,或者說沒有辦法快速解決的問題,這樣就形成了一個整體的云計(jì)算和大數(shù)據(jù)的平臺。
這個是浪潮具體的一些方案,這是物理上的一個結(jié)構(gòu),通過統(tǒng)一監(jiān)控管理,將全省的平臺聯(lián)合在一起,這是在大數(shù)據(jù)方面通過多種處理數(shù)據(jù)的手段,比如說它里面有很傳統(tǒng)的數(shù)據(jù)庫的東西,比如說很多人的戶籍信息可能都在數(shù)據(jù)庫里面,但是它更有大量的音視頻數(shù)據(jù),采用了多種平臺,包括數(shù)據(jù)庫、類似Hadoop這樣的新式平臺,來構(gòu)建一個統(tǒng)一的平臺。
在上面是浪潮浪潮的一個數(shù)據(jù)共享平臺,也叫IOP,將底層所有的云數(shù)據(jù)進(jìn)行統(tǒng)一抽取,統(tǒng)一進(jìn)行處理,在上面把它展現(xiàn)出來,這樣就形成了浪潮面向公安的一個大數(shù)據(jù)解決方案。