在本次揭牌儀式上,有專家表示:中國雖然擁有全球14%的數(shù)據(jù)量,利用率卻不到0.4%,大量數(shù)據(jù)未能發(fā)揮其應(yīng)有作用。
既然如此,大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室的成立能夠解決或者緩解存在問題嗎?你說什么,要一個國家實(shí)驗(yàn)室來解決問題,未免有些差強(qiáng)人意吧?!的確如此。但是,國家工程實(shí)驗(yàn)室的成立也應(yīng)該有針對性的,目的是從國家頂層設(shè)計(jì)的高度解決問題,目標(biāo)也是為推動大數(shù)據(jù)應(yīng)用,因此從這個思路出發(fā),投資“大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室”發(fā)揮作用也非常重要。
“大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室”會發(fā)揮作用呢?這就需要對于中國大數(shù)據(jù)應(yīng)用存在的問題把把脈:是技術(shù)問題,數(shù)據(jù)問題。此前有專家認(rèn)為是數(shù)據(jù)定價(jià)問題(參見:太扯了:承認(rèn)數(shù)據(jù)是資產(chǎn)有個卵用?數(shù)據(jù)共享靠的不是這個!),也有認(rèn)為是隱私保護(hù)等政策法規(guī)的問題。
從國家實(shí)驗(yàn)室的方向看,中國工程院院士、曙光公司董事長、大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室李國杰表示:實(shí)驗(yàn)室建設(shè)總體規(guī)劃是面向大數(shù)據(jù)分析全生命周期的技術(shù)與應(yīng)用環(huán)路,系統(tǒng)化地構(gòu)建大數(shù)據(jù)分析三大平臺:
1、大數(shù)據(jù)分析基礎(chǔ)設(shè)施平臺;
2、軟硬一體的大數(shù)據(jù)開放分析平臺;
3、大數(shù)據(jù)分析示范應(yīng)用與服務(wù)平臺;
通過三大平臺的建設(shè),切實(shí)開展大數(shù)據(jù)分析領(lǐng)域的科學(xué)研究與技術(shù)研發(fā)。
這樣的表述,是不是可以得出這樣的結(jié)論:目前的問題是基礎(chǔ)設(shè)施和分析平臺,似乎更加側(cè)重?cái)?shù)據(jù)和分析技術(shù)。有意思的是:全球大數(shù)據(jù)頂級技術(shù)峰會Strata + Hadoop World主辦方O’Reilly日前宣布,會議改名為 Strata Data Conference,也將重點(diǎn)集中在技術(shù)平臺。換句話說, 他們也認(rèn)為Hadoop 時代終結(jié),聚光燈應(yīng)該從大數(shù)據(jù)轉(zhuǎn)移到機(jī)器學(xué)習(xí)(以及諸如深度學(xué)習(xí)等更先進(jìn)的技術(shù)領(lǐng)域)。當(dāng)然。大數(shù)據(jù)應(yīng)用的基礎(chǔ)還是分布式和可擴(kuò)展處理。
有專家表示Apache Spark搶了Hadoop的風(fēng)頭。其實(shí),無論Hadoop、Map/Reduce、Spark、機(jī)器學(xué)習(xí)等,還都是技術(shù)問題。真是這些技術(shù)問題延緩了中國大數(shù)據(jù)應(yīng)用的腳步嗎?
在我看來,所謂“技術(shù)問題都不是問題”。如果技術(shù)存在根本問題,國內(nèi)外就應(yīng)該被技術(shù)問題羈絆。盡管在掌握技術(shù)的成熟度上,國內(nèi)存在差距。但也沒有必要先成為技術(shù)高手,再來討論應(yīng)用的問題。這個結(jié)論是不成立的。
如果技術(shù)不是問題,更多的可能性還來自投資和商業(yè)模式上。
大數(shù)據(jù)往往涉及的是戰(zhàn)略決策的問題。其依據(jù)來自對于數(shù)據(jù)關(guān)系深入研究,從中洞察數(shù)據(jù)背后潛藏商業(yè)價(jià)值。其中,數(shù)據(jù)量、數(shù)學(xué)模型等都會對結(jié)果產(chǎn)生影響。大數(shù)據(jù)應(yīng)用的過程,也是一個反復(fù)研究和推理的過程,需要數(shù)據(jù)科學(xué)家豐富的經(jīng)驗(yàn)。
簡單來說,數(shù)據(jù)積累、數(shù)據(jù)分析工具和分析方法將非常重要。對于但一行業(yè)或者企業(yè)來說,盡管擁有數(shù)據(jù),但數(shù)據(jù)積累還是會有局限的。數(shù)據(jù)建模和商業(yè)應(yīng)用是更加難以逾越的障礙。
如何解決數(shù)據(jù)豐富性的問題。對此,曙光公司的加入會讓問題有所緩解。曙光在全國各省市提供了大量的云計(jì)算服務(wù),產(chǎn)生大量數(shù)據(jù)。從技術(shù)上,這些數(shù)據(jù)可以支持“黑盒”使用,所謂“人人為我,我為人人”。作為大數(shù)據(jù)應(yīng)用的國家隊(duì),“大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室”完全可以承擔(dān):數(shù)據(jù)輸出的角色。一句話,數(shù)據(jù)就在哪里,就看你怎么分析和挖掘了。數(shù)據(jù)是不能直接輸出的,但大數(shù)據(jù)分析的結(jié)論是可以輸出的,如此,也就規(guī)避了數(shù)據(jù)隱私和數(shù)據(jù)定價(jià)的問題。
“大數(shù)據(jù)分析系統(tǒng)國家工程實(shí)驗(yàn)室”有數(shù)據(jù),有平臺,有技術(shù),從這個意義上說,就應(yīng)該輸出商業(yè)化的大數(shù)據(jù)服務(wù)。完全可以承擔(dān)大數(shù)據(jù)應(yīng)用服務(wù)商的角色。對此,國家工程實(shí)驗(yàn)室有一個很好的學(xué)習(xí)樣板:上海超算。
對于國家工程實(shí)驗(yàn)室,我們最期待的不是技術(shù)、不是示范,更加期待的是服務(wù)。這也是它最應(yīng)該輸出的內(nèi)容。就像2年前,Splunk專家所說的,用戶需要不是Hadoop、Map/Reduce,數(shù)據(jù)就在那里,如何分析,分析視角,這是熟悉業(yè)務(wù)的用戶最為擅長的。至于機(jī)器學(xué)習(xí),通過機(jī)器算法分析的東西,其中秘密也只有業(yè)務(wù)專家才能夠進(jìn)行判讀和解讀。