李建中以學(xué)院式的手法介紹了大數(shù)據(jù)的研究方向。講三個(gè)問(wèn)題:第一,大數(shù)據(jù)的基本概念。第二,大數(shù)據(jù)計(jì)算機(jī)其挑戰(zhàn)。第三,研究問(wèn)題與部分解。
第一,大數(shù)據(jù)的基本概念。什么是大數(shù)據(jù),實(shí)際上我的報(bào)告講了很多了,為什么叫做描述?因?yàn)榇髷?shù)據(jù)實(shí)際上是結(jié)合了不可定義的概念,大是相對(duì)的,是相對(duì)目前的及拴系統(tǒng)計(jì)算能力來(lái)說(shuō)的,今天的大數(shù)據(jù)明天就不是大數(shù)據(jù),大數(shù)據(jù)有的人說(shuō)三個(gè)V,有的人說(shuō)四個(gè)V,V我也不詳細(xì)說(shuō)了。所以說(shuō),大數(shù)據(jù)存在已久。有一個(gè)會(huì)議叫SSDB是1983年創(chuàng)建的一個(gè)會(huì)議,這里面的論文就是在研究大數(shù)據(jù),這個(gè)會(huì)議到現(xiàn)在已經(jīng)有29年的歷史了,現(xiàn)在為什么談起來(lái)大數(shù)據(jù)呢?因?yàn)閭€(gè)時(shí)候大數(shù)據(jù)還沒(méi)有那么普遍,涉及的領(lǐng)域很少,參加這方面研究的人也很有限,所以跟現(xiàn)在不同?,F(xiàn)在的大數(shù)據(jù)和當(dāng)時(shí)研究的不同主要有兩點(diǎn)。
第一,大數(shù)據(jù)達(dá)到了無(wú)處不在的程度。因特網(wǎng)有很多的大數(shù)據(jù),在科學(xué)研究領(lǐng)域、醫(yī)療領(lǐng)域、商業(yè)領(lǐng)域、制造業(yè)、智慧城市都有大量的數(shù)據(jù)。全世界的感知數(shù)據(jù)增長(zhǎng)率是每年58%,全世界擁有的存儲(chǔ)能力或者是存儲(chǔ)總量的增長(zhǎng)率是每年只有40%。到2007年是一個(gè)里程碑,到2007年全世界的感知數(shù)據(jù)已經(jīng)超過(guò)了全世界所擁有的存儲(chǔ)器的容量。到2010年的時(shí)候,全世界的感知數(shù)據(jù)是1.25千萬(wàn)PB,2011年產(chǎn)生的感知數(shù)據(jù)已經(jīng)二倍于我們?nèi)祟?lèi)所擁有的存儲(chǔ)器的容量。所以,我們可以得到這樣的結(jié)論,大數(shù)據(jù)幾乎無(wú)處不在,數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超出了現(xiàn)有的存儲(chǔ)能力。
第二,大數(shù)據(jù)計(jì)算及其挑戰(zhàn)。
大數(shù)據(jù)的輸入是大數(shù)據(jù)D,問(wèn)題的解是f(D)。我們通常講的時(shí)候總是講查詢(xún)、挖掘、分析,實(shí)際上已經(jīng)遠(yuǎn)遠(yuǎn)地超出了這個(gè)范圍。大數(shù)據(jù)是一個(gè)多學(xué)科大范圍的研究領(lǐng)域,涉及到很多的學(xué)科。
比如說(shuō)在生物學(xué)、宇航學(xué)等各種領(lǐng)域里面都有它非常復(fù)雜的大數(shù)據(jù)的計(jì)算問(wèn)題,但我們沒(méi)有考慮到。大數(shù)據(jù)計(jì)算問(wèn)題的空間有多大?可以把在大數(shù)據(jù)方面的活動(dòng)區(qū)分成這樣五個(gè)方面,一個(gè)是大數(shù)據(jù)的獲取、一個(gè)是大數(shù)據(jù)的傳輸、一個(gè)是大數(shù)據(jù)的存儲(chǔ)、一個(gè)是大數(shù)據(jù)的質(zhì)量管理。最終,要支持大數(shù)據(jù)的問(wèn)題求解。所有的五個(gè)階段里面的問(wèn)題集中起來(lái),稱(chēng)之為大數(shù)據(jù)計(jì)算問(wèn)題的空間。我們把求解這個(gè)空間里面的每一個(gè)問(wèn)題的過(guò)程叫做大數(shù)據(jù)計(jì)算。對(duì)每個(gè)問(wèn)題要研究什么呢?要研究它的可計(jì)算性、計(jì)算復(fù)雜性和求解算法。現(xiàn)在我們面臨的挑戰(zhàn)是四個(gè)方面。
第一,如何把現(xiàn)有的計(jì)算理論、現(xiàn)有的算法、設(shè)計(jì)方法和現(xiàn)有的計(jì)算系統(tǒng)scale to up。第二,usability的問(wèn)題。如果大數(shù)據(jù)里面充滿(mǎn)了錯(cuò)誤,我們計(jì)算在好也不會(huì)得出正確的結(jié)論。第三,privacy的問(wèn)題,如何在最大化確保privacy。第四,交叉學(xué)科的問(wèn)題,如何實(shí)現(xiàn)多學(xué)科交叉,面臨和解決大數(shù)據(jù)的領(lǐng)域問(wèn)題,各個(gè)學(xué)科里面的大數(shù)據(jù)由于專(zhuān)業(yè)不同又沒(méi)有能力處理這樣大的數(shù)據(jù),如何把多個(gè)學(xué)科交叉起來(lái),然后來(lái)解決問(wèn)題。所以我們面臨的挑戰(zhàn)是四個(gè)挑戰(zhàn)。實(shí)際上大對(duì)計(jì)算的影響力是非常大的。我們?cè)谥行陀?jì)算機(jī)上和64個(gè)節(jié)點(diǎn)的集群上做了兩組實(shí)驗(yàn),就在數(shù)據(jù)庫(kù)里面的算法和數(shù)據(jù)苦里面的算法進(jìn)行了計(jì)算。我們是用了1T到10T的數(shù)據(jù),這樣的執(zhí)行時(shí)間是從68個(gè)小時(shí)到89個(gè)小時(shí)。所以,大數(shù)據(jù)項(xiàng)我們提出了很多的挑戰(zhàn),同時(shí)現(xiàn)有的方法和技術(shù)已經(jīng)不能有效的支持大數(shù)據(jù)計(jì)算了。
第三,研究問(wèn)題與部分解。
現(xiàn)在考慮兩個(gè)基礎(chǔ)方面的、共性的研究問(wèn)題。第一個(gè)問(wèn)題是大數(shù)據(jù)的計(jì)算復(fù)雜性問(wèn)題。大數(shù)據(jù)的計(jì)算復(fù)雜性測(cè)度,除了時(shí)間復(fù)雜性以外還要考慮能量復(fù)雜性。云計(jì)算出來(lái)之后或者是集群技術(shù)出來(lái)之后,能量測(cè)度復(fù)雜性非常高,我們學(xué)校集群的電費(fèi)就是1000多萬(wàn),所以能量的問(wèn)題我們不得不考慮。這樣,就要在這兩個(gè)測(cè)度下來(lái)考慮。時(shí)間復(fù)雜性的問(wèn)題上要充分考慮問(wèn)題的復(fù)雜性分類(lèi)。傳統(tǒng)的復(fù)雜性理論是把問(wèn)題分成P類(lèi)和NP類(lèi)?,F(xiàn)在在P類(lèi)問(wèn)題里,數(shù)據(jù)量輸入非常大的時(shí)候,N方算法就已經(jīng)不合適了。甚至N算法都不合適了。在傳統(tǒng)的理論里,我們認(rèn)為多項(xiàng)式算法是可以接受的。的數(shù)據(jù)的前提下不一定合適,大數(shù)據(jù)問(wèn)題的難解性的標(biāo)準(zhǔn)是什么可以重新考慮。第二是數(shù)據(jù)難解問(wèn)題的判斷性問(wèn)題,這通常是用了一個(gè)歸結(jié)的方法。假定線(xiàn)性和亞線(xiàn)性是我們能容忍的算法,現(xiàn)在考慮用歸的辦法來(lái)判定一個(gè)問(wèn)題是不是難解的,我們用歸就需要來(lái)解決多項(xiàng)線(xiàn)性和亞線(xiàn)性歸的問(wèn)題,這個(gè)做起來(lái)很困難,如果這條路走不通就需要探索新的路。
很多難解的問(wèn)題怎么辦?我們就想做算法,每個(gè)問(wèn)題的復(fù)雜性我們要知道是不是難解的,這是需要解決的問(wèn)題,同時(shí)難解之后我們要判定是不是有線(xiàn)性或者是亞線(xiàn)性的算法,是不是可近似性的。
對(duì)能量復(fù)雜性來(lái)說(shuō),我們首先要研究能量復(fù)雜性的模型,看看能量是怎么樣來(lái)消耗能量,然后我們來(lái)研究和時(shí)間復(fù)雜性相似的問(wèn)題,這是最基本的基礎(chǔ)理論問(wèn)題,現(xiàn)在我們正在做這方面的工作。另外一個(gè)問(wèn)題是大數(shù)據(jù)的計(jì)算的算法設(shè)計(jì)的新方法,我們需要有新的思維,不然的話(huà)是很難取得突破性的進(jìn)展的?,F(xiàn)在各個(gè)企業(yè)和廠(chǎng)家都在宣布說(shuō)我有什么什么工具,你有什么什么工具。但試想一下如果一個(gè)大數(shù)據(jù)問(wèn)題到你那算的話(huà)都是N的平方算法的話(huà)是很難解決的。算法都沒(méi)有解決工具何以生成?所以算法是我們面臨的很大的問(wèn)題。
現(xiàn)在多項(xiàng)式算法如果指數(shù)太多的話(huà),是平方級(jí)以上對(duì)P數(shù)量級(jí)或者是E數(shù)量級(jí)的數(shù)據(jù)就不可能計(jì)算了,所以現(xiàn)在要有新的理念,要追求線(xiàn)性和亞線(xiàn)性計(jì)算的算法,這里面是n,logn、loglogn的算法了。排序問(wèn)題有沒(méi)有這樣的算法?對(duì)基于比較的排序來(lái)說(shuō),nlogn也是沒(méi)有算法的,但像基數(shù)排序的不依賴(lài)于比較的是有線(xiàn)性算法的,讓它具有更一般性適合大數(shù)據(jù)的處理有很多的問(wèn)題,很多的問(wèn)題如果不具有線(xiàn)性和亞線(xiàn)性算法的時(shí)候,我們要考慮設(shè)計(jì)的新方法了。我們首先叫做doing more with less,我能不能用一部分的數(shù)據(jù)來(lái)解決整個(gè)數(shù)據(jù)的問(wèn)題。在這么多年的工作中,試著想了幾個(gè)方法,一個(gè)是基于壓縮的大數(shù)據(jù)計(jì)算方法。壓縮大家都知道,可是有一個(gè)很大的問(wèn)題是,傳統(tǒng)的壓縮方法在計(jì)算之前需要把數(shù)據(jù)反壓縮過(guò)來(lái),可是我們追求的是無(wú)解壓的計(jì)算,壓縮小了就在小的上面計(jì)算,這樣才能達(dá)到提高性能的目的。因此有兩個(gè)問(wèn)題需要考慮,一個(gè)是數(shù)據(jù)壓縮方法,一個(gè)是無(wú)解壓的計(jì)算問(wèn)題。
第二個(gè)問(wèn)題是無(wú)解壓計(jì)算的問(wèn)題,有了壓縮的方法在這上面怎么計(jì)算呢?有很多的方法,有興趣的老師和同學(xué)可以去看一下相關(guān)的文章。第二個(gè)方法是適用的是基于抽樣的大數(shù)據(jù)的e、dβ的近似計(jì)算方法。因此就要解決三個(gè)問(wèn)題,一個(gè)是抽樣方法的選擇問(wèn)題,不同的數(shù)據(jù)不同數(shù)據(jù)的特點(diǎn)可能需要的抽樣方法是不一樣的,對(duì)不同的應(yīng)用抽樣的方法也是不一樣的,甚至我們已經(jīng)遇到了所有的抽樣方法都不合適的數(shù)據(jù)怎么辦?我們還要和數(shù)學(xué)家共同商量,搞出新的方法。第二個(gè)方法是估計(jì)器的問(wèn)題,我們要做一個(gè)估計(jì)器,能夠證明它(e,β)的估計(jì)器,那么我們?cè)趺茨芙o定了以后卻確定樣本的大小,希望用最小的樣本來(lái)計(jì)算問(wèn)題。這些問(wèn)題如何解決在下面的文章里都有介紹。
第三個(gè)問(wèn)題是增量式大數(shù)據(jù)計(jì)算方法。很多的數(shù)據(jù)庫(kù)是動(dòng)態(tài)變化的,還有一些數(shù)據(jù)像傳感器網(wǎng)絡(luò)的數(shù)據(jù)、流數(shù)據(jù)都是在不斷地增加和變化的。現(xiàn)在就考慮有兩種增量方法,一個(gè)是有大數(shù)據(jù)D,先把數(shù)據(jù)D小部分算完了,之后再加上( e,β),我的計(jì)算和原始的沒(méi)有關(guān)系,只和(e,β)有關(guān)。這個(gè)大數(shù)據(jù)的計(jì)算問(wèn)題就變成了小數(shù)據(jù)的計(jì)算問(wèn)題。還有一些流數(shù)據(jù)的增量式的算法就有意義了,總是要保證后面增量的計(jì)算和前面沒(méi)有關(guān)系,我就把大數(shù)據(jù)的計(jì)算問(wèn)題變成了小數(shù)據(jù)的計(jì)算問(wèn)題,這里面有一些方法,這些文章都很好找的。
最后一個(gè)現(xiàn)在正在試的方法是主數(shù)據(jù)分析的方法。大數(shù)據(jù)的一個(gè)特點(diǎn)是價(jià)值很大可是價(jià)值密度很低?,F(xiàn)在把有價(jià)值的數(shù)據(jù)叫做主數(shù)據(jù),現(xiàn)在我們有兩種主數(shù)據(jù),一般是絕對(duì)主數(shù)據(jù),這個(gè)數(shù)據(jù)相對(duì)這個(gè)領(lǐng)域的有價(jià)值數(shù)據(jù)是什么?我們要把它找到。另外一個(gè)是相對(duì)主數(shù)據(jù),這對(duì)計(jì)算來(lái)說(shuō)是有用的,我們?cè)趺窗阉业?,現(xiàn)在正在做工作,明年年初會(huì)出來(lái)結(jié)果。
這是在一類(lèi)方法學(xué)上。下面是云計(jì)算環(huán)境下的并行算法的設(shè)計(jì)方法。并行算法有很多,可是云計(jì)算環(huán)境和傳統(tǒng)的并行計(jì)算環(huán)境是不一樣的,所以要有新的設(shè)計(jì)方法。第一個(gè)問(wèn)題是,云環(huán)境下大數(shù)據(jù)怎么分布存儲(chǔ),數(shù)據(jù)怎么在各個(gè)節(jié)點(diǎn)上分布才能有效地支持大數(shù)據(jù)計(jì)算,這是需要解決的問(wèn)題,我們提過(guò)一些方法。第二個(gè)是云計(jì)算環(huán)境下的低通訊量的并行算法。因?yàn)樵朴?jì)算的通信是瓶頸的問(wèn)題,如果通信量非常大云計(jì)算是不靈的?,F(xiàn)在我們追求的是低通信量的并行算法的設(shè)計(jì)。還有是能量受限的大數(shù)據(jù)計(jì)算方法,給定一個(gè)能力β,這個(gè)計(jì)算問(wèn)題要判定一下在β的能量下能不能算出來(lái),能算出來(lái)怎么算?我我我這是算法方面要考慮的問(wèn)題。
李建中簡(jiǎn)單介紹六個(gè)方面的關(guān)鍵技術(shù)研究。
第一是大數(shù)據(jù)獲取,有兩個(gè)方面,首先是基于互聯(lián)網(wǎng)的大數(shù)據(jù)獲取的理論和方法,在數(shù)據(jù)庫(kù)研究里面有了很多的相應(yīng)的技術(shù)。但這些技術(shù)不適合大數(shù)據(jù),數(shù)據(jù)量非常大的時(shí)候就有問(wèn)題,怎么把這些問(wèn)題scale to大數(shù)據(jù)上。第二個(gè)是基于傳感網(wǎng)的大數(shù)據(jù)的獲取的方法。因?yàn)榇髷?shù)據(jù)的數(shù)據(jù)已經(jīng)達(dá)到了非常大的地步,所以我們涉及到新的數(shù)據(jù)獲取的問(wèn)題,傳統(tǒng)的傳感器的節(jié)點(diǎn)已經(jīng)不靈了,我們還要研究信號(hào)處理的算法,還要研究物理世界信息準(zhǔn)確的獲取的方法。現(xiàn)在的獲取方法有很大的問(wèn)題,一個(gè)這樣的物理世界的信息是這樣的,可是我們可能會(huì)變成這個(gè)樣子。物理世界不可能再現(xiàn),我們作出的結(jié)論也不可能對(duì)。今年我們做了兩個(gè)這樣的結(jié)果要發(fā)表出來(lái)。
在大數(shù)據(jù)的傳輸上,一個(gè)是大數(shù)據(jù)實(shí)時(shí)傳輸?shù)睦碚摵退惴ǎ幸恍┙Y(jié)果。第一是大數(shù)據(jù)的安全可靠傳輸?shù)睦碚摵退惴?。第二,大?shù)據(jù)傳輸?shù)恼{(diào)度和控制的問(wèn)題。第三,在傳輸?shù)倪^(guò)程中繼續(xù)進(jìn)行計(jì)算。這樣通信量很少。第三是大數(shù)據(jù)的存儲(chǔ)問(wèn)題。過(guò)去的數(shù)據(jù)中心有很多,數(shù)據(jù)有一個(gè)數(shù)據(jù)中心,當(dāng)我用的時(shí)候在服務(wù)器上讓數(shù)據(jù)流到我這里來(lái)。在網(wǎng)上傳輸TP級(jí)數(shù)據(jù)的話(huà),網(wǎng)絡(luò)是根本不可能的?,F(xiàn)在我們希望數(shù)據(jù)中心既能存儲(chǔ)數(shù)據(jù)又能支持大數(shù)據(jù)計(jì)算,算法也在那里。用戶(hù)提交的是計(jì)算請(qǐng)求,計(jì)算完之后把結(jié)果傳輸給我,有一系列的研究需要說(shuō)。
第三個(gè)問(wèn)題是大數(shù)據(jù)可用性的研究理論和技術(shù)。目前的大數(shù)據(jù)的基礎(chǔ)設(shè)施基本上都是考慮關(guān)注量的管理忽略了質(zhì)的管理。所以造成了很大的問(wèn)題,數(shù)據(jù)質(zhì)量問(wèn)題已經(jīng)嚴(yán)重地危害到了國(guó)際信息社會(huì),有很多這樣的例子。在中國(guó)雖然沒(méi)有報(bào)道但也有很多流露。所以說(shuō)這個(gè)問(wèn)題是很?chē)?yán)重的。所以,今年正在做的973項(xiàng)目就是在解決這個(gè)問(wèn)題,把數(shù)據(jù)的可用性定義為數(shù)據(jù)一致性等五個(gè)指標(biāo)在信息系統(tǒng)中被滿(mǎn)足的程度。要研究的三個(gè)關(guān)鍵科學(xué)問(wèn)題是量質(zhì)融合管理、劣質(zhì)容忍原理、深度演化機(jī)理。研究的是如何既管量又管質(zhì)。之后要考慮知識(shí),在弱可用信息上如何解決知識(shí)的獲取、知識(shí)的推理問(wèn)題,這個(gè)項(xiàng)目大概有這么五個(gè)課題還有一個(gè)應(yīng)用課題。這樣來(lái)解決一系列的問(wèn)題,這樣項(xiàng)目目前在進(jìn)行中已經(jīng)取得了一些結(jié)果再一個(gè)是大數(shù)據(jù)問(wèn)題求解。第一是共性的大數(shù)據(jù)問(wèn)題的求解的理論和算法,一個(gè)是面向應(yīng)用的。
共性方面的問(wèn)題是計(jì)算機(jī)界能獨(dú)立完成的,應(yīng)用方面需要和應(yīng)用領(lǐng)域結(jié)合起來(lái)才能完成。共性方面的問(wèn)題實(shí)際上并不是很多,是結(jié)構(gòu)化和半結(jié)構(gòu)化大型數(shù)據(jù)的理論和算法,現(xiàn)在都有一些不是大數(shù)據(jù)算法。這些算法怎么樣能夠把它提升到解決大數(shù)據(jù)問(wèn)題上,涉及到需要新的算法,TB級(jí)以上的數(shù)據(jù)如何做。再有,圖數(shù)據(jù)安裝,圖數(shù)據(jù)是復(fù)雜的數(shù)據(jù),現(xiàn)在Facebook也好歸根到底都是圖的問(wèn)題。我們需要研究的是大型圖數(shù)據(jù)的計(jì)算的理論和算法,包括確定圖和不確定圖。
還有一個(gè)是非結(jié)構(gòu)化的大數(shù)據(jù)的計(jì)算的理論和算法。同樣的問(wèn)題有很多,那么算法怎么做,歸根到底還是算法的問(wèn)題。再一個(gè)是面向應(yīng)用的大數(shù)據(jù)求解了,是生物信息領(lǐng)域、天文學(xué)領(lǐng)域等計(jì)算,這些計(jì)算計(jì)算機(jī)科學(xué)家必須和那個(gè)領(lǐng)域的專(zhuān)家結(jié)合起來(lái),才能把它解決出來(lái),所以這對(duì)我們來(lái)說(shuō)是一個(gè)很大的挑戰(zhàn)。
第二個(gè)是Privacy的問(wèn)題了,它有可能成為大數(shù)據(jù)計(jì)算的很大的障礙。我們遇到的問(wèn)題是他有數(shù)據(jù)不給你因?yàn)楸C埽墒俏覀兿胨阌譀](méi)有數(shù)據(jù),這里的問(wèn)題矛盾非常大。所以這個(gè)問(wèn)題是在這一段時(shí)間內(nèi)很難解決的問(wèn)題,所以Pricacy并不是本身的問(wèn)題。
最后李建中提出了兩個(gè)問(wèn)號(hào),第一是大數(shù)據(jù)的硬件平臺(tái),我的問(wèn)題是云計(jì)算是大數(shù)據(jù)計(jì)算的最好平臺(tái)嗎?它有兩個(gè)極限,一個(gè)是通訊瓶頸問(wèn)題,一個(gè)是能量消耗問(wèn)題,這兩個(gè)問(wèn)題是非常嚴(yán)重的。現(xiàn)在云計(jì)算炒得很厲害,這不是科學(xué)技術(shù)模式而是一個(gè)商業(yè)模式,本質(zhì)上就是一個(gè)集群,它的兩個(gè)局限性使我們真的做一些復(fù)雜問(wèn)題處理的時(shí)候會(huì)發(fā)現(xiàn)做那樣的并行算法幾乎是不可能的,通訊量一到這個(gè)問(wèn)題就很難了。所以我們就想是不是需要考慮突破云計(jì)算束縛的、適合大數(shù)據(jù)計(jì)算的新型的計(jì)算系統(tǒng)。
第二個(gè),我們是不是需要新的程序設(shè)備模型。很多的問(wèn)題并不是能用迭代來(lái)做的,很多的問(wèn)題需要更加適合的模型。怎么樣考慮這個(gè)問(wèn)題,是不是它就到頭了?第二個(gè)問(wèn)題,是不是要新的軟件開(kāi)發(fā)工具?比如說(shuō)在集群上設(shè)計(jì)一個(gè)并行算法的時(shí)候,一個(gè)調(diào)試工具都沒(méi)有,其他的工具呢?就更少了,我們是不是需要?
第三,我們是不是需要新的軟件設(shè)計(jì)方法學(xué),在云計(jì)算環(huán)境下,軟件設(shè)計(jì)和遷移的方法一樣嗎?還會(huì)不會(huì)有其他的問(wèn)題?引起大家的深思。