最近高清中文在线字幕观看,999久久久无码国产精品

李建中以學(xué)院式的手法介紹了大數(shù)據(jù)的研究方向。講三個(gè)問題：第一，大數(shù)據(jù)的基本概念。第二，大數(shù)據(jù)計(jì)算機(jī)其挑戰(zhàn)。第三，研究問題與部分解。

第一，大數(shù)據(jù)的基本概念。什么是大數(shù)據(jù)，實(shí)際上我的報(bào)告講了很多了，為什么叫做描述？因?yàn)榇髷?shù)據(jù)實(shí)際上是結(jié)合了不可定義的概念，大是相對(duì)的，是相對(duì)目前的及拴系統(tǒng)計(jì)算能力來說的，今天的大數(shù)據(jù)明天就不是大數(shù)據(jù)，大數(shù)據(jù)有的人說三個(gè)V，有的人說四個(gè)V，V我也不詳細(xì)說了。所以說，大數(shù)據(jù)存在已久。有一個(gè)會(huì)議叫SSDB是1983年創(chuàng)建的一個(gè)會(huì)議，這里面的論文就是在研究大數(shù)據(jù)，這個(gè)會(huì)議到現(xiàn)在已經(jīng)有29年的歷史了，現(xiàn)在為什么談起來大數(shù)據(jù)呢？因?yàn)閭€(gè)時(shí)候大數(shù)據(jù)還沒有那么普遍，涉及的領(lǐng)域很少，參加這方面研究的人也很有限，所以跟現(xiàn)在不同?，F(xiàn)在的大數(shù)據(jù)和當(dāng)時(shí)研究的不同主要有兩點(diǎn)。

第一，大數(shù)據(jù)達(dá)到了無處不在的程度。因特網(wǎng)有很多的大數(shù)據(jù)，在科學(xué)研究領(lǐng)域、醫(yī)療領(lǐng)域、商業(yè)領(lǐng)域、制造業(yè)、智慧城市都有大量的數(shù)據(jù)。全世界的感知數(shù)據(jù)增長率是每年58%，全世界擁有的存儲(chǔ)能力或者是存儲(chǔ)總量的增長率是每年只有40%。到2007年是一個(gè)里程碑，到2007年全世界的感知數(shù)據(jù)已經(jīng)超過了全世界所擁有的存儲(chǔ)器的容量。到2010年的時(shí)候，全世界的感知數(shù)據(jù)是1.25千萬PB，2011年產(chǎn)生的感知數(shù)據(jù)已經(jīng)二倍于我們?nèi)祟愃鶕碛械拇鎯?chǔ)器的容量。所以，我們可以得到這樣的結(jié)論，大數(shù)據(jù)幾乎無處不在，數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超出了現(xiàn)有的存儲(chǔ)能力。

第二，大數(shù)據(jù)計(jì)算及其挑戰(zhàn)。

大數(shù)據(jù)的輸入是大數(shù)據(jù)D，問題的解是f（D）。我們通常講的時(shí)候總是講查詢、挖掘、分析，實(shí)際上已經(jīng)遠(yuǎn)遠(yuǎn)地超出了這個(gè)范圍。大數(shù)據(jù)是一個(gè)多學(xué)科大范圍的研究領(lǐng)域，涉及到很多的學(xué)科。

比如說在生物學(xué)、宇航學(xué)等各種領(lǐng)域里面都有它非常復(fù)雜的大數(shù)據(jù)的計(jì)算問題，但我們沒有考慮到。大數(shù)據(jù)計(jì)算問題的空間有多大？可以把在大數(shù)據(jù)方面的活動(dòng)區(qū)分成這樣五個(gè)方面，一個(gè)是大數(shù)據(jù)的獲取、一個(gè)是大數(shù)據(jù)的傳輸、一個(gè)是大數(shù)據(jù)的存儲(chǔ)、一個(gè)是大數(shù)據(jù)的質(zhì)量管理。最終，要支持大數(shù)據(jù)的問題求解。所有的五個(gè)階段里面的問題集中起來，稱之為大數(shù)據(jù)計(jì)算問題的空間。我們把求解這個(gè)空間里面的每一個(gè)問題的過程叫做大數(shù)據(jù)計(jì)算。對(duì)每個(gè)問題要研究什么呢？要研究它的可計(jì)算性、計(jì)算復(fù)雜性和求解算法?，F(xiàn)在我們面臨的挑戰(zhàn)是四個(gè)方面。

第一，如何把現(xiàn)有的計(jì)算理論、現(xiàn)有的算法、設(shè)計(jì)方法和現(xiàn)有的計(jì)算系統(tǒng)scale to up。第二，usability的問題。如果大數(shù)據(jù)里面充滿了錯(cuò)誤，我們計(jì)算在好也不會(huì)得出正確的結(jié)論。第三，privacy的問題，如何在最大化確保privacy。第四，交叉學(xué)科的問題，如何實(shí)現(xiàn)多學(xué)科交叉，面臨和解決大數(shù)據(jù)的領(lǐng)域問題，各個(gè)學(xué)科里面的大數(shù)據(jù)由于專業(yè)不同又沒有能力處理這樣大的數(shù)據(jù)，如何把多個(gè)學(xué)科交叉起來，然后來解決問題。所以我們面臨的挑戰(zhàn)是四個(gè)挑戰(zhàn)。實(shí)際上大對(duì)計(jì)算的影響力是非常大的。我們?cè)谥行陀?jì)算機(jī)上和64個(gè)節(jié)點(diǎn)的集群上做了兩組實(shí)驗(yàn)，就在數(shù)據(jù)庫里面的算法和數(shù)據(jù)苦里面的算法進(jìn)行了計(jì)算。我們是用了1T到10T的數(shù)據(jù)，這樣的執(zhí)行時(shí)間是從68個(gè)小時(shí)到89個(gè)小時(shí)。所以，大數(shù)據(jù)項(xiàng)我們提出了很多的挑戰(zhàn)，同時(shí)現(xiàn)有的方法和技術(shù)已經(jīng)不能有效的支持大數(shù)據(jù)計(jì)算了。

第三，研究問題與部分解。

現(xiàn)在考慮兩個(gè)基礎(chǔ)方面的、共性的研究問題。第一個(gè)問題是大數(shù)據(jù)的計(jì)算復(fù)雜性問題。大數(shù)據(jù)的計(jì)算復(fù)雜性測(cè)度，除了時(shí)間復(fù)雜性以外還要考慮能量復(fù)雜性。云計(jì)算出來之后或者是集群技術(shù)出來之后，能量測(cè)度復(fù)雜性非常高，我們學(xué)校集群的電費(fèi)就是1000多萬，所以能量的問題我們不得不考慮。這樣，就要在這兩個(gè)測(cè)度下來考慮。時(shí)間復(fù)雜性的問題上要充分考慮問題的復(fù)雜性分類。傳統(tǒng)的復(fù)雜性理論是把問題分成P類和NP類。現(xiàn)在在P類問題里，數(shù)據(jù)量輸入非常大的時(shí)候，N方算法就已經(jīng)不合適了。甚至N算法都不合適了。在傳統(tǒng)的理論里，我們認(rèn)為多項(xiàng)式算法是可以接受的。的數(shù)據(jù)的前提下不一定合適，大數(shù)據(jù)問題的難解性的標(biāo)準(zhǔn)是什么可以重新考慮。第二是數(shù)據(jù)難解問題的判斷性問題，這通常是用了一個(gè)歸結(jié)的方法。假定線性和亞線性是我們能容忍的算法，現(xiàn)在考慮用歸的辦法來判定一個(gè)問題是不是難解的，我們用歸就需要來解決多項(xiàng)線性和亞線性歸的問題，這個(gè)做起來很困難，如果這條路走不通就需要探索新的路。

很多難解的問題怎么辦？我們就想做算法，每個(gè)問題的復(fù)雜性我們要知道是不是難解的，這是需要解決的問題，同時(shí)難解之后我們要判定是不是有線性或者是亞線性的算法，是不是可近似性的。

對(duì)能量復(fù)雜性來說，我們首先要研究能量復(fù)雜性的模型，看看能量是怎么樣來消耗能量，然后我們來研究和時(shí)間復(fù)雜性相似的問題，這是最基本的基礎(chǔ)理論問題，現(xiàn)在我們正在做這方面的工作。另外一個(gè)問題是大數(shù)據(jù)的計(jì)算的算法設(shè)計(jì)的新方法，我們需要有新的思維，不然的話是很難取得突破性的進(jìn)展的?，F(xiàn)在各個(gè)企業(yè)和廠家都在宣布說我有什么什么工具，你有什么什么工具。但試想一下如果一個(gè)大數(shù)據(jù)問題到你那算的話都是N的平方算法的話是很難解決的。算法都沒有解決工具何以生成？所以算法是我們面臨的很大的問題。

現(xiàn)在多項(xiàng)式算法如果指數(shù)太多的話，是平方級(jí)以上對(duì)P數(shù)量級(jí)或者是E數(shù)量級(jí)的數(shù)據(jù)就不可能計(jì)算了，所以現(xiàn)在要有新的理念，要追求線性和亞線性計(jì)算的算法，這里面是n，logn、loglogn的算法了。排序問題有沒有這樣的算法？對(duì)基于比較的排序來說，nlogn也是沒有算法的，但像基數(shù)排序的不依賴于比較的是有線性算法的，讓它具有更一般性適合大數(shù)據(jù)的處理有很多的問題，很多的問題如果不具有線性和亞線性算法的時(shí)候，我們要考慮設(shè)計(jì)的新方法了。我們首先叫做doing more with less，我能不能用一部分的數(shù)據(jù)來解決整個(gè)數(shù)據(jù)的問題。在這么多年的工作中，試著想了幾個(gè)方法，一個(gè)是基于壓縮的大數(shù)據(jù)計(jì)算方法。壓縮大家都知道，可是有一個(gè)很大的問題是，傳統(tǒng)的壓縮方法在計(jì)算之前需要把數(shù)據(jù)反壓縮過來，可是我們追求的是無解壓的計(jì)算，壓縮小了就在小的上面計(jì)算，這樣才能達(dá)到提高性能的目的。因此有兩個(gè)問題需要考慮，一個(gè)是數(shù)據(jù)壓縮方法，一個(gè)是無解壓的計(jì)算問題。

第二個(gè)問題是無解壓計(jì)算的問題，有了壓縮的方法在這上面怎么計(jì)算呢？有很多的方法，有興趣的老師和同學(xué)可以去看一下相關(guān)的文章。第二個(gè)方法是適用的是基于抽樣的大數(shù)據(jù)的e、dβ的近似計(jì)算方法。因此就要解決三個(gè)問題，一個(gè)是抽樣方法的選擇問題，不同的數(shù)據(jù)不同數(shù)據(jù)的特點(diǎn)可能需要的抽樣方法是不一樣的，對(duì)不同的應(yīng)用抽樣的方法也是不一樣的，甚至我們已經(jīng)遇到了所有的抽樣方法都不合適的數(shù)據(jù)怎么辦？我們還要和數(shù)學(xué)家共同商量，搞出新的方法。第二個(gè)方法是估計(jì)器的問題，我們要做一個(gè)估計(jì)器，能夠證明它（e，β）的估計(jì)器，那么我們?cè)趺茨芙o定了以后卻確定樣本的大小，希望用最小的樣本來計(jì)算問題。這些問題如何解決在下面的文章里都有介紹。

第三個(gè)問題是增量式大數(shù)據(jù)計(jì)算方法。很多的數(shù)據(jù)庫是動(dòng)態(tài)變化的，還有一些數(shù)據(jù)像傳感器網(wǎng)絡(luò)的數(shù)據(jù)、流數(shù)據(jù)都是在不斷地增加和變化的?，F(xiàn)在就考慮有兩種增量方法，一個(gè)是有大數(shù)據(jù)D，先把數(shù)據(jù)D小部分算完了，之后再加上（ e，β），我的計(jì)算和原始的沒有關(guān)系，只和（e，β）有關(guān)。這個(gè)大數(shù)據(jù)的計(jì)算問題就變成了小數(shù)據(jù)的計(jì)算問題。還有一些流數(shù)據(jù)的增量式的算法就有意義了，總是要保證后面增量的計(jì)算和前面沒有關(guān)系，我就把大數(shù)據(jù)的計(jì)算問題變成了小數(shù)據(jù)的計(jì)算問題，這里面有一些方法，這些文章都很好找的。

最后一個(gè)現(xiàn)在正在試的方法是主數(shù)據(jù)分析的方法。大數(shù)據(jù)的一個(gè)特點(diǎn)是價(jià)值很大可是價(jià)值密度很低?，F(xiàn)在把有價(jià)值的數(shù)據(jù)叫做主數(shù)據(jù)，現(xiàn)在我們有兩種主數(shù)據(jù)，一般是絕對(duì)主數(shù)據(jù)，這個(gè)數(shù)據(jù)相對(duì)這個(gè)領(lǐng)域的有價(jià)值數(shù)據(jù)是什么？我們要把它找到。另外一個(gè)是相對(duì)主數(shù)據(jù)，這對(duì)計(jì)算來說是有用的，我們?cè)趺窗阉业?，現(xiàn)在正在做工作，明年年初會(huì)出來結(jié)果。

這是在一類方法學(xué)上。下面是云計(jì)算環(huán)境下的并行算法的設(shè)計(jì)方法。并行算法有很多，可是云計(jì)算環(huán)境和傳統(tǒng)的并行計(jì)算環(huán)境是不一樣的，所以要有新的設(shè)計(jì)方法。第一個(gè)問題是，云環(huán)境下大數(shù)據(jù)怎么分布存儲(chǔ)，數(shù)據(jù)怎么在各個(gè)節(jié)點(diǎn)上分布才能有效地支持大數(shù)據(jù)計(jì)算，這是需要解決的問題，我們提過一些方法。第二個(gè)是云計(jì)算環(huán)境下的低通訊量的并行算法。因?yàn)樵朴?jì)算的通信是瓶頸的問題，如果通信量非常大云計(jì)算是不靈的?，F(xiàn)在我們追求的是低通信量的并行算法的設(shè)計(jì)。還有是能量受限的大數(shù)據(jù)計(jì)算方法，給定一個(gè)能力β，這個(gè)計(jì)算問題要判定一下在β的能量下能不能算出來，能算出來怎么算？我我我這是算法方面要考慮的問題。

李建中簡(jiǎn)單介紹六個(gè)方面的關(guān)鍵技術(shù)研究。

第一是大數(shù)據(jù)獲取，有兩個(gè)方面，首先是基于互聯(lián)網(wǎng)的大數(shù)據(jù)獲取的理論和方法，在數(shù)據(jù)庫研究里面有了很多的相應(yīng)的技術(shù)。但這些技術(shù)不適合大數(shù)據(jù)，數(shù)據(jù)量非常大的時(shí)候就有問題，怎么把這些問題scale to大數(shù)據(jù)上。第二個(gè)是基于傳感網(wǎng)的大數(shù)據(jù)的獲取的方法。因?yàn)榇髷?shù)據(jù)的數(shù)據(jù)已經(jīng)達(dá)到了非常大的地步，所以我們涉及到新的數(shù)據(jù)獲取的問題，傳統(tǒng)的傳感器的節(jié)點(diǎn)已經(jīng)不靈了，我們還要研究信號(hào)處理的算法，還要研究物理世界信息準(zhǔn)確的獲取的方法?，F(xiàn)在的獲取方法有很大的問題，一個(gè)這樣的物理世界的信息是這樣的，可是我們可能會(huì)變成這個(gè)樣子。物理世界不可能再現(xiàn)，我們作出的結(jié)論也不可能對(duì)。今年我們做了兩個(gè)這樣的結(jié)果要發(fā)表出來。

在大數(shù)據(jù)的傳輸上，一個(gè)是大數(shù)據(jù)實(shí)時(shí)傳輸?shù)睦碚摵退惴?，有一些結(jié)果。第一是大數(shù)據(jù)的安全可靠傳輸?shù)睦碚摵退惴?。第二，大?shù)據(jù)傳輸?shù)恼{(diào)度和控制的問題。第三，在傳輸?shù)倪^程中繼續(xù)進(jìn)行計(jì)算。這樣通信量很少。第三是大數(shù)據(jù)的存儲(chǔ)問題。過去的數(shù)據(jù)中心有很多，數(shù)據(jù)有一個(gè)數(shù)據(jù)中心，當(dāng)我用的時(shí)候在服務(wù)器上讓數(shù)據(jù)流到我這里來。在網(wǎng)上傳輸TP級(jí)數(shù)據(jù)的話，網(wǎng)絡(luò)是根本不可能的。現(xiàn)在我們希望數(shù)據(jù)中心既能存儲(chǔ)數(shù)據(jù)又能支持大數(shù)據(jù)計(jì)算，算法也在那里。用戶提交的是計(jì)算請(qǐng)求，計(jì)算完之后把結(jié)果傳輸給我，有一系列的研究需要說。

第三個(gè)問題是大數(shù)據(jù)可用性的研究理論和技術(shù)。目前的大數(shù)據(jù)的基礎(chǔ)設(shè)施基本上都是考慮關(guān)注量的管理忽略了質(zhì)的管理。所以造成了很大的問題，數(shù)據(jù)質(zhì)量問題已經(jīng)嚴(yán)重地危害到了國際信息社會(huì)，有很多這樣的例子。在中國雖然沒有報(bào)道但也有很多流露。所以說這個(gè)問題是很嚴(yán)重的。所以，今年正在做的973項(xiàng)目就是在解決這個(gè)問題，把數(shù)據(jù)的可用性定義為數(shù)據(jù)一致性等五個(gè)指標(biāo)在信息系統(tǒng)中被滿足的程度。要研究的三個(gè)關(guān)鍵科學(xué)問題是量質(zhì)融合管理、劣質(zhì)容忍原理、深度演化機(jī)理。研究的是如何既管量又管質(zhì)。之后要考慮知識(shí)，在弱可用信息上如何解決知識(shí)的獲取、知識(shí)的推理問題，這個(gè)項(xiàng)目大概有這么五個(gè)課題還有一個(gè)應(yīng)用課題。這樣來解決一系列的問題，這樣項(xiàng)目目前在進(jìn)行中已經(jīng)取得了一些結(jié)果再一個(gè)是大數(shù)據(jù)問題求解。第一是共性的大數(shù)據(jù)問題的求解的理論和算法，一個(gè)是面向應(yīng)用的。

共性方面的問題是計(jì)算機(jī)界能獨(dú)立完成的，應(yīng)用方面需要和應(yīng)用領(lǐng)域結(jié)合起來才能完成。共性方面的問題實(shí)際上并不是很多，是結(jié)構(gòu)化和半結(jié)構(gòu)化大型數(shù)據(jù)的理論和算法，現(xiàn)在都有一些不是大數(shù)據(jù)算法。這些算法怎么樣能夠把它提升到解決大數(shù)據(jù)問題上，涉及到需要新的算法，TB級(jí)以上的數(shù)據(jù)如何做。再有，圖數(shù)據(jù)安裝，圖數(shù)據(jù)是復(fù)雜的數(shù)據(jù)，現(xiàn)在Facebook也好歸根到底都是圖的問題。我們需要研究的是大型圖數(shù)據(jù)的計(jì)算的理論和算法，包括確定圖和不確定圖。

還有一個(gè)是非結(jié)構(gòu)化的大數(shù)據(jù)的計(jì)算的理論和算法。同樣的問題有很多，那么算法怎么做，歸根到底還是算法的問題。再一個(gè)是面向應(yīng)用的大數(shù)據(jù)求解了，是生物信息領(lǐng)域、天文學(xué)領(lǐng)域等計(jì)算，這些計(jì)算計(jì)算機(jī)科學(xué)家必須和那個(gè)領(lǐng)域的專家結(jié)合起來，才能把它解決出來，所以這對(duì)我們來說是一個(gè)很大的挑戰(zhàn)。

第二個(gè)是Privacy的問題了，它有可能成為大數(shù)據(jù)計(jì)算的很大的障礙。我們遇到的問題是他有數(shù)據(jù)不給你因?yàn)楸Ｃ?，可是我們想算又沒有數(shù)據(jù)，這里的問題矛盾非常大。所以這個(gè)問題是在這一段時(shí)間內(nèi)很難解決的問題，所以Pricacy并不是本身的問題。

最后李建中提出了兩個(gè)問號(hào)，第一是大數(shù)據(jù)的硬件平臺(tái)，我的問題是云計(jì)算是大數(shù)據(jù)計(jì)算的最好平臺(tái)嗎？它有兩個(gè)極限，一個(gè)是通訊瓶頸問題，一個(gè)是能量消耗問題，這兩個(gè)問題是非常嚴(yán)重的?，F(xiàn)在云計(jì)算炒得很厲害，這不是科學(xué)技術(shù)模式而是一個(gè)商業(yè)模式，本質(zhì)上就是一個(gè)集群，它的兩個(gè)局限性使我們真的做一些復(fù)雜問題處理的時(shí)候會(huì)發(fā)現(xiàn)做那樣的并行算法幾乎是不可能的，通訊量一到這個(gè)問題就很難了。所以我們就想是不是需要考慮突破云計(jì)算束縛的、適合大數(shù)據(jù)計(jì)算的新型的計(jì)算系統(tǒng)。

第二個(gè)，我們是不是需要新的程序設(shè)備模型。很多的問題并不是能用迭代來做的，很多的問題需要更加適合的模型。怎么樣考慮這個(gè)問題，是不是它就到頭了？第二個(gè)問題，是不是要新的軟件開發(fā)工具？比如說在集群上設(shè)計(jì)一個(gè)并行算法的時(shí)候，一個(gè)調(diào)試工具都沒有，其他的工具呢？就更少了，我們是不是需要？

第三，我們是不是需要新的軟件設(shè)計(jì)方法學(xué)，在云計(jì)算環(huán)境下，軟件設(shè)計(jì)和遷移的方法一樣嗎？還會(huì)不會(huì)有其他的問題？引起大家的深思。

分享到

renxinbo

相關(guān)推薦

近期文章

熱門標(biāo)簽