以下內(nèi)容是謝長生教授講演的要點(diǎn)記錄。
由《道德經(jīng)》啟迪的信息空間新內(nèi)涵
在現(xiàn)代信息哲學(xué)中,有物理空間和信息空間的概念,一般認(rèn)為信息空間是映射物理空間的表征體系,而謝長生教授則認(rèn)為信息空間是映射物理空間和思維空間的表征體系,賦予信息空間新的內(nèi)涵。
這源于他受老子《道德經(jīng)》中“道可道”、“名可名”的啟發(fā)。第一個(gè)“道”是世間客觀規(guī)律,第二個(gè)“道”是說出來。用現(xiàn)代語言來表達(dá),就是世間的客觀規(guī)律可由信息來表達(dá),這就是物理空間到信息空間的變換。 “名可名”,第一個(gè)“名”是頭腦中的概念,第二個(gè)“名”是命名,也即用信息來表達(dá)。也就是說,人們頭腦中的概念也可以由信息來表達(dá)。很多信息表達(dá)的事物實(shí)際上并不存在于物理空間,而是來自人們的思維,比如小說、動(dòng)畫、法律乃至當(dāng)下的元宇宙中人們構(gòu)想的世間本不存在的場景和角色等。有太多的信息是來自于人的想象,占據(jù)了信息空間很大部分內(nèi)容,而這部分信息在過去一直處于被忽視的狀態(tài)。
信息有多種表征形式,如語言、文字、繪畫、照片、視頻等,但是它有兩大奇點(diǎn),奇點(diǎn)就是宇宙大爆炸的原點(diǎn)。謝長生教授表示,他的演講題目“存儲(chǔ)如何匹配數(shù)據(jù)和算力迅猛增長”中提到的兩個(gè)關(guān)鍵詞——“數(shù)據(jù)”與“算力”,就對(duì)應(yīng)信息空間的兩個(gè)奇點(diǎn)。
信息空間(Syberspace) 兩大奇點(diǎn)
謝長生教授表示信息空間有“數(shù)據(jù)“和”圖靈機(jī)“兩大奇點(diǎn)。將信息數(shù)字化就成為數(shù)據(jù),信息一旦數(shù)字化,就使得數(shù)據(jù)呈爆發(fā)式增長。而圖靈機(jī)概念的出現(xiàn),則引發(fā)了以計(jì)算為核心的信息革命。
要深刻理解這兩個(gè)奇點(diǎn)的重要意義,就需要了解其背后的道理。
信息表達(dá)有多種形式,但數(shù)據(jù)是表達(dá)能力最強(qiáng)的一種,古希臘哲學(xué)家畢德格拉斯就認(rèn)為“萬物皆數(shù)”。既然信息要表達(dá)世間萬物,就要有盡可能多的狀態(tài)。只要增加位長,數(shù)據(jù)就可以有無窮多的狀態(tài),可以對(duì)應(yīng)表達(dá)無窮多的事物。比如IPv6編址可有2的128次方,可以為地球上每一粒沙子編號(hào),數(shù)據(jù)表達(dá)信息的狀態(tài)數(shù)量比語言、文字多得多,想要多少狀態(tài)就可以表達(dá)多少狀態(tài)。其次,數(shù)據(jù)可以與其他任何信息形式進(jìn)行相互轉(zhuǎn)化,如語言、文字、圖形、圖像、視頻都可以轉(zhuǎn)化成數(shù)據(jù),數(shù)據(jù)也可以轉(zhuǎn)化為其他任何信息形式,數(shù)據(jù)是唯一具備這種能力的信息表達(dá)形式。
所以,數(shù)據(jù)是至今為止人類找到的最佳信息表達(dá)形式,信息的數(shù)字化是必然的趨勢,數(shù)據(jù)量的爆炸性增長也是必然趨勢。
奇點(diǎn)2是圖靈機(jī)。如果沒有圖靈機(jī),那么數(shù)字都是沒有靈魂、缺乏智慧的。就像這副米開朗基羅的畫,上帝用土造了一個(gè)人,本來是沒有靈魂的,但上帝手指一點(diǎn),人就活了。謝長生認(rèn)為圖靈機(jī)為信息空間注入了靈魂。
圖靈證明圖靈機(jī)可以解決一切有解的數(shù)學(xué)問題,而元胞自動(dòng)機(jī)的先驅(qū)沃夫曼則在其著作“ A new kind of science”中指出,圖靈機(jī)可以表達(dá)宇宙間的一切規(guī)律。這是人類發(fā)明的不同于自然界的智能方式:計(jì)算智能。圖靈機(jī)的理論能力極強(qiáng),它催生了現(xiàn)代計(jì)算機(jī),引爆了信息革命。
存儲(chǔ)與“數(shù)據(jù)”與“圖靈機(jī)”之間存在什么關(guān)系?
謝長生教授分析認(rèn)為,存儲(chǔ)既是數(shù)據(jù)的載體,又是圖靈機(jī)的一部分。形象地看,圖靈機(jī)由三個(gè)部分組成:處理部分(即讀寫頭及其控制)、存儲(chǔ)部分(無限長的可改寫的帶子)和傳輸部分(帶子載著數(shù)據(jù)移動(dòng))。大道至簡,如此簡單的圖靈機(jī)模型告訴人們,只要對(duì)數(shù)據(jù)進(jìn)行處理、存儲(chǔ)、傳輸三個(gè)簡單動(dòng)作,就能表達(dá)世間的一切規(guī)律。圖靈機(jī)對(duì)存儲(chǔ)的要求一是容量越大越好,二是要與處理的速度相匹配。
讓存儲(chǔ)匹配數(shù)據(jù)量的迅猛增長
謝長生教授從介質(zhì)的角度來進(jìn)行了分析。
IDC預(yù)計(jì)2025年數(shù)據(jù)量將達(dá)到175ZB,今年的增長是61 ZB,增長量非??焖?。
謝長生提了幾個(gè)數(shù)據(jù)量之外的問題:第一,這些數(shù)據(jù)是寶貴數(shù)據(jù),還是一般數(shù)據(jù)或垃圾數(shù)據(jù)?不同的數(shù)據(jù)其保存方法、保存介質(zhì)都是不一樣的。第二,是熱數(shù)據(jù)還是溫?cái)?shù)據(jù)、冷數(shù)據(jù)?第三,數(shù)據(jù)的壽命需要保存多長時(shí)間?第四,保存這些數(shù)據(jù)的能耗是多少?第五,保存這些數(shù)據(jù)的成本是多少?
理想的介質(zhì),是能同時(shí)滿足能量、性能、能耗、成本、壽命的需求,但現(xiàn)實(shí)中根本不存在這樣的介質(zhì)。
衡量介質(zhì)有8個(gè)維度:容量、成本、耐磨性、持久性、讀時(shí)間、寫時(shí)間、帶寬和能耗,而存儲(chǔ)介質(zhì)分為電、磁、光、量子、DNA等幾種原理。如今,電磁光已經(jīng)商業(yè)化,量子和DNA還在研究之中。
時(shí)下最熱門的存儲(chǔ)介質(zhì)當(dāng)屬閃存,3D NAND2022年的最新水平是236層,單片容量已經(jīng)達(dá)到了1Tb,采用TLC技術(shù);未來計(jì)劃是從600層到1000層。
其次是硬盤。硬盤正在被固態(tài)盤取代,然而它“垂而不死”,還在向大容量、低成本方向轉(zhuǎn)型。由于與固態(tài)盤存在5倍-7倍的價(jià)格差距,更適合保存溫冷數(shù)據(jù)。未來五年之內(nèi)硬盤還將會(huì)存在,能再繼續(xù)存在多久,現(xiàn)在也說不準(zhǔn),還有發(fā)展的空間。
當(dāng)前硬盤領(lǐng)域有幾種新的技術(shù)支撐其進(jìn)一步發(fā)展:已經(jīng)商品化的磁通控制-微波輔助磁記錄(FC-MAMR)技術(shù)與微波輔助切換-微波輔助磁記錄(MAS-MAMR)技術(shù),目前容量已達(dá)20TB。未來幾年將采用熱輔助磁記錄(HAMR)技術(shù),容量可超過40TB。
磁帶方面,最新的LTO磁帶可保存18TB數(shù)據(jù),壓縮后可以保存45TB的數(shù)據(jù)。因?yàn)槟艽蠓裙?jié)約存儲(chǔ)成本,在磁帶在數(shù)據(jù)中心“卷土重來”。
光存儲(chǔ),屬于第二種“卷土重來”的技術(shù)。
光存儲(chǔ)以前主要用于音視頻、軟件的分發(fā),曾經(jīng)十分輝煌,后來被網(wǎng)絡(luò)淘汰。但它又因?yàn)榫W(wǎng)絡(luò)的進(jìn)一步發(fā)展而“起死回生”,藍(lán)光存儲(chǔ)已經(jīng)從50GB到發(fā)展到現(xiàn)在的500GB,容量有10倍的提高,用于保存數(shù)據(jù)中心的冷數(shù)據(jù)和歸檔數(shù)據(jù)。與其他存儲(chǔ)介質(zhì)相比,光存儲(chǔ)具有壽命長、節(jié)能、可靠、安全等優(yōu)點(diǎn),長期保存成本非常低。
謝長生教授介紹,我國已經(jīng)部署了一個(gè)重點(diǎn)研發(fā)計(jì)劃,三年內(nèi)開發(fā)出單盤1TB的光盤、光驅(qū)以及光盤庫,以雙面6層的方式來實(shí)現(xiàn),華中科技大學(xué)也是參加單位之一。藍(lán)光光盤技術(shù)演進(jìn)路線是,先將道間距變窄,再將位密度提高,1TB光盤將用到多階技術(shù)。藍(lán)光光盤的壽命可以達(dá)到一百年,是有發(fā)展前景的介質(zhì)。
藍(lán)光之后人們?cè)谔剿鞯男乱淮獯鎯?chǔ)技術(shù)有多種,其中有明顯優(yōu)勢的有三種:
一是全息光存儲(chǔ)技術(shù),單盤容量從2個(gè)TB到8個(gè)TB。
二是突破光學(xué)衍射極限的雙光束超分辨技術(shù),突破光學(xué)衍射極限的技術(shù)曾經(jīng)獲得過諾貝爾獎(jiǎng),后來被用于光存儲(chǔ)。因?yàn)橥黄屏搜苌錁O限,過去一個(gè)光點(diǎn)大小的面積中,用這種技術(shù)可以存上百個(gè)點(diǎn),成百倍地提高了容量。
三是玻璃存儲(chǔ)。微軟公司將好萊塢影片“超人”刻錄到玻璃之中,這是當(dāng)時(shí)一個(gè)很大的新聞。特斯拉汽車發(fā)射太空的時(shí)候也把玻璃存儲(chǔ)帶入到太空,把信息傳遞給外星文明。這個(gè)技術(shù)來源是英國南開普敦大學(xué)開發(fā)的玻璃的5維光盤,壽命打破了吉尼斯世界記錄,可永久存儲(chǔ),在1000度高溫下不丟失信息。該技術(shù)的第一發(fā)明人張靜宇博士已經(jīng)被華中科技大學(xué)武漢光電國家研究中心引進(jìn)。張博士回國以后建立了平臺(tái),啟動(dòng)了中國多維永久存儲(chǔ)的研發(fā),并已經(jīng)在實(shí)驗(yàn)室實(shí)現(xiàn)了多項(xiàng)新的突破。
武漢光電國家研究中心實(shí)驗(yàn)室建立了5D-7D玻璃光存儲(chǔ)平臺(tái),為提高記錄速度,將平動(dòng)變成轉(zhuǎn)動(dòng),而且有多維讀出的系統(tǒng),還可以結(jié)合突破衍射極限的技術(shù)。這些在實(shí)驗(yàn)室都完成了試驗(yàn)研究,最新進(jìn)展就是實(shí)現(xiàn)了高速記錄和100層以上的5維存儲(chǔ),記錄每個(gè)數(shù)據(jù)單元只用1.3個(gè)皮秒(一皮秒等于一萬億分之一秒)。
微軟在玻璃存儲(chǔ)產(chǎn)業(yè)化方面進(jìn)展迅速,微軟提供的信息顯示,飛秒激光在玻璃上一層一層地掃,可以掃75層甚至更多層,可比現(xiàn)在的藍(lán)光光盤保存多很多倍的信息,再做成一個(gè)大型光盤庫,用機(jī)械手去抓取,可以方便地把庫變得非常大,還可非常方便地?cái)U(kuò)展下去。這種存儲(chǔ)如果安放在數(shù)據(jù)中心,它的長期成本遠(yuǎn)遠(yuǎn)低于磁帶庫。微軟看中這個(gè)技術(shù)并投入巨資開發(fā)的原因主要是:永久存儲(chǔ),成本低,節(jié)能。
對(duì)中國存儲(chǔ)產(chǎn)業(yè)發(fā)展的思考
面對(duì)快速發(fā)展的存儲(chǔ)技術(shù),中國存儲(chǔ)產(chǎn)業(yè)面臨一些挑戰(zhàn)。,
一是中國介質(zhì)要走什么道路?
中國的數(shù)據(jù)規(guī)模在世界上已經(jīng)排名第二,但是幾乎全部保存在國外介質(zhì)中:硬盤、磁帶百分之百進(jìn)口,禁售硬盤對(duì)華為、??档绕髽I(yè)造成很大影響,長江存儲(chǔ)雖然可以生產(chǎn)閃存芯片,也有自己的核心技術(shù),但是產(chǎn)量很少。謝長生教授指出,中國介質(zhì)問題的解決之道有兩條:一是對(duì)熱數(shù)據(jù)發(fā)展閃存及基于閃存的設(shè)備和系統(tǒng);二是對(duì)溫冷數(shù)據(jù)發(fā)展光存儲(chǔ)。光存儲(chǔ)是一條換道超車的新路,在這條路上我國的基礎(chǔ)是比較好的,在新一代光存儲(chǔ)方面的研究不少還處于領(lǐng)先狀態(tài)。
二是存儲(chǔ)如何匹配算力的迅猛增長?
圖靈機(jī)的理論能力非常強(qiáng),可以表達(dá)世間的一切規(guī)律。但圖靈框架計(jì)算機(jī)實(shí)際可釋放的能力卻取決于算力,速度越快、能力越強(qiáng),如果無限快,那什么問題都可以解決。因此,圖靈框架下的計(jì)算機(jī)就是無止境地追求算力。
我們回顧算力發(fā)展歷史,第一個(gè)驅(qū)動(dòng)力是技術(shù)驅(qū)動(dòng)。晶體管的數(shù)量按摩爾定律增長,在晶體管數(shù)量不斷增長的物質(zhì)條件保證下,人們從并行體系結(jié)構(gòu)的角度發(fā)展出提高算力的各種技術(shù),指令級(jí)并行、數(shù)據(jù)并行、同構(gòu)多核(多核CPU)、異構(gòu)并行(CPU+DSA,DSA是特定領(lǐng)域的架構(gòu),將晶體管資源用于圖形加速就是GPU,將資源用于深度學(xué)習(xí)算法就是NPU、TPU,將網(wǎng)絡(luò)、存儲(chǔ)和安全等原本由CPU處理的功能下移就是新出現(xiàn)的DPU),在更大規(guī)模上的并行就是云計(jì)算中心和超算中心。另一個(gè)驅(qū)動(dòng)力是應(yīng)用驅(qū)動(dòng),目前10年是在ABC(AI、Bigdata、Cloud)應(yīng)用的驅(qū)動(dòng)下,算力需求急劇增長。
存儲(chǔ)如何匹配算力的高速增長?
傳統(tǒng)解決之道是縱橫系統(tǒng),目標(biāo)是將容量、性能、價(jià)格不同的存儲(chǔ)器通過縱、橫兩個(gè)方面組成一個(gè)系統(tǒng),使其總體看起來接近理想的存儲(chǔ)器,即一個(gè)又大又快又便宜的存儲(chǔ)器。縱向系統(tǒng)是以cache為代表的層次化存儲(chǔ)系統(tǒng),一些新的非易失存儲(chǔ)器正不斷地填充縱向的層次。橫向系統(tǒng)的主要代表是并行,有RAID技術(shù)和分布式存儲(chǔ)技術(shù)。
存儲(chǔ)匹配算力的增長,目前也拓展出一些新的思路。一種是大內(nèi)存,把數(shù)據(jù)盡可能多的放在內(nèi)存里,IO就會(huì)大量節(jié)省。采用新的介質(zhì)來做大內(nèi)存,可以發(fā)揮非易失特性和價(jià)值便宜優(yōu)勢;采用CXL這樣的新協(xié)議,可以適應(yīng)大內(nèi)存的發(fā)展;二是新構(gòu)架,如近數(shù)據(jù)計(jì)算、存算一體化、DPU、IPU等。在近數(shù)據(jù)計(jì)算中,可計(jì)算存儲(chǔ)(Computational Storage)是一個(gè)比較代表性的概念;三是新軟件,可以開發(fā)新的文件系統(tǒng)、新的數(shù)據(jù)庫。下面舉幾個(gè)實(shí)例來說明新架構(gòu)。
第一個(gè)例子是計(jì)算型存儲(chǔ)。一般的固態(tài)盤不提供額外的處理能力,數(shù)據(jù)必須全部讀出到內(nèi)存,由于CPU去處理,這樣,數(shù)據(jù)搬移量很大,存在著性能的天花板。如果在固態(tài)盤中進(jìn)一步增強(qiáng)處理能力,就可以近數(shù)據(jù)處理盤內(nèi)的數(shù)據(jù),算完之后再把結(jié)果傳輸上去,數(shù)據(jù)傳遞量就會(huì)大大減少。目前已經(jīng)有一些典型的應(yīng)用,比如把數(shù)據(jù)庫的一些計(jì)算下推到智能硬盤,或者利用盤內(nèi)計(jì)算能力進(jìn)行數(shù)據(jù)壓縮,都起到了非常好的效果。
第二個(gè)例子是存算一體化,也叫存內(nèi)計(jì)算。
憶阻器本身可以存儲(chǔ)信息,加上電壓以后,通過憶阻器電阻得到電流,如果把電流加起來,就會(huì)得到一個(gè)公式,這個(gè)公式和矩陣計(jì)算的公式一模一樣。這樣的結(jié)構(gòu)即可以存也可以算,不需要搬運(yùn)數(shù)據(jù),可以大大提高深度學(xué)習(xí)的算法的速度。第三個(gè)例子是英偉達(dá)和英特爾推出的DPU和IPU,這是繼CPU和GPU之后的第三顆主力芯片,可以合理地搭配計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源,實(shí)現(xiàn)高效的體系架構(gòu)。謝長生教授的團(tuán)隊(duì)也非常重視DPU技術(shù),開發(fā)了基于DPU分布式內(nèi)存池的系統(tǒng),課題組的學(xué)生用這項(xiàng)技術(shù)在首屆英偉達(dá)DPU黑客松比賽中贏取了冠軍。
在存儲(chǔ)匹配算力方面,軟件的作用也非常關(guān)鍵,華中科技大學(xué)PDSL團(tuán)隊(duì)在新興分布式文件系統(tǒng)研究方面開展了大量工作,所開發(fā)的新型文件系統(tǒng)FlashFS應(yīng)用于濟(jì)南超算中心的存儲(chǔ)系統(tǒng),獲得了今年在德國舉行的超級(jí)計(jì)算大會(huì)(ICS2022)10節(jié)點(diǎn)的IO500冠軍。
三類智能模式
上述技術(shù)都是在圖靈機(jī)模式下、也就是在計(jì)算智能模式下實(shí)現(xiàn)的。
還有兩類智能模式:類腦模式和擬物模式,類腦是模擬大腦,擬物模式是量子計(jì)算、光計(jì)算,與傳統(tǒng)存儲(chǔ)系統(tǒng)完全不一樣。這些內(nèi)容有機(jī)會(huì)以后再做介紹。
總結(jié)
回顧一下,謝長生教授此次演講中,重點(diǎn)介紹了四大內(nèi)容:一是信息空間由物理空間和思維空間映射而得到,他提出的這個(gè)觀點(diǎn)頗具新意;二是信息空間有兩大奇點(diǎn):數(shù)據(jù)和圖靈機(jī);三是信息數(shù)字化轉(zhuǎn)型和持續(xù)發(fā)展是必然規(guī)律,數(shù)據(jù)規(guī)模也將必然迅猛增長,圖靈機(jī)理論能力極為強(qiáng)大,圖靈框架下的計(jì)算機(jī)實(shí)際能力取決于算力的增長;四是從介質(zhì)的角度介紹了存儲(chǔ)如何匹配數(shù)據(jù)量的迅猛增長,又從結(jié)構(gòu)的角度介紹了存儲(chǔ)如何匹配算力的迅猛增長。聽后很有收獲也很受啟迪。
【如果需要回看謝長生教授此次視頻演講報(bào)告,請(qǐng)關(guān)注DOIT官網(wǎng)或公眾號(hào)】