在會(huì)上,華中科技大學(xué)武漢光電研究中心謝長(zhǎng)生教授發(fā)表了題為“海量大數(shù)據(jù)長(zhǎng)期存儲(chǔ)的挑戰(zhàn)與變革性技術(shù)”主題演講。標(biāo)題為編者所加。

以下內(nèi)容根據(jù)速記整理,未經(jīng)本審定。

華中科技大學(xué)武漢光電研究中心信息存儲(chǔ)系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室謝長(zhǎng)生教授

謝長(zhǎng)生:大家下午好!我今天演講的題目叫“海量大數(shù)據(jù)長(zhǎng)期存儲(chǔ)的挑戰(zhàn)與變革性技術(shù)”。

長(zhǎng)期存儲(chǔ)提出的挑戰(zhàn)

說(shuō)起來(lái),很多人對(duì)數(shù)據(jù)存儲(chǔ)的時(shí)間考慮的比較短,能有五年就不錯(cuò)了。我今天要講的是一個(gè)長(zhǎng)期存儲(chǔ)的問(wèn)題。長(zhǎng)期存儲(chǔ)提出了什么樣的挑戰(zhàn)?這里有兩個(gè)詞,一個(gè)叫“Big  Data”,是熱詞,還有一個(gè)“Long Data”是一個(gè)冷詞。目前主流存儲(chǔ)介質(zhì)在保存時(shí)間方面是短板,硬盤平均壽命是5年,固態(tài)盤也只有5年,磁帶長(zhǎng)一點(diǎn),大概10年,而人的平均壽命75歲,與人相關(guān)的信息至少要保持75年,包括銀行存款、保險(xiǎn)、住房等個(gè)人資料,以及手機(jī)拍攝的照片,最好一輩子保存下來(lái);也包括政府、企事業(yè)單位、軍隊(duì)的數(shù)據(jù)都需要長(zhǎng)期保存;重要檔案還需要永久保存。

除了國(guó)家級(jí)的單位,需要長(zhǎng)期保存的傳統(tǒng)電影資料也是很困難的,膠片保存幾十年,都已經(jīng)很失真了。我去過(guò)中央電視臺(tái)資料館,他們是用的磁帶庫(kù)有八萬(wàn)多磁帶,長(zhǎng)期保存下去也存在很大的問(wèn)題,還有國(guó)家圖書館,國(guó)家投了大量資金。省級(jí)的保護(hù)工作就差多了,某文化大省古書有五十萬(wàn)冊(cè),現(xiàn)在有半數(shù)都損壞了,對(duì)我們文化遺產(chǎn)是非常大的損失。

一次全國(guó)性研討會(huì)的信息與感受

上個(gè)月,我參加了“全國(guó)數(shù)字資源長(zhǎng)期保存”相關(guān)的全國(guó)學(xué)術(shù)研討會(huì),那些真正用到長(zhǎng)期保存的國(guó)家圖書館、中科院檔案館、國(guó)家科技文獻(xiàn)中心等機(jī)構(gòu)集中在一起,進(jìn)行討論。

參加這個(gè)會(huì)議,我有幾點(diǎn)感受。

一是數(shù)字資源的長(zhǎng)期保存,對(duì)我們國(guó)家而言是極為重要的。比如說(shuō)中國(guó)科學(xué)院有那么多所,所有科研項(xiàng)目都要永久存檔保存;二是他們因此成立了國(guó)家數(shù)字資源長(zhǎng)期工作保存體系工作組(NDPP),從法律法規(guī)到管理制度到技術(shù)體系,全方位都考慮到了,工作做的非常細(xì)致,三是正在規(guī)劃建設(shè)國(guó)家文獻(xiàn)戰(zhàn)略儲(chǔ)備庫(kù),投入巨大,一個(gè)建筑群都設(shè)計(jì)好了;四是技術(shù)層面還面臨非常大的挑戰(zhàn),采用現(xiàn)有的技術(shù),維持費(fèi)用是與日俱增的,希望有更好的技術(shù)。在發(fā)言中,他們提到了我們十年前提出的概念——池光電融合的技術(shù)。經(jīng)過(guò)十年努力,我們已經(jīng)推出了相應(yīng)的產(chǎn)品來(lái)。

對(duì)于國(guó)家級(jí)長(zhǎng)期存儲(chǔ)甚至是永久存儲(chǔ)的需求,我們從事存儲(chǔ)的研究機(jī)構(gòu)和企業(yè)能不能滿足需要?

很多行業(yè)信息非常重要,是丟不得的,一丟就會(huì)產(chǎn)生很大的損失。所以很多國(guó)家出臺(tái)了強(qiáng)制性的法律。最有名的就是安然事件以后美國(guó)出臺(tái)的塞班斯法案,強(qiáng)制企業(yè)要永久保留數(shù)據(jù),用于打官司什么的,必須拿出不可篡改原始數(shù)據(jù)。美國(guó)各個(gè)行業(yè)有長(zhǎng)期保存的法案,歐盟也規(guī)定了數(shù)據(jù)保留法案,規(guī)定每個(gè)行業(yè)數(shù)據(jù)要保存多少年,我們國(guó)家也陸續(xù)出臺(tái)了各種各樣的法案,去年規(guī)定要求電子病例最少要保存三十年,人的壽命75年,最少保存三十年。

互聯(lián)網(wǎng)企業(yè)的冷數(shù)據(jù)存儲(chǔ)負(fù)擔(dān)將越來(lái)越不堪承受

除了很重要的信息以外,我們還有很多冷數(shù)據(jù)也是要長(zhǎng)期保存的。

比如大家都在用的微信朋友圈。前一段時(shí)間參加了騰訊開發(fā)者大會(huì)討論了這個(gè)問(wèn)題,說(shuō)每天光朋友圈上傳的照片就是十億張,第一天發(fā)布的時(shí)候很多人點(diǎn)贊,非常熱,第二天數(shù)據(jù)急劇的變冷,第三天就沒(méi)有人訪問(wèn)了。但朋友圈的照片又不能扔掉,騰訊從微信開始那天到現(xiàn)在的數(shù)據(jù)都在保留,保留在硬盤當(dāng)中(三個(gè)副本),而且會(huì)一直保留下去,一天十億張照片,應(yīng)該說(shuō)有上百萬(wàn)臺(tái)硬盤在不停的運(yùn)轉(zhuǎn),這就是越來(lái)越大的能源負(fù)擔(dān)。雖然有一種技術(shù)使它休眠,但控制起來(lái)其實(shí)也有一定的問(wèn)題。除了消耗硬盤運(yùn)轉(zhuǎn)的能源以外,還有冷卻,這么多硬盤在一起發(fā)熱很嚴(yán)重,硬盤一旦沒(méi)有空調(diào)是很容易損壞的,這樣這個(gè)成本是與日俱增。

互聯(lián)網(wǎng)之父的擔(dān)憂

還有一個(gè)更深刻的問(wèn)題,互聯(lián)網(wǎng)之父Vint Cerf先生2015年在一個(gè)大型科技會(huì)議上擔(dān)心今天保留在計(jì)算機(jī)和互聯(lián)網(wǎng)上的圖片文件都將丟失,人類將進(jìn)入一個(gè)數(shù)字黑暗時(shí)代,未來(lái)的人可能都不知道今天人的歷史記錄。他現(xiàn)在在谷歌的工作,就是研究如何長(zhǎng)期保存互聯(lián)網(wǎng)上的信息,也開展了范圍極為廣泛的調(diào)查,就是保存信息一百年的需求,結(jié)果調(diào)查回來(lái)的結(jié)論是信息的長(zhǎng)期保存和在線是一個(gè)相當(dāng)普遍的任務(wù),這也引發(fā)了國(guó)際上研究的課題How preserve information for 100years?就是如何保存信息一百年。除了谷歌,還有學(xué)術(shù)界的CMU等也都做這方面的研究工作。

大數(shù)據(jù)長(zhǎng)期存儲(chǔ)面臨四大挑戰(zhàn)

我認(rèn)為,數(shù)據(jù)的長(zhǎng)期存儲(chǔ)有四大挑戰(zhàn)。

一是壽命,現(xiàn)在存儲(chǔ)介質(zhì)的壽命與實(shí)際的需求有數(shù)量級(jí)的差別。我們的關(guān)注和研究才幾年,卻要它能使用幾十年百年甚至更長(zhǎng)的時(shí)間,有數(shù)量級(jí)的差距。

二是成本。信息越來(lái)越多,而且信息增長(zhǎng)的速度是指數(shù)級(jí)的增長(zhǎng),都要保存下去,面臨巨大的成本。

除了設(shè)備成本,還有數(shù)據(jù)遷移成本。

看看這張圖。這個(gè)是國(guó)際上的一個(gè)資料上。數(shù)據(jù)遷移是目前的長(zhǎng)期存儲(chǔ)主要手段。75年各種數(shù)據(jù)遷移成本的比較。如果用硬盤五年就要換一次,把5個(gè)PB的數(shù)據(jù)需要1000個(gè)硬盤,五年換1000個(gè),這樣下來(lái)上百萬(wàn)個(gè)硬盤才能保存75年,設(shè)備成本很大。再一個(gè),數(shù)據(jù)遷移的時(shí)候,還要花很多人力物力,能耗成本也是非常大的??傊@個(gè)成本是相當(dāng)大的挑戰(zhàn)。

三是更新的挑戰(zhàn),以前用的軟盤,技術(shù)的更新以及設(shè)備的更新,存儲(chǔ)產(chǎn)品也在不斷升級(jí)。

四是協(xié)議的更新。

來(lái)看看什么叫協(xié)議的一致性。

埃及象形文字保存的真好,每一個(gè)字都清清楚楚,但是誰(shuí)也不知道是什么意思,信息其實(shí)是丟失了。這個(gè)問(wèn)題怎么解決的?在18世紀(jì)法國(guó)一個(gè)探險(xiǎn)隊(duì)到埃及一個(gè)港灣城市羅塞塔(Rosetta)發(fā)現(xiàn)一塊石碑(在英法兩國(guó)戰(zhàn)爭(zhēng)之中輾轉(zhuǎn)到了英國(guó)大英博物館),上面有三個(gè)部分,分別是古埃及的象形文字,古希臘文和當(dāng)時(shí)的通俗體文字,刻的是同樣的內(nèi)容,考古學(xué)家根據(jù)這個(gè)碑把協(xié)議找出來(lái)了,破解了失傳千余年的埃及象形文之意義與結(jié)構(gòu),在博物館里就知道寫的什么意思了。為了表示感謝,埃及贈(zèng)送了一個(gè)方尖碑給法國(guó),安置在法國(guó)廣場(chǎng)。有個(gè)翻譯軟件叫羅塞塔,就是根據(jù)這個(gè)故事來(lái)的。這就是協(xié)議的長(zhǎng)期一致性,光物理保存下來(lái)還不行,軟件這個(gè)協(xié)議還要一致。

如何應(yīng)對(duì)挑戰(zhàn)?

我認(rèn)為,對(duì)策有兩個(gè),一是開發(fā)更長(zhǎng)壽命更廉價(jià)的大容量存儲(chǔ)設(shè)備,二是解決協(xié)議的一致性問(wèn)題。

主流非易失性存儲(chǔ)介質(zhì)的壽命分析

目前主流存儲(chǔ)介質(zhì),硬盤五年、磁帶十年,固態(tài)盤靠電荷保存信息,更不可靠,隨著密度提高,電荷越來(lái)越少,壽命越來(lái)越短,我們用很多技術(shù)保證它保存五年。

光盤壽命會(huì)長(zhǎng)一些。CD剛出來(lái)的時(shí)候我就買了,到現(xiàn)在快40年了,還能放出歌曲來(lái),后來(lái)又一個(gè)出了染料DVD,壽命短的,三年就會(huì)壞。藍(lán)光可以保存50年,現(xiàn)在有一種M—Disc(千年光盤),一種熔融石英玻璃光盤,幾乎可以永久保存。

對(duì)比認(rèn)為,光存儲(chǔ)是壽命潛力最大的存儲(chǔ)介質(zhì)。

光存儲(chǔ)為什么壽命比較長(zhǎng)呢?給大家一個(gè)啟示。我們古老的東西保存都很長(zhǎng),中東古巴比倫謨拉比法典距今3800年,埃及莎草紙死亡之書,都是光存儲(chǔ)。傳統(tǒng)存儲(chǔ),如石刻、竹簡(jiǎn)、紙張上書寫本質(zhì)上都是對(duì)光的反射差別形成的信息記錄,只要是光反射的介質(zhì)壽命足夠長(zhǎng),信息就可以長(zhǎng)期保存。

光存儲(chǔ)在大數(shù)據(jù)存儲(chǔ)領(lǐng)域的優(yōu)勢(shì)

光存儲(chǔ)的優(yōu)勢(shì)一是長(zhǎng)壽命,二是節(jié)能,介質(zhì)與驅(qū)動(dòng)器分離的,不存儲(chǔ)的時(shí)候可以存放起來(lái),抗電磁干擾、防水,颶風(fēng)來(lái)的時(shí)候磁帶、硬盤都會(huì)損壞,只有光盤還有。日本人把藍(lán)光光盤放在海里泡兩個(gè)月數(shù)據(jù)還能讀出來(lái)。光存儲(chǔ)還有一個(gè)優(yōu)勢(shì)是成本低廉,就在塑料片鍍一層模板,對(duì)環(huán)境要求也不高。

光存儲(chǔ)也有劣勢(shì),一個(gè)是容量小,第一代藍(lán)光光盤只有25G,后來(lái)50G,現(xiàn)在最高300G,硬盤固態(tài)盤起碼高一個(gè)數(shù)量級(jí);二是速度慢,光驅(qū)速度10M/s,比硬盤慢,比固態(tài)盤更慢,接近兩個(gè)數(shù)量級(jí)的差別。

十年前,光盤當(dāng)時(shí)音視頻分發(fā)的功能和軟件分發(fā)的功能即將被取代的前夜,光存儲(chǔ)界探討能否開發(fā)新的產(chǎn)品,發(fā)揮光存儲(chǔ)的優(yōu)勢(shì)來(lái)克服光存儲(chǔ)劣勢(shì),國(guó)內(nèi)外工作者工作用了將近十年時(shí)間交出了答案——超大容量的光盤庫(kù)。

國(guó)際上有三種光盤或者類型,紫晶、日立、Facebook與互盟。

沒(méi)有一種各方面都理想的存儲(chǔ)介質(zhì)

談到用途,應(yīng)該說(shuō)是這樣,熱數(shù)據(jù)用閃存介質(zhì),溫?cái)?shù)據(jù)用磁記錄介質(zhì)。冷數(shù)據(jù)和歸檔數(shù)據(jù)用光介質(zhì)的時(shí)機(jī)已經(jīng)到了,當(dāng)前用磁盤更多,磁帶庫(kù)也不少,但Facebook已經(jīng)用光存儲(chǔ)存冷數(shù)據(jù)。

在自主創(chuàng)新方面,我們和紫晶一起做出來(lái)世界上最大的光盤庫(kù),在密度、帶寬、響應(yīng)時(shí)間方面,關(guān)鍵指標(biāo)上都是優(yōu)于國(guó)際同類產(chǎn)品,形成了自主核心技術(shù),已經(jīng)開始應(yīng)用于實(shí)際了。

光存儲(chǔ)未來(lái)有三種變革性的技術(shù)

光存儲(chǔ)技術(shù),在藍(lán)光光盤容量到了1TB以后就到了極限,幾乎就沒(méi)有突破的可能了。如果再往后就靠波層,這個(gè)路走不很遠(yuǎn)了。

藍(lán)光之后下一代變革性光存儲(chǔ)技術(shù)。

第一種是同軸多維全息光存儲(chǔ)技術(shù),剛剛列入國(guó)家重點(diǎn)研發(fā)計(jì)劃,我們和福建師大,中科院光電所和紫晶一起參與了這個(gè)項(xiàng)目。第二種是2014年得了諾貝爾獎(jiǎng)的突破光的衍射極限項(xiàng)目,澳大利亞科學(xué)家就是把這個(gè)技術(shù)用到光上,把光斑從300納米理論上可以減少到九個(gè)納米,這是非常大的容量上巨大的提高,至少可達(dá)15TB每盤,理想上可實(shí)現(xiàn)PB級(jí)。第一發(fā)明人是大陸過(guò)去的甘棕松博士,現(xiàn)在回到國(guó)內(nèi)武漢廣電中心,實(shí)驗(yàn)室最新的進(jìn)展是380納米這么一個(gè)點(diǎn),現(xiàn)在差不多在一個(gè)位上100個(gè)點(diǎn)上去了,實(shí)現(xiàn)了百倍的提高。

最近有個(gè)新聞,說(shuō)是微軟公司將今年好萊塢影片“超人”刻在玻璃上可以永久保存。這個(gè)技術(shù)來(lái)源于英國(guó)南開普敦大學(xué)開發(fā)的納米晶玻璃5維光盤,存儲(chǔ)壽命可超過(guò)300億年,1000度高溫下不丟失信息。

這個(gè)技術(shù)被微軟看重了,微軟投了很大人力物力,成立幾十人團(tuán)隊(duì),進(jìn)展很快,從英國(guó)引進(jìn)的5D納米晶悠久存儲(chǔ)的領(lǐng)先研究者張靜宇博士,他回來(lái)以后在武漢啟動(dòng)了多維永久存儲(chǔ)的研發(fā)。

5維是哪5維?是三維加上光強(qiáng)、偏振,而我們實(shí)驗(yàn)室除了剛才光強(qiáng)和偏振以外還有姿態(tài),不同的姿態(tài)形成七維,一個(gè)點(diǎn)可以有很多信息,他在英國(guó)把圣經(jīng)寫進(jìn)去了,國(guó)內(nèi)把習(xí)主席的社會(huì)主義核心價(jià)值觀刻進(jìn)去了。這是我們目前做的工作。

光存儲(chǔ)前景與我們的目標(biāo)

近年來(lái),光學(xué)衍射極限的突破和多維技術(shù)的進(jìn)展,使光存儲(chǔ)技術(shù)具有 吉大的容量提升空間,超過(guò)了目前所有的存儲(chǔ)技術(shù)。加上光存儲(chǔ)壽命上的突破,未來(lái)光存儲(chǔ)技術(shù)呈現(xiàn)出光明的前景。

武漢光電研究中心 將光學(xué)衍射極限的突破與多為技術(shù)結(jié)合,再加上已經(jīng)成功的光盤庫(kù)技術(shù),將形成巨大容量、超長(zhǎng)壽命的全新產(chǎn)品,迎接未來(lái)大數(shù)據(jù)存儲(chǔ)的挑戰(zhàn),有望形成新的產(chǎn)業(yè)。

國(guó)家級(jí)的研究中心在光存儲(chǔ)的現(xiàn)有技術(shù)和未來(lái)技術(shù)上都形成了很好的技術(shù)積累和人才積累,花了8年時(shí)間研制成功超大容量光盤庫(kù),大力引進(jìn)掌握世界最先進(jìn)技術(shù)的人才。

武漢光電研究中心的目標(biāo)就是用這個(gè)技術(shù)做到300TB,可能目標(biāo)到不了那么高,但一個(gè)盤50 TB,我們已經(jīng)有12000光盤庫(kù),現(xiàn)有技術(shù)加未來(lái)技術(shù),一個(gè)標(biāo)準(zhǔn)位可以存600 PB,而且是永久存儲(chǔ)。

關(guān)于解決協(xié)議一致性的問(wèn)題,協(xié)議丟失以后還是認(rèn)不出來(lái),或者程序運(yùn)行不了,現(xiàn)在武漢光電中心有研究的課題,國(guó)外也在研究,把那些數(shù)據(jù)按照規(guī)范按照一定的格式存下去,在很久以后還能夠恢復(fù)這些數(shù)據(jù),這也有很多工作,因?yàn)闀r(shí)間所限就不講了。

結(jié)語(yǔ)

大數(shù)據(jù)長(zhǎng)期保存,在當(dāng)前和未來(lái)都是十分重要的技術(shù)。隨著時(shí)間的演進(jìn),人們將越來(lái)越認(rèn)識(shí)到它的重要性。光存儲(chǔ)在數(shù)字資源長(zhǎng)期保存具有獨(dú)特的優(yōu)勢(shì),目前已經(jīng)有合適的產(chǎn)品,超大容量光盤庫(kù)已經(jīng)商品化、實(shí)現(xiàn)了實(shí)用,市場(chǎng)可以越來(lái)越多采用這種技術(shù)。

三種變革性的技術(shù)正在取得突破,使未來(lái)光存儲(chǔ)在長(zhǎng)期冷數(shù)據(jù)存儲(chǔ)方面,應(yīng)該具有絕對(duì)的優(yōu)勢(shì)。一個(gè)物理長(zhǎng)效和協(xié)議的長(zhǎng)效,一個(gè)硬的問(wèn)題一個(gè)軟的問(wèn)題都是值得關(guān)注的問(wèn)題。

光存儲(chǔ)在長(zhǎng)期保存上面可以形成新的產(chǎn)業(yè),而且可以完全自主可控的,謝謝大家。

編后:本次2019中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對(duì)話,以及大數(shù)據(jù)、閃存系統(tǒng)、分布式存儲(chǔ)、第二存儲(chǔ)與容災(zāi)備份、超融合與云存儲(chǔ)、人工智能、數(shù)據(jù)創(chuàng)新與安全可控、容器創(chuàng)新與應(yīng)用、SCM第五代存儲(chǔ)與閃存控制器等十大主題論壇,超過(guò)100場(chǎng)的專業(yè)知識(shí)分享。初步統(tǒng)計(jì),本屆峰會(huì)吸引了來(lái)自政、企、產(chǎn)、學(xué)、研、媒體等各方參會(huì)者約2000人,在線直播觀看觀眾再創(chuàng)新高,超過(guò)10萬(wàn)余人次。

分享到

xiesc

相關(guān)推薦