武漢光電國(guó)家研究中心謝長(zhǎng)生教授
【以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定】
謝長(zhǎng)生教授 :因?yàn)榻裉鞎r(shí)間比較緊,我就簡(jiǎn)單講一下我們的研究工作,主要兩個(gè)思路性的東西。具體的工作應(yīng)該是吳非老師領(lǐng)導(dǎo)的閃存團(tuán)隊(duì)做的。
我們知道數(shù)據(jù)爆炸性的增長(zhǎng)這個(gè)已經(jīng)是常識(shí)了,歷史上有很多數(shù)據(jù)的爆發(fā)點(diǎn),從文本到圖像、多媒體、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù),下一個(gè)爆發(fā)點(diǎn)5G、AI、物聯(lián)網(wǎng)。
從物聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)它將比人產(chǎn)生的數(shù)據(jù)更大,所以它是一個(gè)質(zhì)的轉(zhuǎn)變,從人產(chǎn)生數(shù)據(jù)到物產(chǎn)生數(shù)據(jù),這樣會(huì)產(chǎn)生更多的數(shù)據(jù),因?yàn)槲锉热硕啵總€(gè)人用的物很多。這些巨量的數(shù)據(jù)如何保存呢?在古代刻在石頭上,寫在紙上,到現(xiàn)在我們是磁光電,未來可能有量子存儲(chǔ)那還比較遠(yuǎn)。
我現(xiàn)在給一個(gè)定義,當(dāng)一種信息存儲(chǔ)的介質(zhì)承載人類信息50%以上,我們就稱為主流存儲(chǔ)介質(zhì)。目前主流存儲(chǔ)介質(zhì)還是硬盤,超過50%的信息還是存在硬盤上。即將到來的主流存儲(chǔ)介質(zhì)就是閃存,將來超過50%的信息在閃存上。雖然現(xiàn)在出現(xiàn)了很多新型其他的介質(zhì),但是他們的量是絕對(duì)不會(huì)再看得見的,在這十年之內(nèi)不可能成為我們定義的主流,主流還應(yīng)該是閃存。閃存價(jià)格非常便宜,容量越做越大,所以閃存的主要進(jìn)展就是閃存顆粒的容量越來越大,價(jià)格也越來越便宜,進(jìn)入主流是我們非常容易看得見的事情。
但是閃存芯片現(xiàn)在越做越大特點(diǎn)是什么呢?不可靠,因?yàn)樵讲罹驮讲睿讲罹湍p,所以現(xiàn)在越來越差,容量大到一定程度只有1000次了,存放也差,電荷會(huì)慢慢漏掉。容量越大也越差,但我們用越來越差的顆粒做成一個(gè)系統(tǒng)的時(shí)候又要求是可靠的,我們用不可靠的顆?;蛘咝酒瑏碜龀煽煽康南到y(tǒng),這樣我們無數(shù)科學(xué)家、工程師做了很多的努力,今天就想把這些努力歸納在一個(gè)理論框架下。
沒有理論指導(dǎo)技術(shù),今天發(fā)明這個(gè),明年發(fā)明那個(gè),大家覺得五花八門,如果把閃存采用的技術(shù)歸在一個(gè)理論框架下,我們就發(fā)現(xiàn)原來做的技術(shù)就是歸納為這個(gè)框架上的兩點(diǎn),一下子思路就很清晰了,我今天想把這個(gè)思路講清楚。
我們從根本原理上定義數(shù)據(jù)存儲(chǔ)的可靠性,1948年香龍發(fā)表了一篇?jiǎng)潟r(shí)代的論文,《通訊的數(shù)學(xué)理論》。他指出了可靠通訊的基礎(chǔ)任務(wù)是在接受端精確的復(fù)現(xiàn)發(fā)送端信息,這個(gè)就是他經(jīng)典的通訊先導(dǎo)模型,是在有噪聲的先導(dǎo)下要保證接受端精確復(fù)現(xiàn)發(fā)送端的信息。我們就要用編碼調(diào)制技術(shù)保證可靠性,這個(gè)是通訊。
存儲(chǔ)的數(shù)學(xué)在哪里呢?有沒有這樣的東西呢?搞存儲(chǔ)的人都發(fā)現(xiàn),存儲(chǔ)可以借鑒通訊的理論,比如說糾刪碼、壓縮等等,借用通訊的理論。為什么是這樣呢?我這里有一個(gè)理論的解釋,信息的傳遞,我認(rèn)為它是分為跨空間的傳遞和跨時(shí)間的傳遞,通訊就是信息跨空間的傳遞。比如說我們打一個(gè)電話,信息就跨空間。存儲(chǔ)實(shí)際上跨越時(shí)間的傳遞,2500年前老子寫了《道德經(jīng)》通過存儲(chǔ)介質(zhì)傳到我們,跨越了時(shí)間的距離。
基于這個(gè)認(rèn)識(shí)信息傳遞的規(guī)律是相同的,如果你是跨越空間的傳遞,它就是通訊。如果跨越時(shí)間的傳遞,那就是存儲(chǔ)。認(rèn)識(shí)到這一點(diǎn),我們就一個(gè)二維的空間,實(shí)際上這個(gè)理論是一個(gè)信息傳遞論,往空間傳遞就是通訊,往時(shí)間傳遞就是存儲(chǔ)。
我們可以把時(shí)空二維的理論寫完整,把這個(gè)理論工作往時(shí)間推一步,我們就可以用了。實(shí)際上很多東西光通訊信息是傳達(dá)不到的,比如說發(fā)微信、短信、郵件,既跨越了空間,實(shí)際上也跨越了時(shí)間。發(fā)一個(gè)信息給你存在手機(jī)上才能看得到,只是通信一下你沒看到就沒了,所以信息傳遞大部分時(shí)間是時(shí)空二維的。如果知道這一點(diǎn),往下就好講了,我們有一個(gè)理論框架了。
可靠存儲(chǔ)還是那樣,但我們這個(gè)信道是一個(gè)時(shí)間信道??煽康拇鎯?chǔ)就是讀出的信息是完全復(fù)現(xiàn)了寫入的信息,寫進(jìn)去和讀出來的一樣,那就是可靠。和通訊一樣,信道是有噪聲的,比如說有缺陷、老化、磨損、干擾等等。
現(xiàn)在來看一下閃存,閃存就是把電荷封到絕緣柵里,把它拉進(jìn)來就去零,把它擠出來就是一。幾十個(gè)一擠,它就形成了多閉合的技術(shù)。電荷能保持多久,信息就能保持多久,這個(gè)就是閃存的基本原理。
為什么現(xiàn)在閃存的技術(shù)在提高容量的同時(shí),成本降低可靠性越來越差?從信息論的角度我們剛剛講的時(shí)間信道的噪聲是越來越大,來看看在相同框架下,存儲(chǔ)可靠性就是兩點(diǎn):第一個(gè)降低時(shí)間信道的噪聲,第二個(gè)實(shí)在降低不了用有效的編碼保證可靠性。
在這邊做了很多的研究工作,我們從介質(zhì)、設(shè)備、系統(tǒng)方面在國(guó)際一流會(huì)議和雜志發(fā)了一些文章,現(xiàn)在討論一下怎么做。
方法一就是來降低存儲(chǔ)信道的噪聲。
閃存的噪聲大致分為五個(gè),一個(gè)是工藝缺陷,生產(chǎn)過程中本身就有,這個(gè)是工藝來保證的。第二個(gè)電荷泄露。第三個(gè)有擦寫磨損,閃存的絕緣層差一點(diǎn),最后擦到存進(jìn)去就漏出來了、壞了,這個(gè)是我們最要注意的特性。第四個(gè)多BT的技術(shù)。第五個(gè)干擾,有毒干擾等等。
這個(gè)我把它歸為噪聲,想辦法減少噪聲。第一個(gè)是靠生產(chǎn)廠來保證的,想一些辦法減少的??纯撮W存容量的提升,我們有3D堆疊的方法,有單元多位的方法,還有減少尺寸的方法。比如說我們減少了線寬,肯定是干擾也增大了,電荷數(shù)也變少了,氧化層變薄了,帶來一系列的噪聲。
第二個(gè),很多文章研究從具體的數(shù)量上到底減少的規(guī)律是多少,這個(gè)有詳細(xì)的數(shù)據(jù),不多講,還有減少以后挨的緊,互相之間的干擾也變大了,還有多值存儲(chǔ)以后閾值電壓變小了。3D堆疊引進(jìn)了新的干擾,這樣還有不一致性,這些都是我們的噪聲。
我們也做了詳細(xì)的測(cè)試和研究,測(cè)試了很多廠家的芯片,得到了整個(gè)生命周期到底是怎么變的,還有空間上不同塊之間的差異,這樣在我們?cè)O(shè)計(jì)的時(shí)候就可以利用這些特點(diǎn)使可靠性增加。
剛才說的這些干擾都是影響噪聲,這樣就知道采取那么多措施都是為了減少噪聲,這是一類。
減少噪聲常用技術(shù)就是減少干擾,這里常用的技術(shù),很多研究者建立了模型,我們也做了很多的工作,包括對(duì)誤碼率隨著時(shí)間怎么變化,做了很詳細(xì)的測(cè)試,也發(fā)表了很多分析的文章。
還有數(shù)據(jù)的組織,我們知道FTL層有垃圾回收這方面的技術(shù),這些實(shí)際上也是歸納為產(chǎn)生噪聲,也就是說產(chǎn)生的主要是越寫越差,盡量減少寫放大。這里分析了來源,寫放大有垃圾回收產(chǎn)生的。我想大家都比較清楚,很快過一下,我們采取了優(yōu)化影射管理方面有一篇文章,優(yōu)化命中率用緩存來替換,最終減少寫入。還有優(yōu)化冷熱數(shù)據(jù)的組織,減少垃圾回收的遷移,這也是減少寫放大。
剛才說想盡了各種各樣的辦法減少了寫放大,但是還有噪聲,或者隨著時(shí)間、擦寫次數(shù)的增加,誤碼率我們不能接受,就必須要有更好的糾刪編碼。
方法二是采用更好的糾錯(cuò)編碼。
目前LDBC碼已經(jīng)被廣泛的應(yīng)用,比BCH碼有更高的糾錯(cuò)能力。各大公司都采用LDBC,它的算法是成熟的,但是怎么樣進(jìn)一步改進(jìn)它呢?目前主要有什么問題呢?它要強(qiáng)糾錯(cuò)的話用軟判決碼,讀延遲會(huì)增大,而且部分好預(yù)測(cè),你保證了糾錯(cuò)能力以后性能有時(shí)候得不到保證,我們?cè)谶@方面做了很多的研究工作,就做一個(gè)大致的介紹。
有一個(gè)博士后發(fā)了四篇文章,一個(gè)是LDPC軟判決譯碼算法的優(yōu)化,另外一個(gè)是軟判決的采樣方法優(yōu)化,利用編程干擾的錯(cuò)誤特性感知或者用保存的錯(cuò)誤感知把這個(gè)特性利用起來,還有用CT型的閃存感知,利用這些特性最后降低了譯碼的迭代延遲,在采樣上怎么樣優(yōu)化它,這樣就保證了我們?cè)诩m錯(cuò)能力保證情況下盡量提高譯碼速度。這個(gè)是我們做的一些工作,發(fā)表了幾篇文章。
我們對(duì)過長(zhǎng)的糾刪碼采用放大,也采取了一些新的技術(shù),這些不詳細(xì)介紹,大家如果對(duì)細(xì)節(jié)感興趣大家可以去讀讀文章。
我們?cè)陂W存的RAID上做了一些新的算法,使它能夠可靠性進(jìn)一步增加,而且保證性能。
下面要講一個(gè)新的思路,現(xiàn)在取了一個(gè)名字叫耗散存儲(chǔ)系統(tǒng)。什么叫耗散存儲(chǔ)系統(tǒng)呢?有物質(zhì)進(jìn)來有物質(zhì)出去,保持動(dòng)態(tài)穩(wěn)定,這就是耗散結(jié)構(gòu)。這個(gè)香龍框架下的特性是出了錯(cuò)幫助糾過來以保證可靠性,我們磁盤陣列也是等它壞了以后通過把技術(shù)手段信息把恢復(fù)出來。
假如磁盤陣列壞了,靠算把這個(gè)數(shù)據(jù)恢復(fù),這個(gè)性能就要降級(jí),而且在恢復(fù)數(shù)據(jù)遷移、恢復(fù)的時(shí)候再壞一個(gè),數(shù)據(jù)就丟了,所以很危險(xiǎn)。還有一個(gè),新的介質(zhì)和盤用的時(shí)候都是挺好的,新的時(shí)候糾錯(cuò)能力都是很富裕的,但是用到生命周期后期的時(shí)候,都比較老化的時(shí)候,這時(shí)候出錯(cuò)率其實(shí)是非常容易超過編碼能力的。
打一個(gè)比方,我們一個(gè)公司大家都是年輕人的時(shí)候,大家身體都很健康,這樣累倒的概率很少。假如說一個(gè)公司都是70幾歲的人,大家得病的概率就很大了。存儲(chǔ)系統(tǒng)也是一樣,新的時(shí)候相當(dāng)于全部是年輕人的公司,過了五年以后可能都是七八十歲的人在工作,患病的概率太大了。即使很多大公司采用了3D備份的技術(shù),但在用到5-6年的時(shí)候是非常有可能同時(shí)壞的,因?yàn)閾?jù)統(tǒng)計(jì)大概30%、40%的盤會(huì)壞,這個(gè)時(shí)候我們要采取一種新的思路。
比如說心臟一輩子可以跳多少億次不壞,并不是說材料特別的好,而是經(jīng)常有新物質(zhì)進(jìn)去舊物質(zhì)出來,它是一個(gè)新陳代謝,但總體還是保持心臟的形態(tài)。如果有新陳代謝在里頭了,這個(gè)就不一樣了,就像這個(gè)公司誰身體不好搞個(gè)健康人來,這樣總是保持公司健康狀況,就是七八十歲人在工作整個(gè)系統(tǒng)可靠性是完全不一樣的,采取這個(gè)思路借鑒生命系統(tǒng)的原理,我們叫耗散的存儲(chǔ)系統(tǒng)。
我們有不同的力度,可以在塊級(jí)進(jìn)行,也可以在盤級(jí)進(jìn)行,也可以在節(jié)點(diǎn)級(jí)進(jìn)行。我們?cè)谶@里做了很多研究,也拿了國(guó)家自然科學(xué)的基金在研究。這個(gè)問題有幾個(gè)關(guān)鍵點(diǎn),我們要預(yù)警轉(zhuǎn)移,預(yù)警就是要體檢,健康狀況怎么樣。以前硬盤的時(shí)候不太容易搞準(zhǔn),在固態(tài)盤的時(shí)候比較容易搞準(zhǔn),健不健很多指數(shù)可以指出來?,F(xiàn)在用人工智能的方法把語言出來,所以第一步看它什么要壞,數(shù)據(jù)還沒丟,快差不多就告警,就把把這個(gè)數(shù)據(jù)遷移,這個(gè)里頭裝的都是新的單元,一旦轉(zhuǎn)移過去那個(gè)單元就可以替換掉了,就完成了新陳代謝。
這里來預(yù)測(cè)故障可以用人工智能的算法,現(xiàn)在準(zhǔn)確率已經(jīng)90%多了,用這種技術(shù)就可以預(yù)測(cè),預(yù)測(cè)的精度高于90%,實(shí)現(xiàn)了新陳代謝,這個(gè)技術(shù)實(shí)際上在盤這一級(jí)最好實(shí)現(xiàn)的。比如說這里有一個(gè)機(jī)械手在這里全可以插的盤,這個(gè)就不是磁盤陣列,也不是固態(tài)盤陣列,一旦數(shù)據(jù)轉(zhuǎn)移到另外的時(shí)候,報(bào)警把它拔出來就完了,這個(gè)都可以自動(dòng)維護(hù)。估計(jì)一下這個(gè)系統(tǒng)的可靠性比磁盤陣列要高好幾個(gè)數(shù)量級(jí)。
這個(gè)就是我們的思路。
閃存顆粒隨著工藝制程、單元多bit、3D堆疊技術(shù)的進(jìn)步,容量迅速提高,但可靠性越來越差。以不可靠的芯片來構(gòu)建可靠的系統(tǒng),是每一個(gè)設(shè)計(jì)者必須面臨的問題。在香農(nóng)框架下就是兩點(diǎn),第一點(diǎn)降低時(shí)間信道的噪聲,第二個(gè)用更強(qiáng)的糾刪碼,一般的技術(shù)都是這樣,剛才講的檢測(cè)健康度,預(yù)警轉(zhuǎn)移,實(shí)現(xiàn)新陳代謝這樣就在香農(nóng)框架之外了,有了這個(gè)技術(shù)就可以實(shí)現(xiàn)超高的可靠性。
像這種局部的技術(shù)有些公司已經(jīng)在用了,但是我們想把新的理論框架建立起來,最后把可靠性具體提高多少量化出來,建立一套耗散存儲(chǔ)系統(tǒng)的新理論,這樣更加進(jìn)一步提高可靠性,這個(gè)是我們的思路?,F(xiàn)在有些工作也發(fā)了一些文章,還需要進(jìn)一步的完善。
結(jié)束語
存顆粒隨著工藝制程、單元多bit、3D堆疊技術(shù)的進(jìn)步,容量的迅速提高,但可靠性越來越差。如何用不可靠的芯片來構(gòu)建可靠的系統(tǒng),是每一個(gè)系統(tǒng)設(shè)計(jì)者必須面對(duì)的問題。在香農(nóng)理論框架下,主要是通過降低時(shí)間通道的噪聲和采用更強(qiáng)的糾錯(cuò)編碼進(jìn)行,建立耗散存儲(chǔ)系統(tǒng)的超可靠體系架構(gòu),使存儲(chǔ)數(shù)據(jù)的介質(zhì)實(shí)現(xiàn)新陳代謝,可實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)系統(tǒng)的超高可靠性。
我的演講到這里結(jié)束,謝謝大家。