武漢光電國(guó)家實(shí)驗(yàn)室謝長(zhǎng)生主任
如今閃存越來(lái)越應(yīng)用到3D上,閃存容量在快速提高,但它的可靠性卻越來(lái)越差,我們?cè)谑褂眠@種芯片設(shè)計(jì)系統(tǒng)的時(shí)候,希望其在容量提高的同時(shí)確保它的可靠性和性能不下降,這是我從我們研究單位的角度來(lái)說(shuō)的問(wèn)題。我們閃存密度提高,價(jià)格下降,在移動(dòng)存儲(chǔ)稱為主流介質(zhì),在大容量存儲(chǔ)方面也稱為主流介質(zhì),我們用3D閃存設(shè)計(jì)系統(tǒng)的時(shí)候,很多系統(tǒng)設(shè)計(jì)者反饋說(shuō)我們用新的芯片以后,手機(jī)一段時(shí)間性能就變差了,或是容易死機(jī),固態(tài)盤的設(shè)計(jì)者也遇到這些問(wèn)題,那我們?cè)趺丛谙到y(tǒng)設(shè)計(jì)的時(shí)候,提高容量的同時(shí)讓可靠性不掉線。
以下為嘉賓演講實(shí)錄:
首先我們看看NAND閃存市場(chǎng)的趨勢(shì),現(xiàn)在閃存大部分用于SSD和手機(jī),其他的還有一些卡的應(yīng)用,按照現(xiàn)在的市場(chǎng)到2019年的預(yù)測(cè),可能80%的系統(tǒng)都會(huì)應(yīng)用到閃存或者混合系統(tǒng)。到2017年,超過(guò)50%系統(tǒng)已經(jīng)用3D閃存芯片了,3D閃存已經(jīng)成為主流?,F(xiàn)在提高閃存容量主要有三個(gè)途徑,一個(gè)是降低制程工藝,第二多階存儲(chǔ),第三是多層堆疊,這個(gè)是我們最主要提高的途徑,以前做到96層就行了,現(xiàn)在新的路線在美國(guó)今年提出的新技術(shù)路線圖目標(biāo)是要做到512層,以后堆疊的技術(shù)可能是芯片提高容量的最主要技術(shù)。
我們用越來(lái)越大的芯片設(shè)計(jì)固態(tài)盤,設(shè)計(jì)手機(jī),容量大了,但性能和可靠性有所下降,那么魚與熊掌能否兼得,既提高可靠性,性能又不下降?理論上是完全可以解決的,當(dāng)時(shí)科學(xué)家香農(nóng)在1948年發(fā)表的論文奠定了信息論的基礎(chǔ),實(shí)際上就告訴你通訊不管中間出現(xiàn)什么干擾,最終是有技術(shù),是可以給你完整無(wú)誤的從這一端傳輸?shù)搅硪欢?。相同的信息理論是解決通信問(wèn)題的,但是我們現(xiàn)在卻把它解決存儲(chǔ)問(wèn)題,這是為什么呢?,F(xiàn)在我們固態(tài)盤用的BCH,其實(shí)就是通訊里用的,1960年提出LDPC現(xiàn)在用于固態(tài)盤設(shè)計(jì),這些都是通訊中移過(guò)來(lái)的,為什么通訊的理論可以解決存儲(chǔ)問(wèn)題呢,我跟大家交流一下心得。
我是這樣理解的,通訊和存儲(chǔ)都是信息傳遞,只不過(guò)通訊是信息跨越空間的傳遞,而存儲(chǔ)是信息跨越時(shí)間的傳遞,都是信息傳遞。我們看一下,這是時(shí)間軸,這是空間軸,比如說(shuō)老子在2500年前寫的《道德經(jīng)》,我現(xiàn)在讀到了,這個(gè)時(shí)間跨度實(shí)際上2500年,他可能在河南寫的,我在北京讀的,還有個(gè)空間跨度,時(shí)間就是存儲(chǔ),空間就是通訊。比如我們現(xiàn)在發(fā)電子郵件,假如我從武漢發(fā)到北京,這跨一個(gè)空間,這是通訊,你朋友可能過(guò)一個(gè)小時(shí)才看到這個(gè)郵件,存到某個(gè)地方你才能看到,這就是存儲(chǔ)。所以實(shí)際上信息傳遞都是時(shí)空二維的,只不過(guò)考慮時(shí)間就是存儲(chǔ),考慮空間就是通訊,這個(gè)理論不光光適合于通訊,也適合于存儲(chǔ),本質(zhì)上是適合信息傳遞的,只要是信息傳遞這個(gè)理論就可以適用。所以我們只要把通訊理論這個(gè)維度擴(kuò)展到時(shí)間維度上去,就成為存儲(chǔ)的理論,所以我們就可以借用通訊理論的根本原因,就是因?yàn)橥ㄓ嵗碚搶?shí)際上是一個(gè)傳遞的理論,我們把它應(yīng)用到時(shí)間傳遞上,它就可以解決我們的存儲(chǔ)問(wèn)題,這樣我們就能理解為什么我們那么多的理論都可以從通訊中得到。
但是存儲(chǔ)也有它的特點(diǎn),存儲(chǔ)也一樣,你存進(jìn)去的東西我讀出來(lái)要一模一樣,通訊是空間信道,存儲(chǔ)是時(shí)間信道,存儲(chǔ)介質(zhì)的失效就是噪聲,這樣我們就可以分析整個(gè)的存儲(chǔ)問(wèn)題了。存儲(chǔ)其實(shí)比通訊要復(fù)雜,我們來(lái)看現(xiàn)在這塊閃存是怎么出錯(cuò)的,也就是噪聲是怎么產(chǎn)生的,我們才能分析怎么設(shè)計(jì)更可靠的系統(tǒng)。
閃存單元的出錯(cuò)模式,對(duì)它的分析對(duì)我們的系統(tǒng)設(shè)計(jì)是非常重要的,閃存的噪聲主要是由于電荷存儲(chǔ),它把電荷封在一個(gè)絕緣體,它如果漏電,漏光了,0就變成1了,就錯(cuò)了,而且對(duì)多階存儲(chǔ)更敏感,你漏一點(diǎn)就會(huì)下降到另一個(gè)臺(tái)階上,漏電對(duì)它的影響特別大,稍微漏一點(diǎn)就錯(cuò)了,這是電荷泄漏是它出錯(cuò)模式的一個(gè)方面。第二個(gè)方面就是擦寫磨損,要全擦了以后才能編程,得出新的數(shù)據(jù),這樣次數(shù)越多絕緣層就破壞越多,就越容易漏電,漏到一定程度就保存不住了,這個(gè)閃存就壞了。第三是讀寫干擾,讀寫的時(shí)候相鄰的對(duì)它也有影響。還有性能會(huì)下降,我們?yōu)榱私鉀Q這些問(wèn)題,現(xiàn)在發(fā)展了很多閃存技術(shù),比如我們想使它磨損的均衡一些,我這一塊和那一塊幾萬(wàn)個(gè)地方均勻的磨損,還有數(shù)據(jù)布局、垃圾回收、糾錯(cuò)編碼、健康管理、故障預(yù)測(cè),很多方法我們都要保證它的可靠性,還有現(xiàn)在用到了一些人工智能的技術(shù)。為了對(duì)3D芯片的出錯(cuò)模式進(jìn)行比較細(xì)致的研究,我們實(shí)驗(yàn)室課題組就專門研究3D閃存,對(duì)它的芯片進(jìn)行了實(shí)驗(yàn)的研究,看看到底出錯(cuò)是怎么發(fā)生的。
現(xiàn)在3D閃存主要有兩類,更多的是用電荷捕獲的技術(shù),這兩種各有各的特點(diǎn),第一種結(jié)構(gòu)數(shù)據(jù)保留性較好,單元間干擾比較小,F(xiàn)G比較差,在以后互相干擾很嚴(yán)重,電荷復(fù)核就比較好,速度和能耗都有一些差別,現(xiàn)在更多的3D閃存是用的電荷捕獲型,我們看看未來(lái)對(duì)3D閃存芯片有一個(gè)全面的認(rèn)識(shí),廠商給的數(shù)據(jù)實(shí)際上就是一些容量、速度這些方面的指標(biāo),但是在設(shè)計(jì)的時(shí)候你要知道的東西比這些更多,才能設(shè)計(jì)出來(lái)更好的系統(tǒng)。
我們進(jìn)行了長(zhǎng)期測(cè)試以后,發(fā)現(xiàn)3D層和層之間差別比較大,這是因?yàn)楣に噺纳系较掠兴鶇^(qū)別,造成延時(shí)就不一樣,層與層之間變化非常大,所以你設(shè)計(jì)的時(shí)候你要知道你用哪些層快一點(diǎn),哪些層慢一點(diǎn)。但是在這個(gè)平面我們測(cè)差別就不太大。第二數(shù)據(jù)的耐久性,我們也是測(cè)了很多,一個(gè)是把它寫壞,隨機(jī)的寫,寫壞了以后就停止測(cè)試,我們看到不同的閃存塊壽命是不一樣的,它會(huì)在4000到6000之間波動(dòng),我們一個(gè)閃存芯片有些塊是壽命長(zhǎng)一些,有些是壽命短一些。不同的塊隨著擦寫次數(shù)的增多,不同的塊之間是有差別的,但是在這個(gè)平面上差別就不大。3D是多層的,引入了一個(gè)新的層間的干擾希望,上層和相鄰的層對(duì)它的干擾是最大的,你看豎的層面上對(duì)它有20%的干擾,下面對(duì)它有30%的干擾,豎的方向干擾是比較大的,水平方面就小得多,所以有位置相關(guān)性。還有讀的干擾,我們也對(duì)芯片進(jìn)行了詳細(xì)測(cè)試。
還有電流捕獲型的,和2D也有一些變化,這些變化就造成它性能上會(huì)改變。我們看看3D閃存出來(lái)以后它和2D有什么不同,最主要的不同就是層與層之間有不一致性,有些很明顯,而且層結(jié)的串?dāng)_和持久性耐久性問(wèn)題更為嚴(yán)重,還有頁(yè)數(shù)量和頁(yè)尺寸變大,垃圾回收之類的就有一些問(wèn)題。我們做了很多研究,除了大家已知的技術(shù),我們還探索了新的技術(shù),我舉幾個(gè)例子,剛才說(shuō)3D芯片出現(xiàn)以后和2D相比有一些不一樣的地方,它的塊和頁(yè)容量變大,我們?cè)趺磧?yōu)化呢,就用了一個(gè)紙分頁(yè),還有磨損均衡,以前磨損均衡都是根據(jù)已經(jīng)使它的可擦寫次數(shù)比較均勻,但是我們發(fā)現(xiàn)這個(gè)并不是非常好的磨損性的指標(biāo),我們現(xiàn)在提出來(lái)以編程的錯(cuò)誤率作為它的測(cè)率,這樣能更好的發(fā)揮介質(zhì)的作用。
假如你均勻看待,有的塊壽命長(zhǎng),有的塊壽命短,我們現(xiàn)在以編程錯(cuò)誤率來(lái)看就可以發(fā)揮不同的壽命塊的潛力,使我們整個(gè)系統(tǒng)壽命更長(zhǎng)。還有垃圾可回收、還有內(nèi)部RAID構(gòu)建,還有新的錯(cuò)誤感知,這樣更好的來(lái)糾錯(cuò),我們發(fā)展了一些新的方式來(lái)保證可靠性。我們也發(fā)表了一些文章,在現(xiàn)有大家熟知的技術(shù)上我們發(fā)展了一些新的技術(shù),用這些技術(shù)就可以使你采用更新的3D閃存芯片,你設(shè)計(jì)的系統(tǒng)可靠性可以得到更好的保障,它的壽命也會(huì)更長(zhǎng),這樣你的產(chǎn)品就和別人有區(qū)別,性能大家都差不多,但是用了一段時(shí)間,你就發(fā)現(xiàn)我們可以設(shè)計(jì)出一個(gè)更有競(jìng)爭(zhēng)力的產(chǎn)品,別人同樣用這個(gè)芯片,我們新盤的時(shí)間都差不多,或者手機(jī)都用同樣芯片,但是你用了一年之后,你設(shè)計(jì)上面有新的考慮以后,你的壽命比別人長(zhǎng),性能又比別人好,你就可以具有優(yōu)勢(shì),我們做了這些研究工作,也希望廠商們我們一起合作,可以設(shè)計(jì)下一代芯片的時(shí)候,能夠設(shè)計(jì)出更好更可靠的產(chǎn)品,使我們?cè)谑袌?chǎng)競(jìng)爭(zhēng)中搶得先機(jī),現(xiàn)在已經(jīng)有一些企業(yè)和我們合作,我們也歡迎用閃存做產(chǎn)品的公司,我們一起來(lái)探討。