我們用擴展的香農(nóng)的理論分析存儲,這時候我們就發(fā)現(xiàn)其科學道理很清楚了:什么是可靠的存儲?讀出的信息完全復現(xiàn)寫入的信息,但是它是經(jīng)過一個信道,這個信道不是跨越空間的信道,而是跨越時間的信道。如果我們把通訊理論向時間軸上拓展,它就變成存儲的理論。

對于存儲介質(zhì)的基本要求是時間穩(wěn)態(tài),要在時間上保持,但是時間信道是有噪聲的,我們刻在石頭上、寫在竹簡上、刻在光盤上的東西會有時間信道的噪聲,會隨著時間的老化而磨損、受損,這些都是屬于時間信道的噪聲。

我們今天講閃存,閃存的存儲原理是電荷要保持時間穩(wěn)態(tài),把電子拉到浮柵里面它就是“0”,沒有電荷的時候就是“1”。如今,閃存的容量越來越大,這就是為什么閃存會逐漸取代硬盤。

閃存現(xiàn)在基本上采用三條技術(shù)路線,一個是減小線寬,第二是單元多bit,第三是3D堆疊,這幾個因素對可靠性帶來的影響是什么?

線寬變窄了每個單元就變小了,單元電荷就變少了,電荷少了泄露后對電位的影響就特別大。窄了以后干擾也大,隧道氧化層變薄。用一個單元存多個bit,圖上藍色的是TPC的比率,它會越來越多,如此其讀、寫、擦出的時間都變長,變得越來越不可靠。3D堆疊可以減緩線寬,但是會產(chǎn)生層間的干擾,這也是一個問題。

如今越來越不可靠的閃存介質(zhì),時間信道的噪聲越來越大,如此,我們怎么用越來越不可靠的介質(zhì)構(gòu)建一個可靠的系統(tǒng)?這就是今天的主題。

在香農(nóng)的理論框架下,首先要想辦法減少噪聲,如果一個信道完全沒有噪聲,寫進去讀出來就是完全一樣的。但是現(xiàn)在噪聲越來越大,所以我們第一點是要盡量降低時間信道的噪聲,如果降到不能再降了還有噪聲就要用有效的編碼來保證可靠性。

有了理論框架這個問題就不是很復雜了。

第一降低信道噪聲。

第二采用編碼。

通訊的信號隨著距離的增加而衰減,信噪比增加。降低噪聲采用的措施是中繼和放大,我們分析一下,閃存介質(zhì)是一個不簡單又不優(yōu)美的介質(zhì),電荷泄露要考慮的因素很復雜,所以很多情況下就要分析和處理的情況太多,很復雜。

當然,這也為各廠家顯示技術(shù)實力提供了舞臺,同樣的介質(zhì)不同的廠家的固態(tài)盤產(chǎn)品會有較大的差別,路遙知馬力,后期的性能、鋪靠性、壽命有很大的差別。

時間信道的噪聲是閃存不可靠的來源。

第一是工藝缺陷,第二是電荷泄露,最重要的就是擦寫磨損,P/E是最需要注意的,還有讀寫的干擾。?磨損均衡,最好的效果是均衡地讓每一塊壽命都耗盡,直至徹底失效,第二是減小寫放大,第三是減小位間和層間干擾,第四是用Chorge Trap(電荷捕獲)代替金屬浮柵,減少泄露。

降低信道噪聲更細致的技術(shù),第一考察塊之間的不均衡性,強塊和弱塊區(qū)別對待,進一步挖掘介質(zhì)潛力,挖掘空間分布的潛力。

第二是全生命周期管理,不同的階段不同對待,剛開始的錯誤很少,后面磨損的比較厲害了就需要加強,剛才是挖掘空間的潛力,現(xiàn)在是挖掘時間的潛力。

第三減少讀干擾和編程干擾的新方法。

第四用編程誤碼率作為均衡指標,反映更真實的磨損狀態(tài)。

第五通過新的FLT減小寫放大。

第六為位置感知重分布。

我們對3D閃存芯片內(nèi)部差異性進行了研究,發(fā)現(xiàn)差別是很大的,研究成果發(fā)表在sigmetrics雜志上。錯誤模式的研究,研究變成干擾、讀干擾、寫錯誤,用合適的pattern進行寫入也可以減少磨損。這些細節(jié)大家可以看我們的論文。

第一是降低噪聲。

二是采用更好的糾錯編碼。現(xiàn)在的LDPC有很多改進,我們這里做了一些研究,我們設(shè)計了一個編碼,它可以使碼源錯誤降低30%,還有自適應(yīng)能力,針對剛開始錯誤比較少的時候和后期錯誤比較多的時候,采用不同能力的糾錯編碼。

我下面還要介紹一下我們一個新的研究,叫耗散結(jié)構(gòu)——動態(tài)超可靠系統(tǒng)。什么意思?心跳平均每分鐘跳70次,一天跳10萬次,一年跳3650萬次,70年跳26億次,但是世界上沒有任何一種材料可以經(jīng)得起26億次的疲勞測試。

但心臟為什么可以?

心肌并不是高可靠材料,關(guān)鍵在于它是一種耗散結(jié)構(gòu),就是說它有物質(zhì)能量不斷的進入,保持一個穩(wěn)定的結(jié)構(gòu)。細胞工作一段時間就新陳代謝了,它永遠是很健康的。

它可以新陳代謝,但是總體結(jié)構(gòu)不變,這是一種動態(tài)的超可靠系統(tǒng),如果我們把這個思想用到存儲系統(tǒng)上,就是不可靠不要緊,但是有進有出,就可以保持穩(wěn)定,這是上帝的智慧,或者是大自然的智慧。

耗散存儲系統(tǒng)的基本思想,就是快不行的時候把它傳譯一下,簡單的說是這樣的,但是我們還要把科學道理講清楚,把理論建立起來,我們系統(tǒng)的研究了一下?;舅枷胧窃诖鎯卧磳⑹е?,將數(shù)據(jù)轉(zhuǎn)移到新的存儲單元,使數(shù)據(jù)總是在健康的介質(zhì)中保存。對數(shù)據(jù)而言,其保存它的介質(zhì)實現(xiàn)了新陳代謝,從而實現(xiàn)了數(shù)據(jù)存儲的超可靠性。

這與糾錯的概念有本質(zhì)的不同,糾錯碼和盤鎮(zhèn)技術(shù)都是存儲單元壞了,數(shù)據(jù)丟了以后,通過編碼糾錯,算出正確的數(shù)據(jù),然后再恢復。而且恢復的時間比較長。對時間使用長的系統(tǒng),大部分數(shù)據(jù)都是老化狀態(tài)了,這時候就比較危險,像磁陣列這樣,平均壽命是5年,都快到5年了快幾個盤的概率大大上升,所以新系統(tǒng)和老系統(tǒng)在前期和后期的危險性是非常不一樣的。

耗散性系統(tǒng)有哪些關(guān)鍵性技術(shù)?

第一準確預測存儲單元什么時候失效。以前測不準,測早了時間沒有到,浪費了資源,晚了數(shù)據(jù)就丟了。存儲單元的顆粒有bit、Byte、word、page、block、die、chip、Drive、note,其中Block和Drive適合用這種方法。

判斷的標準是基于當前比較熱的機器學習,我們也做了一個工作,通過深度學習算法訓練,這是我們對3D閃存的預測,橫坐標是P/E,縱坐標是保持的時間。我們預測的準確率初步的超過了92%,預測負載準確率超過98%,我們的研究還有很大的空間。

如果通過介質(zhì)預測什么時候壞,通過負載預測什么時候進行轉(zhuǎn)移,通過這兩個預測就可以知道介質(zhì)什么時候壞。預測準了,我們設(shè)計了一個預警轉(zhuǎn)移技術(shù),這是工作區(qū)域,把新盤放到這里,假如我預測它一個星期以后要壞,我可以有一個星期的時間轉(zhuǎn)移數(shù)據(jù),預測以后我就把數(shù)據(jù)遷移到新盤中,一旦遷移完了我就告訴它這個盤的任務(wù)完成了,就到旁邊的池子里,完全淘汰了。

淘汰以后就把新盤拔下來放進去,這樣就形成新陳代謝,保證非常好的可靠性。這樣就更加沒有性能降級的說法了,不需要恢復數(shù)據(jù),整體保持在健康的狀態(tài)下。這非常適合用于數(shù)據(jù)中心,免維護的,一旦進入淘汰池了換掉就完了,而且新介質(zhì)的速度、可靠性比老盤要高,不斷得用新盤換舊盤,系統(tǒng)和容量都產(chǎn)生了凈化,所以我們叫可凈化的耗材存儲技術(shù),這個技術(shù)以后可以用機器人來實現(xiàn),實現(xiàn)了超高的可靠性,這些都是理論,我們需要和廣大的企業(yè)合作,把它用到實踐當中。

總結(jié)一下,閃存芯片隨著工藝制程、單元多bit、3D堆疊技術(shù)的進步,容量的迅速提高,但可靠性越來越差。如何用不可靠的芯片來構(gòu)建可靠的系統(tǒng),是每一個系統(tǒng)設(shè)計者必須面對的問題。在香農(nóng)的理論框架下,主要是通過降低時間通道的噪聲和采用更強的糾錯編碼進行。建立耗散存儲系統(tǒng)超可靠體系框架,使存儲數(shù)據(jù)實現(xiàn)新陳代謝,可實現(xiàn)數(shù)據(jù)存儲系統(tǒng)的超高可靠。(本文根據(jù)武漢光電國家研究中心教授謝長生教授,在2018全球存儲半導體大會暨全球閃存技術(shù)峰會的主題演講,整理而成。未經(jīng)過本人審閱。)

分享到

songjy

相關(guān)推薦