2018全球存儲半導(dǎo)體大會上,來自來自重慶大學(xué)Smart Storage Lab的石亮博士發(fā)表了題為《新一代3D閃存存儲可靠性技術(shù)》的主題演講,介紹了從LDPC糾刪碼和制程差異兩方面優(yōu)化閃存可靠性的方法,論據(jù)內(nèi)容充足,有許多實(shí)驗(yàn)作為支撐,并且給出了解決問題的思路和方法,為閃存專業(yè)人士研究閃存特性提供了許多有價(jià)值的信息。
以下是現(xiàn)場速記:
各位朋友,大家下午好!今天我給大家?guī)淼念}目是《新一代3D閃存存儲可靠性技術(shù)》。目前我們有一個(gè)聯(lián)合研究團(tuán)隊(duì),團(tuán)隊(duì)成員由兩部分組成:一部分來自重慶大學(xué),另一部分是香港城市大學(xué)。
這是我主要講的內(nèi)容,一方面關(guān)于閃存的發(fā)展,從2D平面閃存到3D閃存的過程。另一方面重點(diǎn)介紹3D閃存可靠性方面所做的部分研究工作,主要涉及LDPC糾錯(cuò)碼的存儲優(yōu)化,制程差異的可靠性優(yōu)化兩個(gè)方面的技術(shù),最后對本報(bào)告進(jìn)行一個(gè)總結(jié)。
2D平面閃存主要有兩個(gè)發(fā)展方法:
一是尺寸的縮小,我們觀察到的2D閃存的推出產(chǎn)品的最小尺寸是14nm,關(guān)于尺寸的縮小的最近的工作要追溯到2016年,由三星發(fā)布14納米制程2比特存儲元,之后沒有看到2D儲存上的縮小。
二是從單個(gè)存儲元比特個(gè)數(shù)的增加,也就是單存儲元里面可以存儲更多的比特,最新的工作則是2013年臺灣旺宏推出的6比特每存儲元在45納米下的技術(shù)。以上兩種技術(shù)到目前為止基本上已經(jīng)終止,這是因?yàn)樗麄兊陌l(fā)展會導(dǎo)致可靠性和性能的嚴(yán)重下降。所以,從2006年開始3D閃存的概念開始進(jìn)入我們的視野。
具體我們來看一下,我把3D閃存的發(fā)展分成兩個(gè)階段,一個(gè)是理論階段,二是產(chǎn)品階段。
從2006開始提出3D閃存概念以來,多種3D閃存架構(gòu)已經(jīng)見諸報(bào)端。包括Stacked NAND,BICS,P-BICS以及TCAT等等,但是在2012年之前,這些架構(gòu)依然處在驗(yàn)證和樣品階段,并未進(jìn)入實(shí)際產(chǎn)品階段。之后由東芝提出的架構(gòu)真正開始實(shí)現(xiàn)可用,然后出現(xiàn)了東芝后續(xù)提出的和三星提出的多種類型的架構(gòu)。
2013年開始出現(xiàn)產(chǎn)品,2013年三星公司在ISSCC大會上發(fā)表了第一個(gè)產(chǎn)品級的3D NAND閃存產(chǎn)品,它是采用24層的TCAT架構(gòu),單個(gè)存儲元2個(gè)比特的結(jié)構(gòu)所構(gòu)成,而后經(jīng)歷了32層,48層,64層,到今年的96層。明年將會是128層,他們普遍采用的是TLC,這是一個(gè)很有意思的特點(diǎn)。而存儲元的比特個(gè)數(shù)也從2比特發(fā)展到最新的4比特。未來單芯片的存儲容量將高達(dá)數(shù)Tb的容量。
剛才講的是從2D到3D發(fā)展過程,下面我們看一下3D存儲介質(zhì)的特征。存儲介質(zhì)可以大致分為兩類,一類是Floating Gate(浮柵)存儲元,一類是Charge Trap(電荷擷?。┐鎯υF渲蠪G存儲元通過在半導(dǎo)體中寄存電子的方式實(shí)現(xiàn)數(shù)據(jù)存儲,氧化層實(shí)現(xiàn)數(shù)據(jù)非易失。而CT存儲元?jiǎng)t是通過絕緣體的方式實(shí)現(xiàn)電子存儲。這個(gè)圖中,我們可以看到FG的尺寸普遍來說,要比CT的大一些。原因在于CT是絕緣體,他對氧化層的厚度要求低很多,所以CT的擴(kuò)展性要比FG好很多。而且由于是絕緣體,他對存儲元間的干擾等都有較好的特性。
從存儲元堆疊方式來看,目前我們調(diào)研發(fā)現(xiàn)比較常用的是兩種架構(gòu),一種是東芝提出的BICS架構(gòu),這種架構(gòu)后續(xù)有一個(gè)改進(jìn)的架構(gòu)叫P-BiCS架構(gòu),這種架構(gòu)是東芝在2007年提出的,另外一種架構(gòu)是有三星提出的TCAT架構(gòu),這種架構(gòu)是有三星在2009年提出的,并在2013年首次推出基于TCAT的24層V-NAND閃存。其他的廠商的還包括Intel,美光,海力士,旺宏以及長江存儲。但是根據(jù)我們的調(diào)研,大部分遵從的架構(gòu)還是以上兩種堆疊方式。當(dāng)然還有一些其他的堆疊方式,比如臺灣旺虹很長時(shí)段都在研究VG(Virtical GATE)堆疊方式。
簡單介紹了3D閃存的組織過程,從存儲元開始,通過堆疊的方式形成Wordline,然后wordline組織形成陣列,最后陣列組織形成芯片。比如這邊就展現(xiàn)的是一個(gè)BICS的架構(gòu),最終構(gòu)建一個(gè)雙Plane的結(jié)構(gòu)。簡單來說,通過這種堆疊的方式形成的3D閃存能夠?qū)崿F(xiàn)存儲密度極大地改善。特別是隨著堆疊層次的提高,密度不斷提高。
隨之而來的就是可靠性問題了。我們關(guān)注的特征主要是四個(gè)方面:一是電子泄露,二是編程干擾,三是讀干擾,四是制程差異。
3D閃存可靠性特征—是電子泄露,初始電子快速逸出,數(shù)據(jù)寫入后10秒內(nèi)會出現(xiàn)一個(gè)快速的電子逸出然后進(jìn)入平穩(wěn)階段,什么原因呢?是由于CT存儲元氧化層較薄,嵌入在CT里面的電子會快速逸出了。第二個(gè)是溫度異常導(dǎo)致的,溫度對可靠性影響會非常大,這是2D和3D的對比,我們可以看到3D閃存對溫度的影響非常激烈,電子電壓的偏離呈現(xiàn)指數(shù)級的波動,溫度是非常難以解決的問題。
二是編程干擾,相對于平面閃存,3D閃存會額外出現(xiàn)兩種新型的編程干擾,一種是Y方向的,一種是XY方向的,最終導(dǎo)致電壓升高,電壓升高的結(jié)果是數(shù)據(jù)翻轉(zhuǎn),這個(gè)工作臺灣旺虹公司和臺灣中央研究院的張?jiān)澜淌谠诖朔矫嬗卸嗄甑难芯俊?/p>
第三,在讀干擾方面,讀數(shù)據(jù)的時(shí)候會在被讀的地方增加一個(gè)電壓,比編程電壓小一點(diǎn),在不斷的讀,次數(shù)超過幾千次、上萬次的時(shí)候就會不小心的往存儲元里面注入一些電子,我們做的一組實(shí)驗(yàn),3D閃存單個(gè)Block,我們做的一個(gè)什么實(shí)驗(yàn)?我們把Word Line,以前一個(gè)Block只會讀100次,而現(xiàn)在要讀到100萬次,也就是讀的干擾增長了1萬次,所以在3D閃存上讀干擾要想盡各種辦法解決。
第四,3D制程差異,第一是閃存塊內(nèi)的制程差異,一個(gè)閃存塊里面的數(shù)個(gè)頁之間可靠性差異高達(dá)數(shù)10倍,3D閃存里面又存在結(jié)構(gòu)性的差異,也就是說不同的層次之間中間存儲層的寬度不一樣,越往上越寬,越往下越窄,這樣就導(dǎo)致可靠性和性能方面存在很大的差異,這些差異必須在系統(tǒng)級進(jìn)行優(yōu)化。這就是我給大家介紹的,要在系統(tǒng)級里面考慮的四個(gè)關(guān)鍵問題。
在3D閃存中,LDPC基本上是標(biāo)配了,很多同事跟我講,我不覺得3D閃存的可靠性比2D差,3D閃存在普通環(huán)境下比2D好很多,但是極端環(huán)境下、高溫環(huán)境下、大量讀寫的環(huán)境下可靠性非常差。LDPC采用的是概率糾錯(cuò)的方式,也就是會根據(jù)存的數(shù)據(jù),最后讀出來能夠分析出數(shù)據(jù)的準(zhǔn)確度到底有多大來確定,這些信息必須經(jīng)過LDPC的一個(gè)解碼過程,這個(gè)過程會導(dǎo)致性能的損傷。
這是ISPP的編程方式,使用不同的編程步幅,可靠性會出問題,LDPC解碼的時(shí)候獲取輸入信息要通過多次尋找這個(gè)電壓在哪個(gè)范圍,只有非常清楚數(shù)據(jù)以后糾錯(cuò)能力才會上來,多次測試的結(jié)果就是要多次的讀,也就是說讀延遲要下降21倍,這還不是最嚴(yán)重的,讀21次產(chǎn)生的是21次讀干擾,也就是說優(yōu)化LDPC成為解決3D閃存可靠性的關(guān)鍵問題。
我們根據(jù)這些特征做了兩個(gè)方面的工作,第一是基于LDPC結(jié)合閃存錯(cuò)誤特征的優(yōu)化,第二是根據(jù)LDPC解碼特征和應(yīng)用訪問行為做的工作。
電壓狀態(tài)之間錯(cuò)誤是非對稱的,實(shí)際上那兩個(gè)狀態(tài)之間的錯(cuò)誤會非常大,這兩個(gè)狀態(tài)之間的錯(cuò)誤非常小,因?yàn)槟莻€(gè)地方輸入的電子非常多,容易泄露,所以那個(gè)地方容易出錯(cuò)。第二,電壓狀態(tài)內(nèi)部錯(cuò)誤非對稱,這個(gè)非對稱是什么意思?
比如說這個(gè)狀態(tài)左偏和右偏的錯(cuò)誤率不一樣,一般右偏是因?yàn)椴翆憯?shù)過多,電壓下降的原因是電子泄露導(dǎo)致的,這種情況下就會出現(xiàn)大量的右偏。所以,保存時(shí)間越長右偏概率就會越長。
我們的做法非常簡單,根據(jù)狀態(tài)之間的差異,比如說這兩個(gè)狀態(tài)之間的錯(cuò)誤率很低,我就沒必要放那么多,根據(jù)左偏右偏的狀態(tài)確定是往那邊多放一點(diǎn)。實(shí)驗(yàn)結(jié)果證明,讀性能在最壞的情況下達(dá)到60%的提升。
這個(gè)工作利用ISPP編程速度的特征進(jìn)行優(yōu)化,這個(gè)圖講的是ISPP編程步幅比較大的時(shí)候可靠性比較差,我們做了一個(gè)實(shí)驗(yàn),用非??斓膶懰俣扰芤幌滦阅艿降自趺礃?,用慢的寫速度跑一下性能怎么樣,最后跑出來發(fā)現(xiàn)什么特點(diǎn)?慢的寫性能寫速度會下降60%,而慢的讀速度會下降114%,這樣就非常嚴(yán)重,我們設(shè)計(jì)了一個(gè)方法,怎么能夠既利用快速寫,也能夠利用快速讀呢?
我們分析了,我們得出來一個(gè)非常驚人的結(jié)果,發(fā)現(xiàn)大部分的讀請求發(fā)生只讀的數(shù)據(jù),大部分寫請求發(fā)生在了只寫的數(shù)據(jù)上來,也就是說這個(gè)數(shù)據(jù)要么只讀,要么只寫,一旦拿到這個(gè)結(jié)果剛才的數(shù)據(jù)就很容易用上,我們發(fā)現(xiàn)有85%的數(shù)據(jù)只讀,91%的請求只寫,其中只有3%的數(shù)據(jù)會交錯(cuò)的讀寫。我們把只讀的數(shù)據(jù)用慢速度寫進(jìn)去,只寫的數(shù)據(jù)用快速度寫。
我們的做法很簡單,就是怎么判斷這個(gè)速度只讀還是只寫,用一個(gè)比特就可以做到這個(gè)工作,判斷上次是讀還是上次是寫,如果上次是讀這是也是讀,我們就認(rèn)為它是只讀,判斷的成功率高達(dá)97%,只需要一個(gè)比特就夠了。通過這樣的簡單方式在幾乎沒有任何開銷的情況下讀性能和寫性能都改善的目標(biāo)。
接下來我介紹一下制程差異,我相信各位比較了解,特別是做消費(fèi)級產(chǎn)品的朋友,你們應(yīng)該也了解到制程差異是一個(gè)嚴(yán)重的問題,無論是企業(yè)的MLC的,還是消費(fèi)級的,都存在嚴(yán)重的制程差異,有人可能會覺得我是危言聳聽。不同的block之間差異非常大,學(xué)術(shù)界也測了數(shù)據(jù),嚴(yán)重的情況下有數(shù)10倍的可靠性差異,這種差異必須要在設(shè)計(jì)的過程中充分考慮怎么利用起來,我了解到華為內(nèi)部以及IBM和三星都有相應(yīng)的測試,我們基于制程差異改變寫性能的優(yōu)化方案,在有較大制程差異的情況下,能否實(shí)現(xiàn),我們的做法很簡單。在較強(qiáng)的編程步幅里面使用,怎么做到的?我們提出了兩個(gè)問題,
第一,怎么制程差異是閃存的固有屬性,如何能夠在線識別?基于編程速度支持的識別方法。
第二,基于分級的數(shù)據(jù)分配方法,將熱數(shù)據(jù)分配到較強(qiáng)的閃存塊,冷數(shù)據(jù)分配到較弱的閃存塊里面。是讀性能怎么優(yōu)化?主要考慮到LDPC的特征,這是現(xiàn)在普遍的,如果有嚴(yán)重PV的情況下,傳統(tǒng)數(shù)據(jù)的布局完全不會考慮到底是放在哪里的,會將熱寫的數(shù)據(jù)放在,我們是將一些熱讀的數(shù)據(jù)放在,傳統(tǒng)的方法在讀性能上的表現(xiàn)是這樣的,我們的方法讀性能的表現(xiàn)是這樣的。因?yàn)槲覀兗骖櫫藷嶙x數(shù)據(jù)應(yīng)該布局在什么地方的方法。識別制程差異,基本思想:基于LDPC的讀Ertry的差異在線識別方法,將retry,我們進(jìn)行了分組的方式,實(shí)驗(yàn)只用了兩個(gè)組就可以達(dá)到高達(dá)60%性能的改善?;谥瞥滩町愄卣鞯臄?shù)據(jù)分布,基本思想:將熱讀的數(shù)據(jù)放入較強(qiáng)的閃存塊,將較冷的數(shù)據(jù)放入較弱的閃存塊。但是判斷數(shù)據(jù)讀的冷熱需要較大的開銷。我們采用了數(shù)據(jù)在線冷熱的自動識別法,這是以上四個(gè)工作涉及到的學(xué)術(shù)論文。
總結(jié)與展望,3D閃存將在不同的領(lǐng)域,包括多媒體終端、消費(fèi)級產(chǎn)品、個(gè)人電腦以及大數(shù)據(jù)服務(wù)中心廣泛應(yīng)用。解決3D閃存可靠性是進(jìn)一步推廣3D閃存應(yīng)用領(lǐng)域發(fā)展的關(guān)鍵,結(jié)合機(jī)器學(xué)習(xí)的3D閃存可靠性優(yōu)化將成為更具優(yōu)勢的思路。未來包括3DXpoit、STT—RAM等新興的非易失性存儲將將會廣泛結(jié)合3D閃存成為重要的方向。
?最后,給大家介紹一下我本人的情況,我研究存儲技術(shù)到今天為止已經(jīng)整整10年了,從2008年到現(xiàn)在重點(diǎn)關(guān)注的就是閃存存儲技術(shù)的研究。主要分成四個(gè)方面:存儲可靠性關(guān)鍵技術(shù)研究、高性能固態(tài)存儲系統(tǒng)研究、智能手機(jī)存儲系統(tǒng)研究,新型非易失性存儲技術(shù)研究。
歡迎各位友商朋友們與我們合作,謝謝大家!