在閃存可靠性與測試技術(shù)分論壇中,論壇主席華中科技大學(xué)武漢光電國家實驗室吳非博士在開場時指出,數(shù)據(jù)是基礎(chǔ),存儲是基石,閃存作為數(shù)據(jù)存儲的主流介質(zhì),其可靠性技術(shù)與測試技術(shù)不可或缺,同時為數(shù)據(jù)存儲的安全性和可靠性保駕護航。現(xiàn)在我們來聽一聽學(xué)術(shù)界,國內(nèi)外測試機構(gòu)專家學(xué)者,以及企業(yè)代表為我們帶來的精彩內(nèi)容。

山東大學(xué)信息科學(xué)與工程學(xué)院陳杰智教授發(fā)表了題為《3D NAND閃存存儲器的可靠性》的主題演講。先介紹了后摩爾時代NAND閃存存儲器現(xiàn)狀,然后結(jié)合自身經(jīng)驗梳理了從系統(tǒng),電路,到器件、材料等方面去考量3D NAND的高可靠性以及建立可靠性體系的重要性。陳教授指出,NAND從平面到立體的架構(gòu)確實是存儲密度與性能的巨大飛躍,但高可靠性3D閃存存儲器研發(fā)需要基于其特殊工藝和設(shè)計建立從材料到系統(tǒng)一整套體系,包括解決可靠性測量,器件仿真、TCAD仿真模型,控制可靠性缺陷等問題。

關(guān)于NAND從2D到3D的可靠性話題。我們所關(guān)心的可靠性在兩個層面,用戶層面看的是價格、容量和壽命,性能,但這只是冰山一角。實際上從底層公司研發(fā)層面來看,最難的是工藝制程,雖然在工藝控制上3D NAND將平面光刻機技術(shù)核心環(huán)節(jié)去掉了,但成膜過程中很多環(huán)節(jié)難以把控,其中還涉及NAND良品率的問題。高可靠性的的核心課題還包括:

Data Retention(數(shù)據(jù)保存特性):來源于TNL/IPD中存在缺陷相關(guān)的”導(dǎo)電通道”,能使閾值電壓降低,發(fā)生Vth負向偏移;

Program Disturb(編程干擾):第一部分發(fā)生于同一BL上的存儲單元,在VPASS電場下電子借由漏電流通過隧穿層進入浮柵層,使閾值電壓發(fā)生正向偏移。另外一部分發(fā)生于同一WL上的存儲單元,低電場漏電流的誤寫入將帶來Vth正向偏移;

Read Disturb(寫入干擾):來源于VPASS下的TNL漏電流,能使閾值電壓發(fā)生正向偏移,VPASS電壓越大錯誤率會越高;

Intel-cell interference:隨著存儲單元尺寸變小,單元之間的寄生電容耦合越來越強,導(dǎo)致了存儲單元之間的干涉效應(yīng)ICI);

Random Telegraph Noise:電荷隧穿層中存在的缺陷會造成RTN噪聲,導(dǎo)致讀出數(shù)據(jù)的準(zhǔn)確率降低,并使存儲單元閾值電壓分布變寬。

國家計算機質(zhì)監(jiān)中心存儲測評實驗室陽小珊主任發(fā)表了《閃存的質(zhì)量特性及測試與評價》的主題演講,指出測試是保障產(chǎn)品質(zhì)量的重要手段,是發(fā)現(xiàn)產(chǎn)品問題、提升產(chǎn)品質(zhì)量的重要方法。他還介紹了閃存質(zhì)量與產(chǎn)業(yè)鏈的關(guān)系,閃存及其測試的現(xiàn)狀,閃存的質(zhì)量特性,測試與評價。

在談及閃存產(chǎn)品的測試現(xiàn)狀時,陽小珊主任表示,國內(nèi)的重點是國家認監(jiān)委和認可委管理,標(biāo)準(zhǔn)化和專業(yè)化較強,管控國內(nèi)數(shù)千家實驗室。

而測試所需的人、機、料、法、環(huán)是主要的因素,但閃存領(lǐng)域相關(guān)產(chǎn)品測試還是不太樂觀。首先是測試人員稀缺,包括華中科技大學(xué)出來的學(xué)生做測試,或者企業(yè)里面做測試的,都非常少。再就是機器,目前的重點是國內(nèi)閃存的測試工具和設(shè)備不太完善。有相關(guān)包括芯片的專業(yè)底層設(shè)備都是非常昂貴的。而在環(huán)境方面,實驗室服務(wù)平臺并未建立,國內(nèi)很多企業(yè)產(chǎn)品做出來,可能需要送到國外去測試。

IOL實驗室高級工程師, 數(shù)據(jù)中心技術(shù)專家David Woolf發(fā)表了《NVMe合規(guī)性和互操作性計劃》的主題演講。David首先介紹了與UNH(新罕布什爾大學(xué)

)-IOL(InterOperability Laboratory)的NVMe集成商項目,并指出了其測試要求,工具以及實驗室未來發(fā)展。

目前IL互操作性和一致性相關(guān)要求如圖:

在這里David特別指出,近期UNH-IOL與華中科技大學(xué)合作,首次在中國落地NVMe互操作性測試,有15家企業(yè)參加了NVMe SSD測試。

Memblaze首席架構(gòu)師孫清濤分享了如何驗證閃存特性并進行協(xié)同設(shè)計保證閃存數(shù)據(jù)存儲的可靠性。孫總講述了NAND自身的特點,而Memblaze針對這一問題構(gòu)建了Memblaze NAND特性測試平臺。

Memblaze NAND特性測試包括性能,電壓分布,閾值電壓矯正,Read Retry優(yōu)選,Read Disturb,未滿Block問題,NAND故障診斷工具以及固件協(xié)同設(shè)計。

Memblaze在固件設(shè)計過程中采用了多核處理器,每個處理器有自己的任務(wù),通過驗證平臺發(fā)現(xiàn)了以上參數(shù)的重要性。受益有兩個方面,一是性能受益,二是壽命受益,也形成了硬判決,軟判決兩種能力。我們希望所有的錯誤在硬判決區(qū)域搞定,這樣性能是最好的。而軟判決涉及到壽命,單純從控制性能來說還是希望在這時候有壽命受益。基于這個驗證平臺的測試結(jié)果,Memblaze得到了好的預(yù)期,也證實了測試平臺在項目初期完成的重要性。

紫光德瑞孫麗華博士分享了如何構(gòu)建可編程的閃存仿真系統(tǒng),圍繞閃存控制器,利用可編程的閃存系統(tǒng)驗證閃存控制器,完善閃存控制器的設(shè)計。閃存仿真模塊是受主機控制中心控制的,主機控制中心通過發(fā)送相應(yīng)的配制,完成對接口的配制,以及閃存內(nèi)部異常狀態(tài)模擬,然后去完成相應(yīng)的命令執(zhí)行。由于需要模擬各種各樣的閃存,模擬閃存命令,執(zhí)行閃存的狀態(tài),閃存仿真模塊在后臺擁有強大的數(shù)據(jù)庫支持。

市場上主流SSD控制器從功能上分為前中后三部分,后端就是閃存控制器。閃存控制器的好壞,決定了整個SSD控制器的成敗,我們針對閃存控制器介紹可編程閃存仿真系統(tǒng),以及其中最重要的部分——基于仿真學(xué)習(xí)。

閃存仿真模塊中最為重要的是基于深度學(xué)習(xí)的比特翻轉(zhuǎn)發(fā)生器,這需要大量的原始數(shù)據(jù)去訓(xùn)練,比如收集不同廠商顆粒,在不同條件下包括不同PE,不同retention,不同配制類型,或不同read cell等條件下真實錯誤分配情況,然后建立深度學(xué)習(xí)模型,通過數(shù)據(jù)調(diào)整參數(shù)反復(fù)訓(xùn)練模型,最終達到能夠預(yù)測結(jié)果的目的,能夠大大提高我們的驗證效率,并降低驗證成本。

Trust-tek公司技術(shù)支持經(jīng)理蔣伸億分享了新RWSW(真實世界存儲工作負載)測試方法論——通過軟硬件測試新方法探索負載測試的分析。

真實世界工作負載是在一個特定時間區(qū)間內(nèi),部署的服務(wù)器里,特定軟件堆棧級別上發(fā)生的IO流集合,是由許多IO流和隊列深度的不斷變化組合而成。IO流是通過實際應(yīng)用程序,操作系統(tǒng),抽象軟件以及使用者行為而產(chǎn)生,在經(jīng)過軟硬件堆棧時發(fā)生改變,因此真實工作負載每一秒都會有很大的變化。

我們先來了解一下真實工作負載的重要性。我們希望透過真實業(yè)務(wù)的獲取,了解真實業(yè)務(wù)的壓力如何發(fā)生,并分析出真實工作負載和合成的差異點在哪里,通過差異點的發(fā)現(xiàn)提升存儲系統(tǒng)的性能。

這是軟件的堆疊,這些IO在不斷改變,主要是因為在整體存儲系統(tǒng)服務(wù)器上的架構(gòu)有軟件堆疊。從上面的應(yīng)用層自上而下必須經(jīng)過很長的路徑,包括通過軟件堆疊層,然后到達硬件層有HBA卡,再分配到存儲裝置(可能是固態(tài)盤或者PCI盤)。分包到固態(tài)盤的時候經(jīng)過的路徑很多,而為了讓系統(tǒng)做快速返回,我們會有分析壓縮率或者重復(fù)寫入的速率。

并且這么多路徑從單塊逐個分包下去,還有不同的軟件進行功能處理。包括會做加密,或者是重復(fù)數(shù)據(jù)閃存,或者是壓縮,這些行為都會對模塊大小造成很大影響。所以真實工作負載非常復(fù)雜,這也是為什么盤在真實應(yīng)用執(zhí)行的時候會造成性能降低的問題。

分享到

崔歡歡

相關(guān)推薦