“2025人工智能基礎(chǔ)設(shè)施峰會”會場

固態(tài)存儲已在各類云計算、大模型場景廣泛部署核心存儲設(shè)備。

數(shù)據(jù)智能技術(shù)應(yīng)用分論壇現(xiàn)場

在下午召開的數(shù)據(jù)智能技術(shù)應(yīng)用論壇上,華東師范大學教授、博士生導師,上海市青年科技啟明星石亮以“大規(guī)模固態(tài)存儲盤故障預測及部署”為題,介紹了一種智能化的故障預測方法和部署過程中的優(yōu)化技術(shù)實現(xiàn)預測準確率的大幅提升的同時,實現(xiàn)性能影響最小化。

華東師范大學博士生導師,上海市青年科技啟明星石亮教授

以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。

石亮教授:

尊敬的各位來賓,大家好!我是華東師范大學大數(shù)據(jù)智能系統(tǒng)實驗室的石亮。非常榮幸能在這次人工智能基礎(chǔ)設(shè)施峰會上,與大家分享我們在大規(guī)模固態(tài)存儲盤故障預測及部署優(yōu)化技術(shù)方面的研究成果。

大規(guī)模閃存存儲系統(tǒng)背景

在當今數(shù)字化時代,閃存存儲設(shè)備已經(jīng)廣泛應(yīng)用于數(shù)據(jù)中心、消費電子等各類場景,成為現(xiàn)代存儲系統(tǒng)的核心組成部分。從2008年我開始研究閃存存儲系統(tǒng)至今,見證了閃存技術(shù)的飛速發(fā)展,其發(fā)展趨勢主要體現(xiàn)在三個維度:一是從2D到3D再到4D的架構(gòu)演進;二是堆疊層數(shù)的顯著增加,從24層提升至300層;三是每單元多比特技術(shù)的不斷成熟。這些進步使得閃存具備了輕便、高性能、低功耗等顯著優(yōu)勢,推動了全閃存化在數(shù)據(jù)中心等場景的大規(guī)模部署。

隨著閃存技術(shù)的持續(xù)演進,SSD介質(zhì)正朝著存儲高密度的方向發(fā)展,加速替代傳統(tǒng)的HDD介質(zhì)。在人工智能、大數(shù)據(jù)等全場景中,閃存能夠提供更高效、更安全的存儲能力,并且使用成本也不斷降低。預計到2026年,國內(nèi)企業(yè)級固態(tài)硬盤市場規(guī)模將增至669億元,2022-2026年期間復合增速約為23.7%,而PCIe固態(tài)硬盤市場份額比例將在2026年進一步增至89.3%。

然而,在大規(guī)模部署閃存存儲設(shè)備的過程中,硬件故障問題日益凸顯。數(shù)據(jù)中心全閃陣列的年故障率可以達到約2.5%,而QLC等新型閃存設(shè)備的故障率可能更高。設(shè)備一旦出現(xiàn)故障,可能導致數(shù)據(jù)丟失等嚴重后果,傳統(tǒng)的多備份方案雖然可以解決數(shù)據(jù)丟失問題,但卻帶來了高昂的開銷和性能下降。因此,學術(shù)界和企業(yè)界普遍采用故障預測和恢復機制相結(jié)合的方案來應(yīng)對這一挑戰(zhàn)。

差異化的機器學習SSD故障預測研究

為了提前預知SSD故障,我們開展了一系列基于機器學習的研究工作。整個研究過程包括數(shù)據(jù)收集、數(shù)據(jù)預處理、特征選擇和模型搭建等關(guān)鍵步驟。

(一)數(shù)據(jù)收集與預處理

我們從華為數(shù)據(jù)中心收集了超過20萬個SSD設(shè)備的長期運行數(shù)據(jù),時間跨度從2017年10月至2021年9月。這些數(shù)據(jù)按照NAND類型、容量分為六類,SMART信息則從固有屬性、錯誤相關(guān)、工作負載、持續(xù)時間及磨損等不同角度進行分類。在數(shù)據(jù)預處理階段,我們對收集到的數(shù)據(jù)集進行了清洗、歸一化等操作,以確保數(shù)據(jù)的質(zhì)量和一致性,為后續(xù)的模型訓練奠定基礎(chǔ)。

(二)特征選擇與模型搭建

通過分析不同類型的SSD設(shè)備,我們發(fā)現(xiàn)MLC和TLC等不同固態(tài)存儲設(shè)備的失效特征存在顯著差異。例如,MLC的出廠壞塊數(shù)量通常比TLC少,但其部署的應(yīng)用類型可能導致其更容易出現(xiàn)故障?;谶@些觀察結(jié)果,我們提出了差異化的機器學習解決方案。該方案將SSD設(shè)備根據(jù)負載類型、使用時間、部署時間、容量、類型等因素進行分類,構(gòu)建不同的模型進行故障預測。同時,我們引入了回溯周期和恢復周期的概念,以便更全面地捕捉設(shè)備的故障特征。

(三)實驗結(jié)果與性能評估

實驗結(jié)果表明,我們的差異化機器學習方案在故障預測方面取得了顯著的性能提升。以隨機森林算法為例,當召回率達到0.91時,精確度可以保持在0.81,相比較傳統(tǒng)方法,查準率提升了約0.4,查全率提升了約0.35。這一結(jié)果遠超現(xiàn)有數(shù)據(jù),達到了可以商用的目標。

基于預測備份的RAID快速恢復技術(shù)

在故障恢復方面,傳統(tǒng)的RAID恢復機制存在占用計算資源、影響服務(wù)且速度較慢等問題。為此,我們提出了一種基于預測備份的RAID快速恢復技術(shù)。

(一)技術(shù)原理與實現(xiàn)過程

該技術(shù)的核心思想是提前預測故障設(shè)備,并在故障發(fā)生前生成鏡像設(shè)備。具體實現(xiàn)過程如下:首先,預測算法識別出可能故障的正樣本設(shè)備;然后,預恢復機制使用備用設(shè)備與正樣本設(shè)備組成RAID1陣列,在不影響正樣本設(shè)備正常運行的情況下進行數(shù)據(jù)備份;在觀察期間,RAID1在上層RAID5中作為單個設(shè)備運行,攜帶正樣本設(shè)備上的數(shù)據(jù),等待設(shè)備故障;最后,在正樣本設(shè)備發(fā)生故障后,移除故障設(shè)備,保留鏡像設(shè)備,從而實現(xiàn)快速恢復。

(二)實驗結(jié)果與性能優(yōu)化

實驗結(jié)果表明,基于預測備份的RAID快速恢復技術(shù)在性能方面表現(xiàn)出色。在預恢復過程中,前臺工作負載的吞吐量下降不超過正常吞吐量的93%,而鏡像生成過程對前臺工作負載的影響也較小。相比之下,傳統(tǒng)故障后恢復機制會導致性能大幅下降,隨機讀吞吐量和順序讀取吞吐量分別下降到正常吞吐量的23.4%和23.9%。此外,通過調(diào)整模型參數(shù),我們可以在不同的準確率和召回率之間進行權(quán)衡,以滿足實際應(yīng)用場景的需求。

總結(jié)與未來展望

總結(jié)而言,我們的研究工作通過差異化的多模型訓練和基于預測備份的RAID快速恢復技術(shù),有效解決了大規(guī)模閃存存儲系統(tǒng)中的故障預測和恢復問題。在70萬塊SSD設(shè)備的規(guī)模下,年故障率為2.23%的情況下,我們的方案能夠顯著提升故障預測的準確性和召回率,并在故障恢復過程中保障系統(tǒng)的性能和服務(wù)能力。

展望未來,我們將繼續(xù)深化在大規(guī)模存儲系統(tǒng)故障預測與恢復領(lǐng)域的研究。一方面,我們將致力于精細化數(shù)據(jù)匯聚,從多個數(shù)據(jù)中心和供應(yīng)商收集更廣泛的數(shù)據(jù),豐富數(shù)據(jù)集的多樣性和時間跨度;另一方面,我們將研發(fā)更先進的模型,提升預測精度、擴展預測時間范圍,并增強模型的通用性,使其適用于不同品牌和型號的SSD。此外,我們還將推動智能化方案的實施與監(jiān)控,實現(xiàn)故障預測模型的實時監(jiān)測與預警,并通過持續(xù)收集運行數(shù)據(jù),不斷優(yōu)化和改進模型,為大規(guī)模固態(tài)存儲系統(tǒng)的可靠性和穩(wěn)定性提供更有力的保障。

以上就是我們在這次峰會上的分享,感謝各位的聆聽!

分享到

xiesc

相關(guān)推薦