“2025人工智能基礎(chǔ)設(shè)施峰會”會場
在下午召開的數(shù)據(jù)智能技術(shù)應(yīng)用論壇上,上海交通大學(xué)計算機科學(xué)與工程系教授、博士生導(dǎo)師,國家級青年人才、國家重點研發(fā)計劃首席科學(xué)家、CCF體系結(jié)構(gòu)專委會常委,上海市計算機學(xué)會存儲專委會主任吳晨濤發(fā)表主題為“面向大模型應(yīng)用的內(nèi)存故障容錯技術(shù)”的精彩報告,從內(nèi)存故障預(yù)測與檢查點等技術(shù)入手,介紹他和他的已經(jīng)研究團隊如何通過主被動容錯方法,保障大模型系統(tǒng)的可靠性。發(fā)表主題為“面向大模型應(yīng)用的內(nèi)存故障容錯技術(shù)”的精彩報告,從內(nèi)存故障預(yù)測與檢查點等技術(shù)入手,介紹他和他的已經(jīng)研究團隊如何通過主被動容錯方法,保障大模型系統(tǒng)的可靠性。
數(shù)據(jù)智能技術(shù)應(yīng)用分論壇現(xiàn)場
以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。
上海交通大學(xué)計算機科學(xué)與工程系教授、博士生導(dǎo)師,國家級青年人才、國家重點研發(fā)計劃首席科學(xué)家、CCF體系結(jié)構(gòu)專委會常委,上海市計算機學(xué)會存儲專委會主任吳晨濤
吳晨濤:
大家好,我是來自上海交通大學(xué)的吳晨濤。今天,我將圍繞“面向大模型應(yīng)用的內(nèi)存故障容錯技術(shù)”這一主題,與大家分享我們在內(nèi)存故障預(yù)測與容錯技術(shù)方面的最新研究成果。
研究背景與發(fā)現(xiàn)
隨著云計算、大數(shù)據(jù)等系統(tǒng)的快速擴展和規(guī)模日益增大,內(nèi)存系統(tǒng)的可靠性已成為影響整個系統(tǒng)運行的重要因素。京東云的調(diào)查表明,內(nèi)存故障占數(shù)據(jù)中心硬件故障的37%。在AIGC算力快速部署的當(dāng)下,內(nèi)存可靠性面臨著更為嚴(yán)峻的挑戰(zhàn)。
在大模型訓(xùn)練中,內(nèi)存故障問題尤為突出。以Meta公司為例,其利用992張A100集群訓(xùn)練175B參數(shù)模型,在3個月的訓(xùn)練時長中,系統(tǒng)重啟超過100次,最長穩(wěn)定運行時間僅為2.8天,最長中斷達(dá)2天,平均中斷時長12小時,其中硬件故障占50%。若以ETTR(有效訓(xùn)練時間比率)衡量,GPU越多,ETTR值越低,萬卡集群平均有效運行時間僅占正常時間的70%。隨著DeepSeek等大模型應(yīng)用的廣泛使用,內(nèi)存可靠性的挑戰(zhàn)只會增多,不會減少。
內(nèi)存故障預(yù)測
內(nèi)存故障預(yù)測是智能運維系統(tǒng)(AIOps)的重要組成部分,谷歌、微軟、華為、阿里等公司均致力于發(fā)展內(nèi)存故障預(yù)測技術(shù)。內(nèi)存故障模式多樣,包括單點錯誤模式、行錯誤模式、列錯誤模式和無序錯誤模式等。內(nèi)存一般配有ECC編碼,若錯誤在編碼容忍范圍內(nèi),可糾正回來,稱為CE(CorrectableError);若錯誤超出編碼容錯能力,則稱為UC/UCE(UncorrectableError)。
內(nèi)存故障模式種類繁多,故障原因多樣,給故障預(yù)測帶來了很大難度。我們與華為合作,從row、col、bank三個維度進行三維空間分析,針對發(fā)生故障的所有內(nèi)存單元進行跟蹤,分析三維模型。以24小時為周期劃分每個bank力度上的UE和CE信息,觀察其時間規(guī)律,并以紅、藍(lán)、綠三色進行標(biāo)注,發(fā)現(xiàn)row、column、bank這三個維度的內(nèi)存故障均呈現(xiàn)非常明顯的時間和空間局部性。
影響內(nèi)存故障的主要因素包括DIMM架構(gòu)、DRAM光刻疊層工藝、系統(tǒng)負(fù)載和平臺架構(gòu)等。內(nèi)存故障與內(nèi)存介質(zhì)、內(nèi)存訪問特性相關(guān)度極高,且內(nèi)存對延遲要求極為敏感,因此對故障預(yù)測的要求更高。
基于以上分析,我們與華為合作,針對大規(guī)模華為云集群環(huán)境中的內(nèi)存故障預(yù)測展開研究。通過對12萬臺服務(wù)器、近200萬條內(nèi)存故障日志的分析,我們發(fā)現(xiàn)不同架構(gòu)平臺的內(nèi)存故障特性存在顯著差異。例如,在x86架構(gòu)的服務(wù)器中,只發(fā)生UE的內(nèi)存比例約為11%,而在Arm架構(gòu)下則僅為4%,約為x86的1/3。進一步研究發(fā)現(xiàn),Arm服務(wù)器在ECC編碼中保留了更多的奇偶校驗位,使得其在4bit位寬時能達(dá)到Chipkill級性能,但在8bit位寬時難以應(yīng)對大量錯誤,導(dǎo)致錯誤率急劇上升。
此外,我們還分析了內(nèi)存故障的可預(yù)測性。研究發(fā)現(xiàn),Arm架構(gòu)在較短提前時間(如6小時)內(nèi),可預(yù)測UE的生存函數(shù)概率值略高于x86服務(wù)器,但在較長提前時間(如24小時)內(nèi),x86架構(gòu)表現(xiàn)出更高比例的可預(yù)測UE。同時,x86和Arm平臺之間CE與UE的關(guān)系也存在差異,x86服務(wù)器在出現(xiàn)不可糾正錯誤前,通常會有大量可糾正錯誤,而Arm服務(wù)器則表現(xiàn)不一致,這可能與其風(fēng)暴抑制功能有關(guān),該功能雖然增強了系統(tǒng)穩(wěn)定性,卻減少了用于故障預(yù)測的錯誤數(shù)據(jù)量。
針對內(nèi)存故障成因復(fù)雜的特點,我們采用了特征工程方法,兼顧時間局部性、空間局部性等多方面特征,包括靜態(tài)特征、空間特征、時間特征、類型特征、故障位特征等,構(gòu)建了統(tǒng)一的針對大規(guī)模異構(gòu)集群的內(nèi)存故障預(yù)測與分級容錯架構(gòu)。該架構(gòu)從DIMM級、服務(wù)器級、頁面級、行級分別進行粗粒度和細(xì)粒度的故障預(yù)測,并針對故障預(yù)測結(jié)果設(shè)計了相應(yīng)的容錯機制:一是針對服務(wù)器的虛擬機或容器進行熱遷移;二是對對應(yīng)內(nèi)存的頁面進行軟下線;三是對風(fēng)險區(qū)域進行數(shù)據(jù)保護和降級使用。
實驗結(jié)果
我們在系統(tǒng)中提供了針對DIMM級以及行級、頁級雙視角的內(nèi)存故障預(yù)測方法,結(jié)合XGBoost等算法,取得了較好的效果。在x86平臺,實現(xiàn)了51%的精準(zhǔn)率和81%的覆蓋率;而在Arm平臺,由于其風(fēng)暴抑制和奇偶校驗位等功能導(dǎo)致缺少細(xì)粒度故障信息,內(nèi)存故障預(yù)測性能相對較低。
進一步的實驗分析了不同提前時間下預(yù)測性能的變化,發(fā)現(xiàn)無論是提前1秒、5秒、1分鐘、5分鐘、1小時還是6小時等,均能達(dá)到一定的預(yù)測效果。這些成果已在華為云中進行了部分落地應(yīng)用。
針對x86和Arm架構(gòu)的差異,我們測試了不同因素對這兩個平臺內(nèi)存故障預(yù)測性能的影響。在x86架構(gòu)中,bitlevel的CE特征占主導(dǎo)地位,去除該特征會導(dǎo)致性能顯著下降;而在Arm架構(gòu)中,靜態(tài)特征、局部特征和空間特征等對預(yù)測性能均有不同程度的影響,其中空間特征的影響最大。整體而言,在Arm架構(gòu)上進行內(nèi)存故障預(yù)測更具挑戰(zhàn)性。
我們將容錯機制在華為云集群中進行了大規(guī)模部署,取得了顯著收益。部署后,平均降低了上層虛擬機業(yè)務(wù)故障率27%;采用第二級容錯時,可多避免110.6%的內(nèi)存UE,但開銷僅為Linux內(nèi)存默認(rèn)方案的92.4%;在集群運行過程中,共有15.6%的內(nèi)存容量被軟下線,通過三級容錯策略,重新釋放了其中78.65%的容量,剩余11.68%的重復(fù)出現(xiàn)UE的區(qū)域,皆被TierIII恢復(fù)數(shù)據(jù),避免了OS進程掛死。
總結(jié)與展望
我們針對內(nèi)存故障預(yù)測問題開展了深入研究,特別是針對大規(guī)模集群的硬件故障,通過特征工程方法構(gòu)建了DIMM/行列級分級容錯機制,有效降低了上層虛擬機業(yè)務(wù)的故障率,保障了大規(guī)模系統(tǒng)的穩(wěn)定性,為AIGC技術(shù)的發(fā)展提供了有力支持。
未來,我們將進一步拓展研究方向。一方面,將故障預(yù)測與大模型的Checkpoint機制相結(jié)合,構(gòu)建主被動分級容錯技術(shù),以更好地保障AI應(yīng)用的可靠性;另一方面,深入研究存儲子系統(tǒng)容錯技術(shù),探討DRAM、PM、SSD/HDD等設(shè)備故障之間的相關(guān)性,并進一步探究內(nèi)存故障對上層應(yīng)用業(yè)務(wù)的影響范圍。此外,隨著CXL等相關(guān)技術(shù)的實施,我們還將研究針對CXL-DRAM/PM等的故障預(yù)測技術(shù),為構(gòu)建大規(guī)模內(nèi)存池提供技術(shù)支持。
以上就是我的報告,謝謝大家!