Checkpointing通過選擇性存儲中間激活值而非全部參數(shù),在反向傳播時重新計算丟失的激活值,從而減少內(nèi)存占用。這一技術(shù)雖能“省空間”,卻需付出額外計算成本的代價,其優(yōu)化路徑成為全球AI研究者的核心課題。

文字編輯| 宋雨涵

1

技術(shù)解析

Checkpointing的“得與失”

1. 激活檢查點(Activation Checkpointing)

在大型語言模型(LLM)微調(diào)中,激活檢查點通過僅保存關(guān)鍵層激活值,將內(nèi)存占用降低40%-60%。例如,訓練千億參數(shù)模型時,若采用傳統(tǒng)方法需128GB顯存,激活檢查點僅需48GB。但代價是反向傳播時需重新計算丟失的激活值,導致訓練時間增加30%-50%。

2. 梯度檢查點(Gradient Checkpointing)

針對深度網(wǎng)絡(>100層),梯度檢查點通過犧牲部分前向計算效率,換取內(nèi)存空間的釋放。實驗顯示,其在訓練70B參數(shù)模型時,顯存占用從192GB降至96GB,但訓練時間延長18%。

3. 行業(yè)痛點:規(guī)?;瘧玫奶魬?zhàn)

數(shù)據(jù)傳輸瓶頸

數(shù)據(jù)傳輸瓶頸:跨節(jié)點訓練時,檢查點數(shù)據(jù)傳輸延遲占整體訓練時間的15%-25%;

容錯能力不足

節(jié)點故障導致的全局檢查點重傳,可能引發(fā)“雪崩效應”

索引結(jié)構(gòu)低效

傳統(tǒng)哈希表索引在千億級參數(shù)場景下查詢效率下降60%。

2

殷樹教授的破局之道:

Portus方法的技術(shù)突破

在2025人工智能基礎(chǔ)設(shè)施峰會-智能算力前沿技術(shù)論壇上殷樹教授將分享其在面向大規(guī)模神經(jīng)網(wǎng)絡檢查點(Checkpointing)方面的最新研究成果,介紹名為Portus的優(yōu)化方法。

殷樹教授將帶來如何通過優(yōu)化的數(shù)據(jù)傳輸路徑和索引結(jié)構(gòu),提升DNN檢查點的效率,并為大規(guī)模模型訓練提供高效的容錯解決方案,深入探討如何通過技術(shù)創(chuàng)新提升神經(jīng)網(wǎng)絡訓練的效率和可靠性。歡迎您參會交流。

專家簡介

殷樹,上海科技大學長聘副教授(tenured),博士生導師,MHPC聯(lián)合實驗室主任。長期從事并行與分布式文件系統(tǒng)、高性能計算系統(tǒng)等研究工作。研究成果發(fā)表于TPDS,TDSC,SC,SoCC,ICDCS,ICPP等多個高水平期刊會議。殷樹教授曾多次受邀參與DOIT主辦的全球閃存峰會等行業(yè)大會,其研究成果受到業(yè)界的廣泛關(guān)注。

寫在最后

在人工智能的星辰大海中,Checkpointing技術(shù)如同航海圖上的經(jīng)緯線,看似靜默無聲,卻指引著整個艦隊的前進方向。當我們在驚嘆AI模型的驚人表現(xiàn)時,不應忘記背后這些”隱形工程師”的耕耘。2025人工智能基礎(chǔ)設(shè)施峰會,讓我們共同期待殷樹教授揭開神經(jīng)網(wǎng)絡訓練優(yōu)化的新篇章——這不僅是對技術(shù)的探索,更是對智能文明演進規(guī)律的深刻洞察。

分享到

lixiangjing

算力豹主編

相關(guān)推薦