亚洲国产av一区二区三区四区,久久视频在线观看免费

“2025人工智能基礎(chǔ)設(shè)施峰會(huì)”會(huì)場(chǎng)

AI技術(shù)飛速演進(jìn)的當(dāng)下，神經(jīng)網(wǎng)絡(luò)模型的規(guī)模和復(fù)雜度不斷攀升，對(duì)訓(xùn)練過(guò)程中的效率和容錯(cuò)能力提出了更高要求。應(yīng)對(duì)這一挑戰(zhàn)，上海科技大學(xué)研究員、博導(dǎo)殷樹(shù)教授團(tuán)隊(duì)開(kāi)展了相關(guān)研究工作，在面向大規(guī)模神經(jīng)網(wǎng)絡(luò)的檢查點(diǎn)（Checkpointing）方面取得進(jìn)展。

在2025人工智能基礎(chǔ)設(shè)施峰會(huì)-智能算力前沿技術(shù)論壇，殷樹(shù)教授以”面向神經(jīng)網(wǎng)絡(luò)的探索與優(yōu)化”為題，分享其在面向大規(guī)模神經(jīng)網(wǎng)絡(luò)檢查點(diǎn)方面的最新研究成果，介紹名為Portus的優(yōu)化方法，如何通過(guò)優(yōu)化的數(shù)據(jù)傳輸路徑和索引結(jié)構(gòu)，提升DNN檢查點(diǎn)的效率，并為大規(guī)模模型訓(xùn)練提供高效的容錯(cuò)解決方案，深入探討如何通過(guò)技術(shù)創(chuàng)新提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練的效率和可靠性。

智能算力前沿技術(shù)論壇現(xiàn)場(chǎng)

上?？萍即髮W(xué)研究員、博導(dǎo)殷樹(shù)教授

隨著深度學(xué)習(xí)模型規(guī)模的持續(xù)增長(zhǎng)（例如PaLM模型已達(dá)到5400億參數(shù)），訓(xùn)練過(guò)程中的容錯(cuò)需求變得愈發(fā)重要。Checkpointing技術(shù)雖然能夠通過(guò)定期保存模型狀態(tài)來(lái)實(shí)現(xiàn)故障恢復(fù)，但在當(dāng)前3D并行訓(xùn)練框架下面臨著數(shù)據(jù)量指數(shù)增長(zhǎng)、存儲(chǔ)效率低下和傳輸開(kāi)銷(xiāo)過(guò)大等核心挑戰(zhàn)?，F(xiàn)有解決方案如CheckFreq需要消耗高達(dá)33%的訓(xùn)練時(shí)間用于檢查點(diǎn)操作，主要瓶頸來(lái)自多次數(shù)據(jù)拷貝、內(nèi)核層交互以及數(shù)據(jù)序列化帶來(lái)的額外開(kāi)銷(xiāo)。

針對(duì)這些問(wèn)題，研究團(tuán)隊(duì)提出了名為Portus的新型優(yōu)化方案。該系統(tǒng)的核心創(chuàng)新在于設(shè)計(jì)了反向RDMA通道，通過(guò)改變傳統(tǒng)數(shù)據(jù)傳輸方向，使計(jì)算節(jié)點(diǎn)只需注冊(cè)GPU內(nèi)存地址，而PMEM設(shè)備可以主動(dòng)通過(guò)RDMA讀取或推送數(shù)據(jù)，從而徹底消除了GPU到PMEM的數(shù)據(jù)拷貝開(kāi)銷(xiāo)。此外，Portus采用雙窗口PMEM管理機(jī)制，通過(guò)輪換寫(xiě)入策略?xún)?yōu)化了持久內(nèi)存的訪(fǎng)問(wèn)效率。在架構(gòu)設(shè)計(jì)上，系統(tǒng)采用輕量級(jí)元數(shù)據(jù)管理，服務(wù)器端負(fù)責(zé)集中維護(hù)檢查點(diǎn)元數(shù)據(jù)，而客戶(hù)端則以PyTorch插件形式部署，實(shí)現(xiàn)了零拷貝的張量收集功能。

實(shí)驗(yàn)驗(yàn)證環(huán)節(jié)采用了由雙路Xeon服務(wù)器（配備6塊256GB PMEM設(shè)備）構(gòu)成的存儲(chǔ)端，以及搭載V100/A40 GPU的計(jì)算節(jié)點(diǎn)，網(wǎng)絡(luò)環(huán)境為100Gbps Infiniband。測(cè)試結(jié)果顯示，Portus在224億參數(shù)GPT模型上的表現(xiàn)顯著優(yōu)于傳統(tǒng)方案：完成一次Checkpointing僅需15秒，相比BeeGFS的127秒和torch.save的130秒實(shí)現(xiàn)了8倍以上的性能提升；在數(shù)據(jù)恢復(fù)（Restoration）方面更是達(dá)到9.23倍的加速效果。進(jìn)一步分析表明，Portus成功將GPU利用率提升至76.4%，同時(shí)將主要開(kāi)銷(xiāo)集中在RDMA通信環(huán)節(jié)，基本消除了序列化和內(nèi)存拷貝帶來(lái)的性能損耗。據(jù)估算，在典型的24小時(shí)訓(xùn)練周期中，Portus可以累計(jì)節(jié)省1.5小時(shí)的檢查點(diǎn)操作時(shí)間。

這項(xiàng)研究的重要意義在于首次實(shí)現(xiàn)了PMEM與RDMA的高效協(xié)同，為千億參數(shù)規(guī)模的大模型訓(xùn)練提供了切實(shí)可用的高性?xún)r(jià)比容錯(cuò)解決方案。展望未來(lái)，研究團(tuán)隊(duì)計(jì)劃進(jìn)一步探索將CXL內(nèi)存等新型硬件技術(shù)納入系統(tǒng)優(yōu)化范疇，同時(shí)深入研究檢查點(diǎn)機(jī)制與訓(xùn)練流水線(xiàn)的深度協(xié)同優(yōu)化策略。這些工作將持續(xù)推動(dòng)人工智能基礎(chǔ)設(shè)施的技術(shù)創(chuàng)新，為更大規(guī)模、更復(fù)雜的神經(jīng)網(wǎng)絡(luò)訓(xùn)練提供可靠支持。

分享到

2025人工智能基礎(chǔ)設(shè)施峰會(huì)上海科大殷樹(shù)神經(jīng)網(wǎng)絡(luò)

xiesc

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽