掩蓋計(jì)算和流水掩蓋示意圖
02 支持重計(jì)算細(xì)粒度通信掩蓋和Zero-Memory/Gelu重計(jì)算技術(shù),實(shí)現(xiàn)內(nèi)存優(yōu)化40%
針對(duì)MoE模型訓(xùn)練中高顯存占用的問(wèn)題,MindSpeed創(chuàng)造性地提出了重計(jì)算細(xì)粒度通信編排和ZeroMemory技術(shù),通過(guò)細(xì)粒度聯(lián)合編排重計(jì)算以及前向和反向過(guò)程中所有的計(jì)算通信隱藏重計(jì)算的通信開(kāi)銷(xiāo),進(jìn)而丟棄前向計(jì)算中每層的GroupedMatmul融合算子的輸入,從而實(shí)現(xiàn)內(nèi)存優(yōu)化。該特性在DeepSeek V3模型上每層能節(jié)省接近200M的激活值開(kāi)銷(xiāo),疊加Gelu重計(jì)算等技術(shù),整體內(nèi)存優(yōu)化40%,且性能幾乎無(wú)損。
重計(jì)算細(xì)粒度通信掩蓋示意圖
03 MindSpeed的DualPipe通信掩蓋特性兼容多種流水線調(diào)度算法,用戶可靈活選擇
DualPipe的掩蓋收益與流水線調(diào)度策略并不是強(qiáng)綁定關(guān)系,這種掩蓋的使能前提是在流水線策略中當(dāng)前可做兩個(gè)無(wú)依賴關(guān)系的MicroBatch(微批次)計(jì)算。同時(shí),針對(duì)社區(qū)提出的DualPipe的改進(jìn)算法Cut-In-Half[1]調(diào)度(只取DualPipe鏡像對(duì)稱結(jié)構(gòu)的一半,呈V字排布,相比DualPipe在同PP并行度下算法啟動(dòng)規(guī)模和靜態(tài)顯存減半,消除冗余參數(shù)且bubble保持一致)與DualPipe類似。針對(duì)VPP(Virtual Pipeline Parallelism,虛擬流水線并行)的1F1B 階段以跨MicroBatch的前反向計(jì)算為主,稍改調(diào)度也能實(shí)現(xiàn)EP通信掩蓋。因此,MindSpeed的通信掩蓋技術(shù)可兼容Dualpipe、Cut-in-half、VPP等三種流水線調(diào)度算法,用戶可根據(jù)使用場(chǎng)景進(jìn)行自由選擇。
結(jié)語(yǔ)
本期為大家介紹了MindSpeed細(xì)粒度DualPipe通信掩蓋特性,在訓(xùn)練性能加速上,MindSpeed將持續(xù)探索演進(jìn),歡迎訪問(wèn)MindSpeed開(kāi)源社區(qū)
參考鏈接:
[1] :https://zhuanlan.zhihu.com/p/26915547331?utm_medium=social&utm_psn=1878740300547221291&utm_source=wechat_session&utm_id