二、Weight預(yù)取雙流并行:訪存、通信并行,性能提升10%+

在推理的Decode階段,權(quán)重(Weight)加載耗時(shí)較長(zhǎng),主要原因包括兩方面:

Weight需要頻繁訪問高帶寬內(nèi)存(HBM),導(dǎo)致訪存開銷較大;

AllToAll通信操作占用大量帶寬,進(jìn)一步加劇了性能瓶頸。

針對(duì)該問題,利用昇騰910系列硬件L2 Cache層的大容量、高帶寬特性,預(yù)取Weight并存儲(chǔ)到L2 Cache中,實(shí)現(xiàn)通信與Weight加載并行,從而加速后續(xù)的Cube運(yùn)算,顯著降低了Weight加載時(shí)間,同時(shí)提升了Matmul算子的性能,整網(wǎng)性能提升10%+。

三、多算力軟硬協(xié)同通信算法:整網(wǎng)性能提升100%

DeepSeekV3-671B滿血版模型運(yùn)行時(shí),通信耗時(shí)占整網(wǎng)耗時(shí)60%+:

AllToAllV算子需要處理各卡負(fù)載不均的通信傳輸,其分級(jí)實(shí)現(xiàn)依賴前置算子(如AllGather)來獲取全局?jǐn)?shù)據(jù)大小和內(nèi)存偏移矩陣,會(huì)額外引入通信開銷和stream同步耗時(shí);

由于通信數(shù)據(jù)量較小,算子下發(fā)時(shí)間較長(zhǎng),導(dǎo)致Host Bound問題突出;

AllToAll分級(jí)分層算法的步驟復(fù)雜,RDMA前后的同步操作增加了額外的RTT時(shí)延。

昇騰提出多算力軟硬協(xié)同通信算法,主要包含以下三大特性:

Host CPU/AI-V/AI-CPU/RoCE多算力負(fù)載協(xié)同,實(shí)現(xiàn)異步并發(fā);

隨數(shù)據(jù)發(fā)送同步信號(hào),實(shí)現(xiàn)同步次數(shù)削減至理論極限(一次);

直調(diào)RoCE發(fā)送接口,bypass Device側(cè)調(diào)度和內(nèi)核態(tài)陷入,極致提升模型通信效率。

通過該通信算法,實(shí)現(xiàn)整網(wǎng)耗時(shí)降低50%,大幅提升模型性能。

昇騰未來演進(jìn)思考

昇騰將繼續(xù)探索MoE模型的通信優(yōu)化。我們將充分利用昇騰硬件上AIV/AI-CPU的多核并發(fā)能力,加速通信任務(wù)的下發(fā)和并發(fā)傳輸;同時(shí),探索通信算子與其他計(jì)算算子更細(xì)粒度的通算融合,減少或掩蓋啟動(dòng)和傳輸?shù)拈_銷,為更多的客戶、伙伴提供更強(qiáng)大的技術(shù)能力。

分享到

zhupb

相關(guān)推薦