通過對數(shù)據(jù)分布的平滑處理,可有效降低INT8量化誤差。
DeepSeek 模型進(jìn)行 MLA 模塊量化時異常值的抑制效果
MOE模塊量化:W8A8動態(tài)量化,權(quán)重壓縮2倍。
如下圖所示,MOE在線動態(tài)量化流程復(fù)雜而精細(xì),由于不同專家參數(shù)分布不同,路由分發(fā)的激活數(shù)據(jù)也不同,需要分別對異常值抑制與在線量化進(jìn)行計算,確保自適應(yīng)保持最佳量化精度。此外,輸入激活I(lǐng)NT8量化之后,Dispatch可支持INT8通信,通信量減少50%,有助于降低大EP并行的通信開銷。
模型量化關(guān)鍵流程
針對DeepSeek-R1的W8A8動態(tài)量化方案,大體分為三步:
1、離群值抑制
通過抑制量化過程中的激活異常值(outliers),緩解激活量化難度,讓后續(xù)的量化效果更優(yōu)。
2、量化參數(shù)的選擇
激活值量化方式選擇Min-Max方式;并采用INT8混合、以及MLA與MOE分離量化策略,即MLA層選用W8A8-Static量化,MOE層選用W8A8-Dynamic量化,效果最佳。
3、準(zhǔn)集調(diào)整
通過更新業(yè)務(wù)校準(zhǔn)集進(jìn)行Label-Free量化,并優(yōu)化量化參數(shù)。
量化后帶來的收益
模型壓縮2倍:DeepSeek-V3/R1模型參數(shù)量為671B,通過INT8可節(jié)省2倍的內(nèi)存開銷,降低部署成本。
吞吐性能提升10%以上:權(quán)重INT8量化之后,一方面可以降低訪存開銷,另一方面通過INT8矩陣乘可以提升運(yùn)算效率。
精度丟失<1%:通過混合量化、異常值抑制等算法策略,保證推理精度。
下一步規(guī)劃
量化算法持續(xù)升級,新增規(guī)劃W4A8/W4A4量化算法,同時針對FA3量化、通信量化等方向不斷創(chuàng)新,進(jìn)一步降低大EP推理的權(quán)重、KV Cache訪存開銷與通信開銷。
昇騰將持續(xù)深耕于量化技術(shù),為開發(fā)者提供更易用、更全面的量化工具。