為了進一步挖掘性能潛力,昇騰采用更加底層的優(yōu)化策略,將整個MLA預(yù)處理階段的Vector和Cube計算并行處理,并通過流水優(yōu)化等方式,把前處理過程中的13個小算子融合成一個超級大算子MLAPO(Mla Preprocess Operation)。

通過這種大型融合方式,小算子的頭開銷和下發(fā)開銷基本消除。在VV融合的基礎(chǔ)上,算子性能再次提升50%以上, DeepSeek-V3整網(wǎng)計算性能提升20%以上。

展望未來,隨著人工智能應(yīng)用場景的不斷拓展和深化,對模型性能和效率的要求也將愈發(fā)嚴苛。昇騰CANN創(chuàng)新的MLA算子,憑借在DeepSeek系列模型上取得的顯著優(yōu)化成果,已然成為行業(yè)內(nèi)的標(biāo)桿案例。

在未來的技術(shù)探索道路上,昇騰CANN團隊將繼續(xù)秉持創(chuàng)新精神,深入研究硬件與軟件的協(xié)同優(yōu)化策略,不斷探索更多適用于不同場景的融合方式和計算加速技術(shù)。他們不僅會在現(xiàn)有成果的基礎(chǔ)上持續(xù)深耕,進一步提升DeepSeek系列模型的性能表現(xiàn),還將積極拓展技術(shù)應(yīng)用邊界,推動MLA算子在更多類型的模型中發(fā)揮效能。

相信在昇騰CANN團隊的不懈努力下,創(chuàng)新的MLA算子將持續(xù)引領(lǐng)人工智能計算效率的提升潮流,為AI領(lǐng)域的蓬勃發(fā)展注入源源不斷的強大動力,助力人工智能技術(shù)在更廣泛的領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用和突破。

分享到

lixiangjing

算力豹主編

相關(guān)推薦