隨著網(wǎng)絡(luò)規(guī)模的增大,受限于顯存限制,當(dāng)一張卡內(nèi)的 BatchSize 僅支持為 1 時(shí),上述對(duì)整網(wǎng)進(jìn)行 Batch 拆分的方案不再可行。因此,考慮到模型并行通信的位置,昇思 MindSpore2.3.RC1 版本將 Transformer 模型中的 AttentionProjection 層以及 FFN 層進(jìn)行拆分,產(chǎn)生多個(gè)分支,通過(guò)執(zhí)行序調(diào)度算法控制細(xì)粒度的多分支的并行,其中拆分從 AttentionProjection 開(kāi)始,到下一個(gè) Layer 的 QKV 計(jì)算前結(jié)束。

上圖描述了序列并行場(chǎng)景下的細(xì)粒度多副本拆分與掩蓋基本思路,拆分為兩個(gè)副本,在正向可以達(dá)成 50%+ 的通信掩蓋;而在反向,結(jié)合計(jì)算梯度的分支的計(jì)算與 TP 通信的掩蓋,可達(dá)成 90% 的通信的掩蓋。當(dāng)前細(xì)粒度多副本并行僅在 MindSpore Transformers 的 LLAMA 網(wǎng)絡(luò)進(jìn)行了實(shí)現(xiàn),需要對(duì)模型結(jié)構(gòu)進(jìn)行手動(dòng)改造為多個(gè)副本。后續(xù)版本昇思 MindSpore 將集成自動(dòng)拆分副本的邏輯,達(dá)成更易用的細(xì)粒度多副本并行。

參考鏈接:https://www.mindspore.cn/tutorials/experts/zh-CN/master/parallel/multiple_copy.html

2、大模型推理全棧升級(jí)

大模型大規(guī)模商用之后,推理消耗的算力規(guī)模將十分龐大,相應(yīng)地帶來(lái)高昂的成本,商業(yè)閉環(huán)依賴(lài)推理規(guī)模突破。在降低大模型推理的成本的同時(shí),要兼顧模型精度和計(jì)算時(shí)延,不能影響用戶(hù)的體驗(yàn)。昇思 MindSpore 2.3.RC1 版本,從最上層推理服務(wù)到模型腳本優(yōu)化到推理引擎 LLM Serving,為用戶(hù)提供端到端的高效推理解決方案。

2.1 訓(xùn)推一體:大模型訓(xùn) / 推統(tǒng)一腳本,大幅簡(jiǎn)化部署流程,提高效率

模型腳本默認(rèn)使能了增量推理、FlashAttention/PagedAttention 等推理加速技術(shù),避免了模型導(dǎo)出、切分、推理腳本開(kāi)發(fā)等一系列工作,訓(xùn)練到推理加速平滑遷移,部署周期下降到天級(jí)。

2.2 極致性能:持續(xù)提升融合大算子、并行推理、模型小型化的關(guān)鍵能力

融合大算子:新增 10 + 業(yè)界最新的推理融合大算子接口,模型開(kāi)發(fā)人員可以快速使能推理融合算子實(shí)現(xiàn)加速。

并行推理:訓(xùn)練推理并行策略接口一致,提供訓(xùn)練并行到推理并行 ckpt 重切分接口,支持動(dòng)態(tài) shape 模型切分。

模型壓縮:昇思 MindSpore 金箍棒升級(jí)到 2.0 版本,提供了針對(duì)大模型的業(yè)界 SOTA 以及華為諾亞自研的量化、減枝等算法,實(shí)現(xiàn)千億大模型 10 倍 + 壓縮。

以上技術(shù)均可泛化的應(yīng)用于 Transformer 結(jié)構(gòu)的大模型中,經(jīng)過(guò)驗(yàn)證,在盤(pán)古、Llama 2 的 8 卡模型推理中,首 token 時(shí)延做到百 ms 級(jí),平均 token 時(shí)延小于 50ms,保持業(yè)界領(lǐng)先水平。

2.3 服務(wù)化高吞吐

通過(guò)連續(xù)批調(diào)度、Prefill/Decoding 混合部署等手段,盡可能的消除掉冗余計(jì)算,確保算力不閑置,實(shí)現(xiàn)大模型推理吞吐提升 2 倍 +。

參考鏈接:https://www.mindspore.cn/lite/docs/zh-CN/r2.3.0rc1/use/cloud_infer/runtime_distributed_python.html

3、靜態(tài)圖優(yōu)化:支持 O (n) 多級(jí)編譯,使能 kernel by kernel 調(diào)度執(zhí)行,提升靜態(tài)圖調(diào)試調(diào)優(yōu)能力

整圖下沉執(zhí)行性能最優(yōu),但大模型的規(guī)模和參數(shù)量發(fā)展得更為龐大,整圖下沉執(zhí)行方式在整圖編譯過(guò)程中耗時(shí)較長(zhǎng),一個(gè)千億級(jí)別的大模型的編譯時(shí)間為 30 分鐘 – 60 分鐘,調(diào)試調(diào)優(yōu)效率低下。為解決上述問(wèn)題,昇思 MindSpore2.3.RC1 版本中,提供了多級(jí)編譯技術(shù),O0 原生構(gòu)圖不優(yōu)化、O1 增加自動(dòng)算子融合優(yōu)化、O2 整圖下沉執(zhí)行優(yōu)化。在 O0 的編譯選項(xiàng)下,通過(guò)原生圖編譯和 kernel by kernel(KBK)的執(zhí)行技術(shù),可以將編譯時(shí)間提升到 15 分鐘以?xún)?nèi),同時(shí)我們?cè)谛掳姹局羞€開(kāi)發(fā)了 DryRun 技術(shù),用戶(hù)可以直接在離線(xiàn)的情況進(jìn)行內(nèi)存瓶頸分析和并行策略調(diào)優(yōu),結(jié)合這兩大技術(shù)可以使得大模型調(diào)試效率倍增。在 O0 這種編譯條件下,我們使能了 SOMAS/LazyInline/ 控制流 Inline 來(lái)提升內(nèi)存復(fù)用率,使能了多流并行 / 流水異步調(diào)度,可以提升執(zhí)行性能;在 O1 這種編譯條件下,通過(guò)使能算子融合技術(shù),KBK 執(zhí)行模式下可以有更好的執(zhí)行性能。

參考鏈接:https://www.mindspore.cn/docs/zh-CN/r2.3.0rc1/api_python/mindspore/mindspore.JitConfig.html?highlight=jitconfig

4、JIT 兼具易用性和性能,動(dòng)靜統(tǒng)一,提供靈活高效開(kāi)發(fā)

昇思 MindSpore 支持圖模式(靜態(tài)圖)和 PyNative 模式(動(dòng)態(tài)圖)兩種運(yùn)行方法。動(dòng)態(tài)圖易于調(diào)試,開(kāi)發(fā)靈活,易用性好;靜態(tài)圖語(yǔ)法支持有限,但執(zhí)行性能好。JIT 兼顧性能和易用性,通過(guò)對(duì) Python 字節(jié)碼進(jìn)行分析 & 調(diào)整、執(zhí)行流進(jìn)行圖捕獲 & 圖優(yōu)化,支持入圖的 Python 代碼做靜態(tài)圖方式執(zhí)行,不支持的進(jìn)行子圖切分以動(dòng)態(tài)圖方式執(zhí)行,自動(dòng)地做到動(dòng)靜統(tǒng)一,實(shí)現(xiàn)方法如下圖所示。

參考鏈接:https://www.mindspore.cn/docs/zh-CN/r2.3/design/dynamic_graph_and_static_graph.html#%E5%8A%A8%E6%80%81%E5%9B%BE%E8%BD%AC%E9%9D%99%E6%80%81%E5%9B%BE%E6%8A%80%E6%9C%AF

5、MindSpore Elec:新增大地電磁智能反演模型

MindSpore Elec 電磁仿真套件升級(jí)至 0.3 版本,聯(lián)合清華大學(xué)李懋坤教授團(tuán)隊(duì)、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室共同打造了基于昇思 MindSpore 的大地電磁(Magnetotelluric,MT)智能反演模型。該模型通過(guò)變分自編碼器(VAE)靈活嵌入了多物理先驗(yàn)知識(shí),達(dá)到了業(yè)界 SOTA。該成果已被國(guó)際頂級(jí)勘探地球物理期刊《Geophysics》收錄,同時(shí)也在昇思人工智能框架峰會(huì) 2024 上發(fā)布亮相。

(1)基礎(chǔ) MT 反演:反演區(qū)域水平長(zhǎng)度為 10km,深度為 1km。下圖 1 中目標(biāo)電阻率分布(第一列)與傳統(tǒng)大地電磁反演(第二列)、大地電磁智能反演(第三列),可以看出大地電磁智能反演相比傳統(tǒng)反演精度顯著提升(前者殘差為 0.0056 和 0.0054;后者為 0.023 和 0.024 );下圖 2 中,大地電磁智能反演性能也優(yōu)于傳統(tǒng)反演方法(前者收斂步數(shù)為 4 和 4;后者為 6 和 4)。

圖 1 大地電磁反演精度對(duì)比

圖 2 大地電磁反演收斂速度對(duì)比(Pixel-based:傳統(tǒng)反演;Feature-based:我們的工作)

(2)南部非洲 MT 反演:大地電磁智能反演模型也在南部非洲開(kāi)源數(shù)據(jù)集(SAMTEX)上做了驗(yàn)證。該反演區(qū)域位于南部非洲西海岸附近,長(zhǎng)度約為 750km,深度選定為 80km。該測(cè)區(qū)顯著特征為在水平方向 100km 至 400km 之間,深度 20km 以淺的區(qū)域存在的高導(dǎo)結(jié)構(gòu)。由于低頻電磁波在導(dǎo)體結(jié)構(gòu)中的衰減,MT 方法對(duì)高導(dǎo)結(jié)構(gòu)下部區(qū)域的敏感度很低,因此無(wú)先驗(yàn)知識(shí)約束的傳統(tǒng) MT 反演難以準(zhǔn)確重建高導(dǎo)地層的下邊界位置。大地電磁智能反演對(duì)高導(dǎo)地層的下邊界重建較為清晰準(zhǔn)確,較好地將地層厚度的先驗(yàn)知識(shí)融入了反演。

圖 3 南部非洲 MT 反演示例圖(上圖:傳統(tǒng)反演;下圖:我們的工作)

參考鏈接:https://gitee.com/mindspore/mindscience/tree/master/MindElec

分享到

xiesc

相關(guān)推薦