一、Arm C1 CPU集群:SME2賦能的端側(cè)AI算力躍遷

作為Arm Lumex CSS平臺的計算核心,基于Armv9.3架構(gòu)的Arm C1 CPU集群通過硬件級AI加速與異構(gòu)核心設(shè)計,構(gòu)建了從旗艦到邊緣設(shè)備的全場景算力底座。其最核心的技術(shù)突破在于第二代可伸縮矩陣擴(kuò)展(SME2)的原生集成,這一技術(shù)專為AI工作負(fù)載設(shè)計,通過增強矩陣運算單元的并行性與內(nèi)存訪問效率,實現(xiàn)了計算密度的質(zhì)的飛躍。

從實測數(shù)據(jù)看,啟用SME2的Arm C1 CPU集群在生成式AI、語音識別等典型場景中展現(xiàn)出顛覆性性能:在Whisper Base語音模型中,語音轉(zhuǎn)文字的延遲從1495ms降至315ms,降低4.7倍;Google Gemma 3大語言模型的編碼速度從84 Token/s提升至398 Token/s,性能提升4.7倍;Stability AI Stable Audio音頻生成時間從27秒縮短至9.7秒,提速2.8倍。

異構(gòu)核心的精準(zhǔn)分工是Arm C1 CPU集群的另一大技術(shù)亮點。Arm C1-Ultra作為旗艦核心,通過業(yè)界領(lǐng)先的前端設(shè)計與最寬微架構(gòu)(10寬發(fā)射),實現(xiàn)了較上一代Cortex-X925高達(dá)25%的單線程峰值性能提升,其每時鐘周期指令數(shù)(IPC)的兩位數(shù)增長,確保在大模型推理、計算攝影等場景中瞬間釋放算力。而Arm C1-Premium作為首款次旗艦核心,通過縮減35%的核心面積,在SPECint2017基準(zhǔn)測試中保持與C1-Ultra相當(dāng)?shù)男阅埽瑢崿F(xiàn)了面積效率的突破。

面向能效敏感場景的Arm C1-Pro,通過增強型分支預(yù)測器(預(yù)測準(zhǔn)確率提升8%)與內(nèi)存系統(tǒng)更新,在相同主頻下較Cortex-A725實現(xiàn)16%的持續(xù)性能提升,同時在視頻播放、網(wǎng)頁瀏覽等日常負(fù)載中能效優(yōu)化12%。而Arm C1-Nano則通過解耦預(yù)測-取指流水線設(shè)計,在核心面積縮小2%的情況下,SPECint2017性能提升5.5%,能效較Cortex-A520提升26%,成為可穿戴設(shè)備的理想選擇。

系統(tǒng)級協(xié)同方面,全新Arm C1-DSU(DynamIQ共享單元)通過動態(tài)電源管理與帶寬優(yōu)化,較上一代DSU-120功耗降低26%,同時支持最多8個核心的靈活配置。例如,啟用了SME2技術(shù)的Arm C1-Pro與C1-Nano的組合可使中端設(shè)備計算密度提升兩倍,滿足實時翻譯、智能助手等場景需求。

二、Mali G1-Ultra GPU:光線追蹤與AI推理的硬件級融合

Mali G1-Ultra作為Arm Lumex CSS平臺的圖形與AI加速核心,通過架構(gòu)重構(gòu)實現(xiàn)了移動設(shè)備上”視覺保真與智能響應(yīng)”的雙重突破。其第二代光線追蹤單元(RTUv2)采用單光線模型與獨立硬件設(shè)計,較上一代RTUv1實現(xiàn)兩倍光線追蹤性能提升,在《Mori 林間鼯語》演示中幀率從26.8 FPS提升至37.5 FPS,同時支持完全獨立的電源域控制,可在設(shè)備空閑時斷電,從而為其他任務(wù)節(jié)省電力。

在游戲性能方面,Mali G1-Ultra通過雙堆疊著色器核心設(shè)計(內(nèi)部帶寬提升100%)與快速訪問統(tǒng)一寄存器,在主流游戲中實現(xiàn)全面提升:《暗區(qū)突圍》性能提升25%,《崩壞:星穹鐵道》提升19%,《原神》提升17%。此外,Mali G1-Ultra還引入了Arm圖像區(qū)域依賴(IRD),使GPU可同時處理屏幕不同區(qū)域的渲染任務(wù),從而在復(fù)雜場景中提升性能并減少空閑時間。

AI加速能力上,Mali G1-Ultra新增的FP16矩陣乘法單元(MMUL)專為端側(cè)實時智能設(shè)計,較上一代Immortalis-G925實現(xiàn)20%的AI推理加速,其中語音識別性能提升104%,圖像增強提升17%。通過擴(kuò)大L2緩存與優(yōu)化的互連設(shè)計,該GPU可大幅減少內(nèi)存瓶頸,并確保實時體驗的靈敏響應(yīng)與流暢運行。

三、系統(tǒng)架構(gòu)與軟件生態(tài):高性能與可擴(kuò)展性的底層支撐

Arm Lumex CSS平臺的卓越表現(xiàn)離不開系統(tǒng)級互連與內(nèi)存架構(gòu)的革新。全新SI L1系統(tǒng)互連配備業(yè)內(nèi)先進(jìn)的,且具有出色面積效率的系統(tǒng)級緩存(SLC),泄漏功耗較標(biāo)準(zhǔn)RAM降低71%,顯著減少設(shè)備待機功耗。該互連支持Arm內(nèi)存標(biāo)記擴(kuò)展(MTE),可提供一流安全性。

軟件生態(tài)方面,Arm KleidiAI庫實現(xiàn)了SME2加速的無縫調(diào)用,已與阿里巴巴MNN、Google LiteRT、微軟ONNX Runtime等主流框架深度集成。開發(fā)者無需修改代碼,通過框架自動優(yōu)化即可獲得性能提升。Google的Gmail、YouTube等應(yīng)用已完成SME2適配,設(shè)備上市即可啟用優(yōu)化功能。

工具鏈方面,Arm Lumex CSS提供自頂向下的遙測解決方案,結(jié)合Vulkan計數(shù)器與RenderDoc調(diào)試工具,開發(fā)者能夠?qū)崟r分析工作負(fù)載、調(diào)優(yōu)延遲,并精確平衡電池續(xù)航與視覺效果。

技術(shù)總結(jié):重新定義端側(cè)計算的黃金標(biāo)準(zhǔn)

Arm Lumex CSS平臺通過Arm C1 CPU集群的SME2加速、Mali G1-Ultra的架構(gòu)革新與系統(tǒng)級協(xié)同設(shè)計,構(gòu)建了”性能-能效-面積”的最優(yōu)解。其核心突破在于:實現(xiàn)AI工作負(fù)載五倍性能提升的同時能效優(yōu)化三倍;光線追蹤性能提升兩倍且支持桌面級視覺效果;通過靈活配置覆蓋從旗艦手機到可穿戴設(shè)備的全場景需求。

隨著搭載Arm Lumex CSS平臺的移動終端產(chǎn)品陸續(xù)落地,智能手機將真正邁入”實時端側(cè)AI”時代——從10億參數(shù)大模型的本地運行,到4K HDR視頻的實時AI增強,再到主機級游戲體驗的持續(xù)輸出,Arm Lumex CSS平臺正在重塑用戶與技術(shù)交互的每一個瞬間。

分享到

lixiangjing

算力豹主編

相關(guān)推薦