在此背景下,Arm近日發(fā)布了全新的邊緣AI計(jì)算平臺(tái),該平臺(tái)以全新的Arm Cortex-A320 CPU和領(lǐng)先的邊緣AI加速器Arm Ethos-U85 NPU為核心,可支持運(yùn)行超10億參數(shù)的端側(cè)AI模型。
此次全新發(fā)布的Cortex-A320是Arm首個(gè)基于Armv9架構(gòu)的超高能效CPU,專(zhuān)為物聯(lián)網(wǎng)應(yīng)用優(yōu)化,也是全新邊緣AI計(jì)算平臺(tái)的核心組件。在性能方面,它較前代Cortex-A35提升了高達(dá)10倍的ML計(jì)算能力,標(biāo)量計(jì)算性能提高了30%。其能效比較Cortex-A520提升了50%。此外,Cortex-A320最高可支持四核共享集群,可根據(jù)不同需求靈活擴(kuò)展,滿足各種應(yīng)用場(chǎng)景的需求。值得一提的是,Cortex-A320充分利用了Armv9增強(qiáng)的安全性和 AI 計(jì)算特性,這些特性已經(jīng)在其他市場(chǎng)得到廣泛應(yīng)用,而Arm現(xiàn)在將其引入物聯(lián)網(wǎng)領(lǐng)域。
在安全性方面,Cortex-A320引入諸多Armv9增強(qiáng)的安全性特性,比如Secure EL2增強(qiáng)TrustZone內(nèi)部隔離性,支持更安全地運(yùn)行軟件容器;指針驗(yàn)證/分支目標(biāo)識(shí)別(PACBTI)可有效緩解指針安全隱患;內(nèi)存標(biāo)記擴(kuò)展(MTE)則可通過(guò)內(nèi)存標(biāo)記機(jī)制,提高系統(tǒng)整體安全性。
性能方面,Armv9的特性也帶來(lái)了AI計(jì)算能力的增強(qiáng)。比如,增強(qiáng)的Neon和可伸縮向量擴(kuò)展(SVE2)技術(shù),提供了更高效的ML計(jì)算能力;對(duì)例如BFloat16等新數(shù)據(jù)類(lèi)型的支持,則提高AI計(jì)算的精度和能效;新增的矩陣乘法指令,優(yōu)化了AI和ML計(jì)算性能,加速神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
正是這些改進(jìn)使Cortex-A320成為物聯(lián)網(wǎng)設(shè)備的理想AI計(jì)算平臺(tái),能夠高效執(zhí)行復(fù)雜的邊緣AI任務(wù),同時(shí)保證系統(tǒng)的安全性、可靠性和數(shù)據(jù)完整性。
作為邊緣AI計(jì)算平臺(tái)的另一核心,Ethos-U85是Arm Ethos-U產(chǎn)品線中的第三代NPU,也是迄今為止性能和能效最強(qiáng)的Ethos NPU。與前代產(chǎn)品相比,該NPU的性能提升了四倍,能效提高了20%,并且可在主流網(wǎng)絡(luò)上實(shí)現(xiàn)高達(dá)85%的利用率。
去年Arm推出的集成了Cortex-M85和Ethos-U85的Arm Corstone物聯(lián)網(wǎng)參考設(shè)計(jì)平臺(tái),顯著提升了端側(cè)Transformer網(wǎng)絡(luò)的執(zhí)行效率。如今,Ethos-U85 驅(qū)動(dòng)程序進(jìn)行了更新,使得Cortex-A320能夠直接驅(qū)動(dòng)Ethos-U85,無(wú)需額外搭載Cortex-M。這一更新降低了延遲,并使Arm的合作伙伴可以去掉用于驅(qū)動(dòng)AI加速器的額外控制器,從而降低成本和系統(tǒng)復(fù)雜性。
可以說(shuō),此次發(fā)布的邊緣AI計(jì)算平臺(tái)實(shí)現(xiàn)了CPU和AI加速器的深度配合,讓CPU和NPU相得益彰。Cortex-A320可以為Ethos-U85提供更高的內(nèi)存容量與帶寬,讓大模型在Ethos-U85上的執(zhí)行如虎添翼;任何開(kāi)發(fā)者們不希望在Ethos-U85上運(yùn)行的AI操作,可以回退到Cortex-A320,利用其N(xiāo)eon/SVE2引擎更靈活有效地在CPU上執(zhí)行。這使智能物聯(lián)網(wǎng)與消費(fèi)類(lèi)電子生態(tài)系統(tǒng)能夠在正確的時(shí)間,并在合適的地方運(yùn)行最適合的工作負(fù)載。
真正的邊緣 AI 計(jì)算平臺(tái)需要靈活性,使工作負(fù)載既可以運(yùn)行在 CPU,也可以運(yùn)行在 AI 加速器。對(duì)于在CPU上運(yùn)行的AI任務(wù),開(kāi)發(fā)者希望能夠獲得最優(yōu)的性能,這正是Arm Kleidi發(fā)揮作用的地方。去年,Arm推出了Kleidi軟件庫(kù),并將其引入了智能手機(jī)和服務(wù)器市場(chǎng),它包含優(yōu)化AI負(fù)載在Arm CPU上執(zhí)行的KleidiAI和加速機(jī)器視覺(jué)的KleidiCV?,F(xiàn)在,Arm也將Kleidi擴(kuò)展到了物聯(lián)網(wǎng)。
KleidiAI 是一套專(zhuān)為AI框架開(kāi)發(fā)者設(shè)計(jì)的計(jì)算內(nèi)核,讓開(kāi)發(fā)者可以無(wú)縫地在Arm CPU上獲取最佳性能,適用于各類(lèi)設(shè)備。此外,KleidiAI已經(jīng)集成到多個(gè)主流 AI 框架,包括Llama.cpp、ExecuTorch和LiteRT(通過(guò)XNNPACK)它可以加速 Meta Llama 3和Phi-3等主流AI大模型,進(jìn)一步釋放AI計(jì)算性能。
Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健表示,此次Arm發(fā)布的全新邊緣AI計(jì)算平臺(tái)不僅是一次漸進(jìn)式的升級(jí),也代表了Arm為未來(lái)邊緣計(jì)算和AI處理提出的新范式。
憑借強(qiáng)大性能及能效、高安全性和完善的軟件生態(tài),全新邊緣AI計(jì)算平臺(tái)將為物聯(lián)網(wǎng)發(fā)展注入新動(dòng)力。未來(lái),Arm將繼續(xù)引領(lǐng)邊緣AI技術(shù)發(fā)展,推動(dòng)物聯(lián)網(wǎng)產(chǎn)業(yè)邁向新高度,開(kāi)啟智能化新時(shí)代。