Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven

“AI時代正加速發(fā)展,復雜性隨之不斷提高,計算需求呈指數(shù)級增長。我們不斷傾聽合作伙伴的意見,善用最新的工藝節(jié)點持續(xù)迭代更新產(chǎn)品及解決方案,并提供可為實現(xiàn)設備端AI奠定基礎的平臺?!?月30日,Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven在北京召開的媒體溝通會上如是說。

提供業(yè)界領先性能的核心部件

Arm終端CSS整合了最新的Armv9.2 CPU、Immortalis GPU、CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元(SMMU),并優(yōu)化到內(nèi)存及SoC其他部分的計算路徑,同時結合了在軟件、安全和生態(tài)領域的創(chuàng)新。

Cortex-X925是Cortex-X推出以來IPC同比性能增長最高的CPU。結合新設計所實現(xiàn)的微架構改進和頻率提升,Arm具備迄今為止最寬的解碼和巨幅提升的矢量設計,在3.8GHz的時鐘速率和最大私有L2緩存大小的條件下,Cortex-X925比2023年發(fā)布的旗艦智能手機的四納米SoC實現(xiàn)了36%的單線程性能增長。在?AI性能方面,與上一代的Cortex-X CPU相比,Token首次響應時間提高了41%,TOPS數(shù)實現(xiàn)了50%的增長,大語言模型(LLM)等設備端生成式AI的響應能力顯著提高。

毫無疑問,這些成果是Arm RTL和物理設計團隊之間就三納米工藝的頻率和效率提升展開進一步協(xié)作成果。

另一款CPU——Cortex-A725針對AI和手游用例的性能效率比Cortex-A720提高了35%。這一改進得益于更新后的Arm Cortex-A520 CPU與更新后的DSU-120,使得采用最新Armv9 CPU集群的消費電子設備可提升能效和可擴展性。

Immortalis-G925是Arm性能最強、效率最高的GPU,也是Arm第三代具備光線追蹤技術的GPU。在圖形應用方面,其性能提高了37%,在多個AI/ML網(wǎng)絡上進行測量時性能也有約34%的提升。2022年引入智能手機的光線追蹤技術水平也得到大幅提升,在面對復雜物體時甚至提升高達52%。

除了通過CSS推動性能和效率提升之外,Arm致力于為每一位安卓設備用戶提高性能。在Cortex-X925帶來的30%性能提升基礎上,Arm對網(wǎng)頁瀏覽器進行的改進,使其性能提高了23%,國內(nèi)的手機廠商也將這些改進引入到其他瀏覽器中。與此同時,Arm繼續(xù)攜手Google推動其安卓動態(tài)性能框架(Android Dynamic Performance Framework)的發(fā)展,最新版本的框架中高端內(nèi)容的每幀能耗降低了25%,幀速率則提高了35%。此外,通過調(diào)整安卓工作負載在不同CPU核心之間的平衡方式,YouTube節(jié)省了高達10%的功耗。針對Google的AV1視頻編解碼器進行的軟件優(yōu)化,使當下安卓設備的視頻性能最多可提高40%。

“上述這些僅是Arm引入的眾多性能改進中的一部分。”James McNiven說。他認為,Arm在游戲和圖形技術領域對開發(fā)者的投入無出其右,并致力于讓開發(fā)者盡可能輕松地在移動設備上實現(xiàn)游戲主機級內(nèi)容。他透露,今年將持續(xù)開展全球的開發(fā)者教育活動,以確保游戲開發(fā)者能夠再現(xiàn)更多精彩示例內(nèi)容。

發(fā)布Kleidi軟件

在當今的AI和計算機視覺軟件領域有著諸多解決方案,它們首先是為CPU構建的,其中許多解決方案內(nèi)嵌在CPU中。由于70%的第三方安卓ML工作負載都以CPU為目標,因此性能越高,開發(fā)者就能越快地將功能推出,并專注于下一個創(chuàng)新。

Arm Kleidi的作用正是如此,它包括一系列輕量級的開源庫,這些小型、高度優(yōu)化的內(nèi)核,可集成或嵌入到涉及AI或計算視覺的任何平臺,使開發(fā)者在部署到任何Arm終端CSS上時均能獲得優(yōu)異性能。

目前Kleidi推出兩個軟件庫。其中,KleidiAI是一套面向AI框架開發(fā)者的計算內(nèi)核,搭配Arm CSS的KleidiAI通過Neon、SVE2和SME2等一系列Arm的加速技術,顯著提高計算應用的性能。當運行于Cortex-X925上時,Kleidi技術支持最新的Llama3和Phi-3 LLM,速度比參考實現(xiàn)快2.9倍,而且耗時不足24小時。

此外,KleidiCV則是面向計算機視覺應用的開源庫,它優(yōu)化了性能關鍵例程,利用ACLE內(nèi)聯(lián)函數(shù),直接映射到Arm SIMD指令,為Neon、SVE2或Streaming SVE&SME2提供了三種不同的實現(xiàn),還可自動檢測運行硬件并選擇最佳實現(xiàn)。KleidiCV還具有靈活性、簡單但快速的圖像操作、輕量級等特點,在OpenCV的基準測試中,通過啟用KleidiCV,可以在某些情況下顯著加速OpenCV的性能,平均性能提升超過75%。

Kleidi既可以出色運行在Arm已推出的CPU核心上,也為解鎖未來Armv9架構的CPU創(chuàng)新做好了準備,前后兼容的方式確保Arm在引入更多技術時依然能適用未來市場的需求。

“Kleidi“一詞來源于希臘語,意為“鑰匙”;Arm相信,Kleidi的推出,將為開發(fā)者釋放更多優(yōu)勢性能的“鑰匙”。

推進安全技術收獲頗豐

Arm 終端 CSS基于最新的Armv9架構,該架構提供了一系列的安全性功能,比如內(nèi)存標簽擴展(Memory Tagging Extension, MTE),幫助開發(fā)者在無需侵入式檢測的情況下查找和修復代碼中的錯誤,有助于加強內(nèi)存子系統(tǒng)中可能出現(xiàn)的安全漏洞的防范。最新的Corelink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元可以提供安全的內(nèi)存訪問控制,增強了整個系統(tǒng)的安全性,私有L2緩存也有助于提升數(shù)據(jù)的安全性。

此外,Arm 終端 CSS的設計允許軟件和硬件之間的緊密集成,使得安全特性可以貫穿整個系統(tǒng),提供更全面的保護。

生態(tài)建設成果豐碩

生態(tài)系統(tǒng)的建設對于 Arm 而言至關重要。近年來,Arm與微軟始終緊密合作合作,通過資助開源和發(fā)布面向Windows的Arm Performance Libraries,有效地發(fā)展生態(tài)系統(tǒng)。

而對于Windows on Arm (WoA)生態(tài)系統(tǒng)來說,今年是成果豐碩、值得大書特書的一年。

除了Microsoft Office、Dropbox、Zoom、Adobe套件等,越來越多的應用成為Arm原生應用,包括百度、嗶哩嗶哩、Chrome瀏覽器、愛奇藝、搜狗、騰訊QQ音樂等,此外,還有許多針對創(chuàng)作者的開源工具,例如Audacity、Blender和用于流媒體的OBS Studio,這些應用整合了大量的開源庫和開發(fā)者工具,幫助更多的用戶更好地運行原生應用。

為合作伙伴和最終用戶帶來最大收益

過去幾年來,Arm處理器除了后端的計算能力大幅提升,前端訪存能力也因持續(xù)加大的投資帶來了測試數(shù)據(jù)的增長,指令預取、分支預測、cache能力等應用程序的性能也大幅度提升。vivo得益于Arm的這一態(tài)勢。

Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven(圖左)和vivo首席芯片規(guī)劃專家夏曉菲

2023年,vivo與MediaTek合作在X100手機采用的藍晶芯片技術棧中使用了全大核架構,讓手機的流暢性達到了極高水準,背后就是Arm微架構展示的價值。除了充分發(fā)揮了CPU的能力,vivo還和Arm合作把瀏覽器的性能提升了20%,這相當于一代處理器能力的提升。vivo首席芯片規(guī)劃專家夏曉菲表示,vivo 非常注重用戶體驗,在 Arm CSS 的技術基礎之上,vivo與 Arm 的密切合作,共同推動開發(fā)者生態(tài),使手機更流暢更好用,同時也為設備端帶來了前沿的 AI 體驗。vivo很高興看到 Arm 終端 CSS 所引入的新方向,以及通過 Armv9 CPU 與 Arm GPU,這套計算子系統(tǒng)將賦能新一代設備端生成式 AI,從而實現(xiàn)沉浸式的智能移動端解決方案。

此外,OPPO、三星和小米等手機品牌商也推出了AI應用和用例。除了智能手機,筆記本電腦、可穿戴設備和數(shù)字電視等設備都有廣泛的應用前景。

“Arm正在為最大的計算生態(tài)系統(tǒng)提供普適應用,且對開發(fā)者友好的指令集。成為這一切的基石。“James McNiven信心滿滿:”現(xiàn)在正是移動設備行業(yè)的關鍵時刻。設備端AI再次重新定義了智能手機的‘智能性’。我們的最終目標是讓合作伙伴以及生態(tài)系統(tǒng)能夠不斷創(chuàng)新、實現(xiàn)差異化并更快地進入市場。“

分享到

xiesc

相關推薦