1.Arm Kleidi組成及特點(diǎn)
從概念上,Arm Kleidi是一個(gè)包含KleidiAI和KleidiCV這兩個(gè)針對(duì)Arm CPU高度優(yōu)化的計(jì)算內(nèi)核代碼的軟件庫(kù),它可以被直接整合進(jìn)各類(lèi)庫(kù)或者框架,從而讓絕大多數(shù)開(kāi)發(fā)者在Arm平臺(tái)上輕松獲得出色的性能表現(xiàn)。
其中,KleidiAI專(zhuān)注于機(jī)器學(xué)習(xí)(ML)運(yùn)行時(shí)的性能優(yōu)化,而KleidiCV則針對(duì)計(jì)算機(jī)視覺(jué)(CV)應(yīng)用進(jìn)行優(yōu)化。二者都是基于開(kāi)發(fā)者的實(shí)際需求,通過(guò)優(yōu)化ML和CV任務(wù)的執(zhí)行,提升整體性能。
KleidiAI的設(shè)計(jì)貫徹了“大道至簡(jiǎn)”的原則,覆蓋了開(kāi)發(fā)中最耗時(shí)的ML負(fù)載,選擇最合適的內(nèi)核處理任務(wù)。通過(guò)簡(jiǎn)化集成過(guò)程,KleidiAI使開(kāi)發(fā)者能夠輕松地將優(yōu)化后的內(nèi)核應(yīng)用于各種應(yīng)用中。根據(jù)Llama.cpp測(cè)試獲得的結(jié)果顯示,采用KleidiAI后,詞元(Token)首次響應(yīng)時(shí)間提升至之前的三倍,顯著改善了用戶(hù)體驗(yàn)。
MediaPipe是一個(gè)剛剛問(wèn)世幾個(gè)月的LLM API,幫助開(kāi)發(fā)者在不同的后端實(shí)現(xiàn)上運(yùn)行一系列的大模型,并同時(shí)支持多種操作系統(tǒng)。把KleidiAI整合進(jìn)MediaPipe的CPU執(zhí)行路徑所依賴(lài)的XNNPACK庫(kù)后,20億參數(shù)的Gemma模型運(yùn)行速度提升了25%;著名的游戲引擎Unity通過(guò)KleidiAI庫(kù)來(lái)加速Unity Sentis AI運(yùn)行,在性能與內(nèi)存占用率方面都取得了長(zhǎng)足進(jìn)步,雙方正在繼續(xù)推進(jìn)一些與高性能影像管線緊密相連的增強(qiáng)現(xiàn)實(shí)(AR)用例,KleidiAI支持Unity中基于量化網(wǎng)絡(luò)的內(nèi)核運(yùn)行速度達(dá)到了原先FP32實(shí)現(xiàn)的近五倍。
KleidiCV旨在解決計(jì)算機(jī)視覺(jué)應(yīng)用中的CPU瓶頸問(wèn)題。在Arm Cortex-X925 CPU上,KleidiCV的Neon與SVE2內(nèi)核實(shí)現(xiàn)帶來(lái)了顯著的性能提升。Arm正在與OpenCV.ai展開(kāi)合作,期待能有更多安卓開(kāi)發(fā)者能受益于KleidiCV。
在圖形渲染領(lǐng)域,Arm繼續(xù)在軟件前沿領(lǐng)域引領(lǐng)著移動(dòng)圖形渲染的發(fā)展,確保開(kāi)發(fā)者可以輕松利用Arm Immortalis GPU帶來(lái)的各種先進(jìn)技術(shù)與卓越性能。在作為Arm第三代支持光線追蹤的旗艦級(jí)GPU——Immortalis-G925其能力不斷被市場(chǎng)所認(rèn)可的同時(shí),大量的開(kāi)發(fā)者正在輕松地把游戲主機(jī)等級(jí)的畫(huà)面帶到移動(dòng)設(shè)備上。目前有十余款A(yù)AA手游大作都已經(jīng)或正在加入到光線追蹤內(nèi)容的大家庭;與Epic Games緊密合作以確保其SM5桌面渲染器能夠以極高的性能和極低的功耗運(yùn)行于該GPU上,就是一個(gè)典型的案例。
Arm正在進(jìn)一步發(fā)力教育培訓(xùn)工作,讓精彩的范例程序與教程經(jīng)驗(yàn)成果惠及更多的開(kāi)發(fā)者。
2.不斷擴(kuò)大的生態(tài)應(yīng)用
除了顯著提升AI和CV應(yīng)用的性能、降低開(kāi)發(fā)者的集成成本,Arm Kleidi還將在AI不斷發(fā)展的時(shí)代展現(xiàn)廣闊應(yīng)用前景。特別是在安卓和微軟生態(tài)系統(tǒng)中,Kleidi的優(yōu)化將為開(kāi)發(fā)者提供更多的支持。
1.安卓生態(tài):Kleidi通過(guò)優(yōu)化安卓平臺(tái)上的ML工作負(fù)載提升用戶(hù)體驗(yàn)。Arm與谷歌合作,優(yōu)化了Chromium瀏覽器的性能,并推動(dòng)了安卓動(dòng)態(tài)性能框架(ADF)的發(fā)展,提升了游戲和應(yīng)用的性能。隨著安卓系統(tǒng)的不斷升級(jí),Kleidi將在未來(lái)的安卓設(shè)備中發(fā)揮更大的作用。
2. 微軟生態(tài):在Windows on Arm平臺(tái)上,Kleidi的優(yōu)化將幫助開(kāi)發(fā)者更好地利用Arm架構(gòu)的優(yōu)勢(shì),提升應(yīng)用性能。越來(lái)越多的應(yīng)用程序成為Arm原生應(yīng)用,Arm通過(guò)資助開(kāi)源項(xiàng)目和發(fā)布適用于Windows的Arm性能庫(kù),進(jìn)一步發(fā)展了這個(gè)生態(tài)系統(tǒng)。
Arm Kleidi的推出,不僅是對(duì)現(xiàn)有軟件市場(chǎng)的一次重要補(bǔ)充,更是對(duì)未來(lái)AI和CV應(yīng)用性能提升的一次大膽探索。隨著技術(shù)的不斷進(jìn)步,Kleidi將在更多的設(shè)備和平臺(tái)上發(fā)揮其價(jià)值,推動(dòng)整個(gè)軟件生態(tài)系統(tǒng)的發(fā)展。
軟件趨勢(shì)與應(yīng)用潛力
除了發(fā)布Arm Kleidi軟件庫(kù),Arm還在其他方面加強(qiáng)軟件及生態(tài)的發(fā)力。
1.關(guān)注并開(kāi)啟在WebGPU上的開(kāi)發(fā)
WebGPU作為一個(gè)建立于Vulkan、Metal、DirectX等底層API之上的開(kāi)源中間層,正在逐漸取代傳統(tǒng)的WebGL和OpenGL。它提供了更多的硬件控制方法,同時(shí)簡(jiǎn)化了跨平臺(tái)應(yīng)用的開(kāi)發(fā)。Dawn是Chromium所使用的WebGPU后端或者做渲染引擎,憑借對(duì)底層硬件和驅(qū)動(dòng)更加熟悉的優(yōu)勢(shì),Arm對(duì)Dawn提交的第一個(gè)補(bǔ)丁就帶來(lái)了在Arm GPU平臺(tái)上15%的性能提升。
2.性能分析工具的軟件更新
Arm在性能分析工具領(lǐng)域也有一些新的變化。大家熟悉的Arm Mobile Studio正式更名為Arm Performance Studio,在針對(duì)移動(dòng)平臺(tái)功能的基礎(chǔ)上增加對(duì)Arm Linux的支持,讓服務(wù)器或者基礎(chǔ)設(shè)施市場(chǎng)中的開(kāi)發(fā)者可以使用Streamline CPU分析能力。Arm還為Performance Studio添加了兩個(gè)新的工具,RenderDoc for Arm GPUs最新版本已經(jīng)支持對(duì)光線追蹤內(nèi)容的錄制與回放,未來(lái)會(huì)把這些暫時(shí)獨(dú)有的特性盡可能多地合并到官方版本RenderDoc的開(kāi)源主干中,而新的Arm Frame Advisor可更好地向開(kāi)發(fā)者提供關(guān)于渲染負(fù)載的信息,以及更有針對(duì)性的建議。
3.合作推進(jìn)其他安卓新技術(shù)
(1)瀏覽器性能。瀏覽器性能是安卓用戶(hù)體驗(yàn)的關(guān)鍵部分。一年前,Arm與谷歌合作,將高性能版本的Chrome引入高端安卓設(shè)備,性能提高了30%。Arm還繼續(xù)針對(duì)Arm架構(gòu)和微架構(gòu)優(yōu)化Chromium,并與社區(qū)一起在去年共同實(shí)現(xiàn)并測(cè)量到了在Arm Cortex-X925上所實(shí)現(xiàn)的額外19%的提升。這不僅僅對(duì)Chrome有價(jià)值,選擇Chromium的眾多手機(jī)廠商也也必將受益于這些工作的成果。
(2)安卓動(dòng)態(tài)性能框架(Android Dynamic Performance Framework,ADPF)。支持生態(tài)系統(tǒng)通過(guò)及時(shí)響應(yīng)操作系統(tǒng)的反饋來(lái)動(dòng)態(tài)調(diào)整內(nèi)容行為的能力,幫助開(kāi)發(fā)者更好地管理應(yīng)用程序運(yùn)行時(shí)的發(fā)熱。它還允許開(kāi)發(fā)者更好地表達(dá)需要完成特定負(fù)載計(jì)算的精確截止時(shí)刻,以便保證系統(tǒng)調(diào)度程序和DVFS能夠更有效地運(yùn)。
MediaTek目前正在與谷歌合作,將MediaTek游戲自適應(yīng)調(diào)控技術(shù)的功能合并到ADPF中,并且已經(jīng)與多個(gè)游戲引擎實(shí)現(xiàn)了良好的集成。ADPF現(xiàn)在開(kāi)始出現(xiàn)在真實(shí)游戲中,例如Kakao Games的《阿瑞斯:守護(hù)者崛起》。未來(lái)會(huì)有越來(lái)越多的游戲加入到這一行列中。
(3)內(nèi)存安全。去年Arm內(nèi)存標(biāo)記擴(kuò)展(Memory Tagging Extension, MTE)在榮耀(Honor)的開(kāi)發(fā)者設(shè)備測(cè)試中初步嘗試,現(xiàn)在消費(fèi)者手中終于擁有了支持MTE的首批設(shè)備——Pixel 8和vivo X100。一旦啟用了MTE,Chrome將自動(dòng)進(jìn)入MTE保護(hù)模式,以減少出現(xiàn)安全漏洞的可能性。
(4)鞏固和擴(kuò)大Windows on Arm生態(tài)應(yīng)用。
Windows on Arm生態(tài)過(guò)去一年進(jìn)展斐然,如Chrome瀏覽器加入了Office、Dropbox、Zoom和Adobe等應(yīng)用的行列,許多面向創(chuàng)作者的開(kāi)源工具也出現(xiàn)在Windows on Arm平臺(tái)上,這些應(yīng)用程序證明了大量開(kāi)源庫(kù)和開(kāi)發(fā)者工具正在完成適配工作。Arm還在與微軟合作,通過(guò)資助開(kāi)源項(xiàng)目和發(fā)布適用于Windows的Arm性能庫(kù)來(lái)進(jìn)一步發(fā)展這個(gè)生態(tài)系統(tǒng),愛(ài)奇藝已經(jīng)可以在Windows on Arm平臺(tái)上原生運(yùn)行。
借力Arm,成為最后的贏家
在過(guò)去18個(gè)月內(nèi),擴(kuò)散網(wǎng)絡(luò)模型在Arm處理器上完成圖像生成任務(wù)時(shí)的性能表現(xiàn)實(shí)現(xiàn)了高達(dá)35倍的飛躍,而且這一切都是基于相關(guān)領(lǐng)域的研究進(jìn)展,并沒(méi)有包含太多針對(duì)硬件的特別優(yōu)化。
安謀科技(Arm China)開(kāi)發(fā)者生態(tài)高級(jí)經(jīng)理李陳魯表示,李陳魯認(rèn)為,從性能的角度出發(fā),有時(shí)候選擇遠(yuǎn)比努力更重要,如在過(guò)去的某個(gè)時(shí)間點(diǎn)上,從PyTorch遷移到ONNXRuntime就帶來(lái)了巨大的性能提升。因此他判斷:在一個(gè)快速變化的環(huán)境里,對(duì)于某個(gè)特定模型或者框架過(guò)度投入、深度綁定,未必是種很明智的決定,永遠(yuǎn)選擇那個(gè)在CPU上跑得飛快的模型才能成為最后的贏家。
“在一個(gè)飛速發(fā)展的行業(yè)里,有時(shí)候你可以什么都不做,只需靜靜期待美好的到來(lái)?!痹诶铌愻斂磥?lái),Arm就是給開(kāi)發(fā)者帶來(lái)美好未來(lái)的那個(gè)福音。