1.Arm Kleidi組成及特點

從概念上,Arm Kleidi是一個包含KleidiAI和KleidiCV這兩個針對Arm CPU高度優(yōu)化的計算內(nèi)核代碼的軟件庫,它可以被直接整合進各類庫或者框架,從而讓絕大多數(shù)開發(fā)者在Arm平臺上輕松獲得出色的性能表現(xiàn)。

其中,KleidiAI專注于機器學(xué)習(xí)(ML)運行時的性能優(yōu)化,而KleidiCV則針對計算機視覺(CV)應(yīng)用進行優(yōu)化。二者都是基于開發(fā)者的實際需求,通過優(yōu)化ML和CV任務(wù)的執(zhí)行,提升整體性能。

KleidiAI的設(shè)計貫徹了“大道至簡”的原則,覆蓋了開發(fā)中最耗時的ML負(fù)載,選擇最合適的內(nèi)核處理任務(wù)。通過簡化集成過程,KleidiAI使開發(fā)者能夠輕松地將優(yōu)化后的內(nèi)核應(yīng)用于各種應(yīng)用中。根據(jù)Llama.cpp測試獲得的結(jié)果顯示,采用KleidiAI后,詞元(Token)首次響應(yīng)時間提升至之前的三倍,顯著改善了用戶體驗。

MediaPipe是一個剛剛問世幾個月的LLM API,幫助開發(fā)者在不同的后端實現(xiàn)上運行一系列的大模型,并同時支持多種操作系統(tǒng)。把KleidiAI整合進MediaPipe的CPU執(zhí)行路徑所依賴的XNNPACK庫后,20億參數(shù)的Gemma模型運行速度提升了25%;著名的游戲引擎Unity通過KleidiAI庫來加速Unity Sentis AI運行,在性能與內(nèi)存占用率方面都取得了長足進步,雙方正在繼續(xù)推進一些與高性能影像管線緊密相連的增強現(xiàn)實(AR)用例,KleidiAI支持Unity中基于量化網(wǎng)絡(luò)的內(nèi)核運行速度達到了原先FP32實現(xiàn)的近五倍。

KleidiCV旨在解決計算機視覺應(yīng)用中的CPU瓶頸問題。在Arm Cortex-X925 CPU上,KleidiCV的Neon與SVE2內(nèi)核實現(xiàn)帶來了顯著的性能提升。Arm正在與OpenCV.ai展開合作,期待能有更多安卓開發(fā)者能受益于KleidiCV。

在圖形渲染領(lǐng)域,Arm繼續(xù)在軟件前沿領(lǐng)域引領(lǐng)著移動圖形渲染的發(fā)展,確保開發(fā)者可以輕松利用Arm Immortalis GPU帶來的各種先進技術(shù)與卓越性能。在作為Arm第三代支持光線追蹤的旗艦級GPU——Immortalis-G925其能力不斷被市場所認(rèn)可的同時,大量的開發(fā)者正在輕松地把游戲主機等級的畫面帶到移動設(shè)備上。目前有十余款A(yù)AA手游大作都已經(jīng)或正在加入到光線追蹤內(nèi)容的大家庭;與Epic Games緊密合作以確保其SM5桌面渲染器能夠以極高的性能和極低的功耗運行于該GPU上,就是一個典型的案例。

Arm正在進一步發(fā)力教育培訓(xùn)工作,讓精彩的范例程序與教程經(jīng)驗成果惠及更多的開發(fā)者。

2.不斷擴大的生態(tài)應(yīng)用

除了顯著提升AI和CV應(yīng)用的性能、降低開發(fā)者的集成成本,Arm Kleidi還將在AI不斷發(fā)展的時代展現(xiàn)廣闊應(yīng)用前景。特別是在安卓和微軟生態(tài)系統(tǒng)中,Kleidi的優(yōu)化將為開發(fā)者提供更多的支持。

1.安卓生態(tài):Kleidi通過優(yōu)化安卓平臺上的ML工作負(fù)載提升用戶體驗。Arm與谷歌合作,優(yōu)化了Chromium瀏覽器的性能,并推動了安卓動態(tài)性能框架(ADF)的發(fā)展,提升了游戲和應(yīng)用的性能。隨著安卓系統(tǒng)的不斷升級,Kleidi將在未來的安卓設(shè)備中發(fā)揮更大的作用。

2. 微軟生態(tài):在Windows on Arm平臺上,Kleidi的優(yōu)化將幫助開發(fā)者更好地利用Arm架構(gòu)的優(yōu)勢,提升應(yīng)用性能。越來越多的應(yīng)用程序成為Arm原生應(yīng)用,Arm通過資助開源項目和發(fā)布適用于Windows的Arm性能庫,進一步發(fā)展了這個生態(tài)系統(tǒng)。

Arm Kleidi的推出,不僅是對現(xiàn)有軟件市場的一次重要補充,更是對未來AI和CV應(yīng)用性能提升的一次大膽探索。隨著技術(shù)的不斷進步,Kleidi將在更多的設(shè)備和平臺上發(fā)揮其價值,推動整個軟件生態(tài)系統(tǒng)的發(fā)展。

軟件趨勢與應(yīng)用潛力

除了發(fā)布Arm Kleidi軟件庫,Arm還在其他方面加強軟件及生態(tài)的發(fā)力。

1.關(guān)注并開啟在WebGPU上的開發(fā)

WebGPU作為一個建立于Vulkan、Metal、DirectX等底層API之上的開源中間層,正在逐漸取代傳統(tǒng)的WebGL和OpenGL。它提供了更多的硬件控制方法,同時簡化了跨平臺應(yīng)用的開發(fā)。Dawn是Chromium所使用的WebGPU后端或者做渲染引擎,憑借對底層硬件和驅(qū)動更加熟悉的優(yōu)勢,Arm對Dawn提交的第一個補丁就帶來了在Arm GPU平臺上15%的性能提升。

2.性能分析工具的軟件更新

Arm在性能分析工具領(lǐng)域也有一些新的變化。大家熟悉的Arm Mobile Studio正式更名為Arm Performance Studio,在針對移動平臺功能的基礎(chǔ)上增加對Arm Linux的支持,讓服務(wù)器或者基礎(chǔ)設(shè)施市場中的開發(fā)者可以使用Streamline CPU分析能力。Arm還為Performance Studio添加了兩個新的工具,RenderDoc for Arm GPUs最新版本已經(jīng)支持對光線追蹤內(nèi)容的錄制與回放,未來會把這些暫時獨有的特性盡可能多地合并到官方版本RenderDoc的開源主干中,而新的Arm Frame Advisor可更好地向開發(fā)者提供關(guān)于渲染負(fù)載的信息,以及更有針對性的建議。

3.合作推進其他安卓新技術(shù)

(1)瀏覽器性能。瀏覽器性能是安卓用戶體驗的關(guān)鍵部分。一年前,Arm與谷歌合作,將高性能版本的Chrome引入高端安卓設(shè)備,性能提高了30%。Arm還繼續(xù)針對Arm架構(gòu)和微架構(gòu)優(yōu)化Chromium,并與社區(qū)一起在去年共同實現(xiàn)并測量到了在Arm Cortex-X925上所實現(xiàn)的額外19%的提升。這不僅僅對Chrome有價值,選擇Chromium的眾多手機廠商也也必將受益于這些工作的成果。

(2)安卓動態(tài)性能框架(Android Dynamic Performance Framework,ADPF)。支持生態(tài)系統(tǒng)通過及時響應(yīng)操作系統(tǒng)的反饋來動態(tài)調(diào)整內(nèi)容行為的能力,幫助開發(fā)者更好地管理應(yīng)用程序運行時的發(fā)熱。它還允許開發(fā)者更好地表達需要完成特定負(fù)載計算的精確截止時刻,以便保證系統(tǒng)調(diào)度程序和DVFS能夠更有效地運。

MediaTek目前正在與谷歌合作,將MediaTek游戲自適應(yīng)調(diào)控技術(shù)的功能合并到ADPF中,并且已經(jīng)與多個游戲引擎實現(xiàn)了良好的集成。ADPF現(xiàn)在開始出現(xiàn)在真實游戲中,例如Kakao Games的《阿瑞斯:守護者崛起》。未來會有越來越多的游戲加入到這一行列中。

(3)內(nèi)存安全。去年Arm內(nèi)存標(biāo)記擴展(Memory Tagging Extension, MTE)在榮耀(Honor)的開發(fā)者設(shè)備測試中初步嘗試,現(xiàn)在消費者手中終于擁有了支持MTE的首批設(shè)備——Pixel 8和vivo X100。一旦啟用了MTE,Chrome將自動進入MTE保護模式,以減少出現(xiàn)安全漏洞的可能性。

(4)鞏固和擴大Windows on Arm生態(tài)應(yīng)用。

Windows on Arm生態(tài)過去一年進展斐然,如Chrome瀏覽器加入了Office、Dropbox、Zoom和Adobe等應(yīng)用的行列,許多面向創(chuàng)作者的開源工具也出現(xiàn)在Windows on Arm平臺上,這些應(yīng)用程序證明了大量開源庫和開發(fā)者工具正在完成適配工作。Arm還在與微軟合作,通過資助開源項目和發(fā)布適用于Windows的Arm性能庫來進一步發(fā)展這個生態(tài)系統(tǒng),愛奇藝已經(jīng)可以在Windows on Arm平臺上原生運行。

借力Arm,成為最后的贏家

在過去18個月內(nèi),擴散網(wǎng)絡(luò)模型在Arm處理器上完成圖像生成任務(wù)時的性能表現(xiàn)實現(xiàn)了高達35倍的飛躍,而且這一切都是基于相關(guān)領(lǐng)域的研究進展,并沒有包含太多針對硬件的特別優(yōu)化。

安謀科技(Arm China)開發(fā)者生態(tài)高級經(jīng)理李陳魯

安謀科技(Arm China)開發(fā)者生態(tài)高級經(jīng)理李陳魯表示,李陳魯認(rèn)為,從性能的角度出發(fā),有時候選擇遠比努力更重要,如在過去的某個時間點上,從PyTorch遷移到ONNXRuntime就帶來了巨大的性能提升。因此他判斷:在一個快速變化的環(huán)境里,對于某個特定模型或者框架過度投入、深度綁定,未必是種很明智的決定,永遠選擇那個在CPU上跑得飛快的模型才能成為最后的贏家。

“在一個飛速發(fā)展的行業(yè)里,有時候你可以什么都不做,只需靜靜期待美好的到來?!痹诶铌愻斂磥恚珹rm就是給開發(fā)者帶來美好未來的那個福音。

分享到

xiesc

相關(guān)推薦