“AI時(shí)代正加速發(fā)展,復(fù)雜性隨之不斷提高,計(jì)算需求呈指數(shù)級(jí)增長(zhǎng)。我們不斷傾聽(tīng)合作伙伴的意見(jiàn),善用最新的工藝節(jié)點(diǎn)持續(xù)迭代更新產(chǎn)品及解決方案,并提供可為實(shí)現(xiàn)設(shè)備端AI奠定基礎(chǔ)的平臺(tái)?!?月30日,Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven在北京召開(kāi)的媒體溝通會(huì)上如是說(shuō)。
提供業(yè)界領(lǐng)先性能的核心部件
Arm終端CSS整合了最新的Armv9.2 CPU、Immortalis GPU、CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元(SMMU),并優(yōu)化到內(nèi)存及SoC其他部分的計(jì)算路徑,同時(shí)結(jié)合了在軟件、安全和生態(tài)領(lǐng)域的創(chuàng)新。
Cortex-X925是Cortex-X推出以來(lái)IPC同比性能增長(zhǎng)最高的CPU。結(jié)合新設(shè)計(jì)所實(shí)現(xiàn)的微架構(gòu)改進(jìn)和頻率提升,Arm具備迄今為止最寬的解碼和巨幅提升的矢量設(shè)計(jì),在3.8GHz的時(shí)鐘速率和最大私有L2緩存大小的條件下,Cortex-X925比2023年發(fā)布的旗艦智能手機(jī)的四納米SoC實(shí)現(xiàn)了36%的單線程性能增長(zhǎng)。在?AI性能方面,與上一代的Cortex-X CPU相比,Token首次響應(yīng)時(shí)間提高了41%,TOPS數(shù)實(shí)現(xiàn)了50%的增長(zhǎng),大語(yǔ)言模型(LLM)等設(shè)備端生成式AI的響應(yīng)能力顯著提高。
毫無(wú)疑問(wèn),這些成果是Arm RTL和物理設(shè)計(jì)團(tuán)隊(duì)之間就三納米工藝的頻率和效率提升展開(kāi)進(jìn)一步協(xié)作成果。
另一款CPU——Cortex-A725針對(duì)AI和手游用例的性能效率比Cortex-A720提高了35%。這一改進(jìn)得益于更新后的Arm Cortex-A520 CPU與更新后的DSU-120,使得采用最新Armv9 CPU集群的消費(fèi)電子設(shè)備可提升能效和可擴(kuò)展性。
Immortalis-G925是Arm性能最強(qiáng)、效率最高的GPU,也是Arm第三代具備光線追蹤技術(shù)的GPU。在圖形應(yīng)用方面,其性能提高了37%,在多個(gè)AI/ML網(wǎng)絡(luò)上進(jìn)行測(cè)量時(shí)性能也有約34%的提升。2022年引入智能手機(jī)的光線追蹤技術(shù)水平也得到大幅提升,在面對(duì)復(fù)雜物體時(shí)甚至提升高達(dá)52%。
除了通過(guò)CSS推動(dòng)性能和效率提升之外,Arm致力于為每一位安卓設(shè)備用戶提高性能。在Cortex-X925帶來(lái)的30%性能提升基礎(chǔ)上,Arm對(duì)網(wǎng)頁(yè)瀏覽器進(jìn)行的改進(jìn),使其性能提高了23%,國(guó)內(nèi)的手機(jī)廠商也將這些改進(jìn)引入到其他瀏覽器中。與此同時(shí),Arm繼續(xù)攜手Google推動(dòng)其安卓動(dòng)態(tài)性能框架(Android Dynamic Performance Framework)的發(fā)展,最新版本的框架中高端內(nèi)容的每幀能耗降低了25%,幀速率則提高了35%。此外,通過(guò)調(diào)整安卓工作負(fù)載在不同CPU核心之間的平衡方式,YouTube節(jié)省了高達(dá)10%的功耗。針對(duì)Google的AV1視頻編解碼器進(jìn)行的軟件優(yōu)化,使當(dāng)下安卓設(shè)備的視頻性能最多可提高40%。
“上述這些僅是Arm引入的眾多性能改進(jìn)中的一部分?!盝ames McNiven說(shuō)。他認(rèn)為,Arm在游戲和圖形技術(shù)領(lǐng)域?qū)﹂_(kāi)發(fā)者的投入無(wú)出其右,并致力于讓開(kāi)發(fā)者盡可能輕松地在移動(dòng)設(shè)備上實(shí)現(xiàn)游戲主機(jī)級(jí)內(nèi)容。他透露,今年將持續(xù)開(kāi)展全球的開(kāi)發(fā)者教育活動(dòng),以確保游戲開(kāi)發(fā)者能夠再現(xiàn)更多精彩示例內(nèi)容。
發(fā)布Kleidi軟件
在當(dāng)今的AI和計(jì)算機(jī)視覺(jué)軟件領(lǐng)域有著諸多解決方案,它們首先是為CPU構(gòu)建的,其中許多解決方案內(nèi)嵌在CPU中。由于70%的第三方安卓ML工作負(fù)載都以CPU為目標(biāo),因此性能越高,開(kāi)發(fā)者就能越快地將功能推出,并專注于下一個(gè)創(chuàng)新。
Arm Kleidi的作用正是如此,它包括一系列輕量級(jí)的開(kāi)源庫(kù),這些小型、高度優(yōu)化的內(nèi)核,可集成或嵌入到涉及AI或計(jì)算視覺(jué)的任何平臺(tái),使開(kāi)發(fā)者在部署到任何Arm終端CSS上時(shí)均能獲得優(yōu)異性能。
目前Kleidi推出兩個(gè)軟件庫(kù)。其中,KleidiAI是一套面向AI框架開(kāi)發(fā)者的計(jì)算內(nèi)核,搭配Arm CSS的KleidiAI通過(guò)Neon、SVE2和SME2等一系列Arm的加速技術(shù),顯著提高計(jì)算應(yīng)用的性能。當(dāng)運(yùn)行于Cortex-X925上時(shí),Kleidi技術(shù)支持最新的Llama3和Phi-3 LLM,速度比參考實(shí)現(xiàn)快2.9倍,而且耗時(shí)不足24小時(shí)。
此外,KleidiCV則是面向計(jì)算機(jī)視覺(jué)應(yīng)用的開(kāi)源庫(kù),它優(yōu)化了性能關(guān)鍵例程,利用ACLE內(nèi)聯(lián)函數(shù),直接映射到Arm SIMD指令,為Neon、SVE2或Streaming SVE&SME2提供了三種不同的實(shí)現(xiàn),還可自動(dòng)檢測(cè)運(yùn)行硬件并選擇最佳實(shí)現(xiàn)。KleidiCV還具有靈活性、簡(jiǎn)單但快速的圖像操作、輕量級(jí)等特點(diǎn),在OpenCV的基準(zhǔn)測(cè)試中,通過(guò)啟用KleidiCV,可以在某些情況下顯著加速OpenCV的性能,平均性能提升超過(guò)75%。
Kleidi既可以出色運(yùn)行在Arm已推出的CPU核心上,也為解鎖未來(lái)Armv9架構(gòu)的CPU創(chuàng)新做好了準(zhǔn)備,前后兼容的方式確保Arm在引入更多技術(shù)時(shí)依然能適用未來(lái)市場(chǎng)的需求。
“Kleidi“一詞來(lái)源于希臘語(yǔ),意為“鑰匙”;Arm相信,Kleidi的推出,將為開(kāi)發(fā)者釋放更多優(yōu)勢(shì)性能的“鑰匙”。
推進(jìn)安全技術(shù)收獲頗豐
Arm 終端 CSS基于最新的Armv9架構(gòu),該架構(gòu)提供了一系列的安全性功能,比如內(nèi)存標(biāo)簽擴(kuò)展(Memory Tagging Extension, MTE),幫助開(kāi)發(fā)者在無(wú)需侵入式檢測(cè)的情況下查找和修復(fù)代碼中的錯(cuò)誤,有助于加強(qiáng)內(nèi)存子系統(tǒng)中可能出現(xiàn)的安全漏洞的防范。最新的Corelink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元可以提供安全的內(nèi)存訪問(wèn)控制,增強(qiáng)了整個(gè)系統(tǒng)的安全性,私有L2緩存也有助于提升數(shù)據(jù)的安全性。
此外,Arm 終端 CSS的設(shè)計(jì)允許軟件和硬件之間的緊密集成,使得安全特性可以貫穿整個(gè)系統(tǒng),提供更全面的保護(hù)。
生態(tài)建設(shè)成果豐碩
生態(tài)系統(tǒng)的建設(shè)對(duì)于 Arm 而言至關(guān)重要。近年來(lái),Arm與微軟始終緊密合作合作,通過(guò)資助開(kāi)源和發(fā)布面向Windows的Arm Performance Libraries,有效地發(fā)展生態(tài)系統(tǒng)。
而對(duì)于Windows on Arm (WoA)生態(tài)系統(tǒng)來(lái)說(shuō),今年是成果豐碩、值得大書(shū)特書(shū)的一年。
除了Microsoft Office、Dropbox、Zoom、Adobe套件等,越來(lái)越多的應(yīng)用成為Arm原生應(yīng)用,包括百度、嗶哩嗶哩、Chrome瀏覽器、愛(ài)奇藝、搜狗、騰訊QQ音樂(lè)等,此外,還有許多針對(duì)創(chuàng)作者的開(kāi)源工具,例如Audacity、Blender和用于流媒體的OBS Studio,這些應(yīng)用整合了大量的開(kāi)源庫(kù)和開(kāi)發(fā)者工具,幫助更多的用戶更好地運(yùn)行原生應(yīng)用。
為合作伙伴和最終用戶帶來(lái)最大收益
過(guò)去幾年來(lái),Arm處理器除了后端的計(jì)算能力大幅提升,前端訪存能力也因持續(xù)加大的投資帶來(lái)了測(cè)試數(shù)據(jù)的增長(zhǎng),指令預(yù)取、分支預(yù)測(cè)、cache能力等應(yīng)用程序的性能也大幅度提升。vivo得益于Arm的這一態(tài)勢(shì)。
2023年,vivo與MediaTek合作在X100手機(jī)采用的藍(lán)晶芯片技術(shù)棧中使用了全大核架構(gòu),讓手機(jī)的流暢性達(dá)到了極高水準(zhǔn),背后就是Arm微架構(gòu)展示的價(jià)值。除了充分發(fā)揮了CPU的能力,vivo還和Arm合作把瀏覽器的性能提升了20%,這相當(dāng)于一代處理器能力的提升。vivo首席芯片規(guī)劃專家夏曉菲表示,vivo 非常注重用戶體驗(yàn),在 Arm CSS 的技術(shù)基礎(chǔ)之上,vivo與 Arm 的密切合作,共同推動(dòng)開(kāi)發(fā)者生態(tài),使手機(jī)更流暢更好用,同時(shí)也為設(shè)備端帶來(lái)了前沿的 AI 體驗(yàn)。vivo很高興看到 Arm 終端 CSS 所引入的新方向,以及通過(guò) Armv9 CPU 與 Arm GPU,這套計(jì)算子系統(tǒng)將賦能新一代設(shè)備端生成式 AI,從而實(shí)現(xiàn)沉浸式的智能移動(dòng)端解決方案。
此外,OPPO、三星和小米等手機(jī)品牌商也推出了AI應(yīng)用和用例。除了智能手機(jī),筆記本電腦、可穿戴設(shè)備和數(shù)字電視等設(shè)備都有廣泛的應(yīng)用前景。
“Arm正在為最大的計(jì)算生態(tài)系統(tǒng)提供普適應(yīng)用,且對(duì)開(kāi)發(fā)者友好的指令集。成為這一切的基石?!癑ames McNiven信心滿滿:”現(xiàn)在正是移動(dòng)設(shè)備行業(yè)的關(guān)鍵時(shí)刻。設(shè)備端AI再次重新定義了智能手機(jī)的‘智能性’。我們的最終目標(biāo)是讓合作伙伴以及生態(tài)系統(tǒng)能夠不斷創(chuàng)新、實(shí)現(xiàn)差異化并更快地進(jìn)入市場(chǎng)?!?/p>