一、Arm C1 CPU集群:SME2賦能的端側(cè)AI算力躍遷
作為Arm Lumex CSS平臺(tái)的計(jì)算核心,基于Armv9.3架構(gòu)的Arm C1 CPU集群通過硬件級AI加速與異構(gòu)核心設(shè)計(jì),構(gòu)建了從旗艦到邊緣設(shè)備的全場景算力底座。其最核心的技術(shù)突破在于第二代可伸縮矩陣擴(kuò)展(SME2)的原生集成,這一技術(shù)專為AI工作負(fù)載設(shè)計(jì),通過增強(qiáng)矩陣運(yùn)算單元的并行性與內(nèi)存訪問效率,實(shí)現(xiàn)了計(jì)算密度的質(zhì)的飛躍。
從實(shí)測數(shù)據(jù)看,啟用SME2的Arm C1 CPU集群在生成式AI、語音識別等典型場景中展現(xiàn)出顛覆性性能:在Whisper Base語音模型中,語音轉(zhuǎn)文字的延遲從1495ms降至315ms,降低4.7倍;Google Gemma 3大語言模型的編碼速度從84 Token/s提升至398 Token/s,性能提升4.7倍;Stability AI Stable Audio音頻生成時(shí)間從27秒縮短至9.7秒,提速2.8倍。
異構(gòu)核心的精準(zhǔn)分工是Arm C1 CPU集群的另一大技術(shù)亮點(diǎn)。Arm C1-Ultra作為旗艦核心,通過業(yè)界領(lǐng)先的前端設(shè)計(jì)與最寬微架構(gòu)(10寬發(fā)射),實(shí)現(xiàn)了較上一代Cortex-X925高達(dá)25%的單線程峰值性能提升,其每時(shí)鐘周期指令數(shù)(IPC)的兩位數(shù)增長,確保在大模型推理、計(jì)算攝影等場景中瞬間釋放算力。而Arm C1-Premium作為首款次旗艦核心,通過縮減35%的核心面積,在SPECint2017基準(zhǔn)測試中保持與C1-Ultra相當(dāng)?shù)男阅?,?shí)現(xiàn)了面積效率的突破。
面向能效敏感場景的Arm C1-Pro,通過增強(qiáng)型分支預(yù)測器(預(yù)測準(zhǔn)確率提升8%)與內(nèi)存系統(tǒng)更新,在相同主頻下較Cortex-A725實(shí)現(xiàn)16%的持續(xù)性能提升,同時(shí)在視頻播放、網(wǎng)頁瀏覽等日常負(fù)載中能效優(yōu)化12%。而Arm C1-Nano則通過解耦預(yù)測-取指流水線設(shè)計(jì),在核心面積縮小2%的情況下,SPECint2017性能提升5.5%,能效較Cortex-A520提升26%,成為可穿戴設(shè)備的理想選擇。
系統(tǒng)級協(xié)同方面,全新Arm C1-DSU(DynamIQ共享單元)通過動(dòng)態(tài)電源管理與帶寬優(yōu)化,較上一代DSU-120功耗降低26%,同時(shí)支持最多8個(gè)核心的靈活配置。例如,啟用了SME2技術(shù)的Arm C1-Pro與C1-Nano的組合可使中端設(shè)備計(jì)算密度提升兩倍,滿足實(shí)時(shí)翻譯、智能助手等場景需求。
二、Mali G1-Ultra GPU:光線追蹤與AI推理的硬件級融合
Mali G1-Ultra作為Arm Lumex CSS平臺(tái)的圖形與AI加速核心,通過架構(gòu)重構(gòu)實(shí)現(xiàn)了移動(dòng)設(shè)備上”視覺保真與智能響應(yīng)”的雙重突破。其第二代光線追蹤單元(RTUv2)采用單光線模型與獨(dú)立硬件設(shè)計(jì),較上一代RTUv1實(shí)現(xiàn)兩倍光線追蹤性能提升,在《Mori 林間鼯語》演示中幀率從26.8 FPS提升至37.5 FPS,同時(shí)支持完全獨(dú)立的電源域控制,可在設(shè)備空閑時(shí)斷電,從而為其他任務(wù)節(jié)省電力。
在游戲性能方面,Mali G1-Ultra通過雙堆疊著色器核心設(shè)計(jì)(內(nèi)部帶寬提升100%)與快速訪問統(tǒng)一寄存器,在主流游戲中實(shí)現(xiàn)全面提升:《暗區(qū)突圍》性能提升25%,《崩壞:星穹鐵道》提升19%,《原神》提升17%。此外,Mali G1-Ultra還引入了Arm圖像區(qū)域依賴(IRD),使GPU可同時(shí)處理屏幕不同區(qū)域的渲染任務(wù),從而在復(fù)雜場景中提升性能并減少空閑時(shí)間。
AI加速能力上,Mali G1-Ultra新增的FP16矩陣乘法單元(MMUL)專為端側(cè)實(shí)時(shí)智能設(shè)計(jì),較上一代Immortalis-G925實(shí)現(xiàn)20%的AI推理加速,其中語音識別性能提升104%,圖像增強(qiáng)提升17%。通過擴(kuò)大L2緩存與優(yōu)化的互連設(shè)計(jì),該GPU可大幅減少內(nèi)存瓶頸,并確保實(shí)時(shí)體驗(yàn)的靈敏響應(yīng)與流暢運(yùn)行。
三、系統(tǒng)架構(gòu)與軟件生態(tài):高性能與可擴(kuò)展性的底層支撐
Arm Lumex CSS平臺(tái)的卓越表現(xiàn)離不開系統(tǒng)級互連與內(nèi)存架構(gòu)的革新。全新SI L1系統(tǒng)互連配備業(yè)內(nèi)先進(jìn)的,且具有出色面積效率的系統(tǒng)級緩存(SLC),泄漏功耗較標(biāo)準(zhǔn)RAM降低71%,顯著減少設(shè)備待機(jī)功耗。該互連支持Arm內(nèi)存標(biāo)記擴(kuò)展(MTE),可提供一流安全性。
軟件生態(tài)方面,Arm KleidiAI庫實(shí)現(xiàn)了SME2加速的無縫調(diào)用,已與阿里巴巴MNN、Google LiteRT、微軟ONNX Runtime等主流框架深度集成。開發(fā)者無需修改代碼,通過框架自動(dòng)優(yōu)化即可獲得性能提升。Google的Gmail、YouTube等應(yīng)用已完成SME2適配,設(shè)備上市即可啟用優(yōu)化功能。
工具鏈方面,Arm Lumex CSS提供自頂向下的遙測解決方案,結(jié)合Vulkan計(jì)數(shù)器與RenderDoc調(diào)試工具,開發(fā)者能夠?qū)崟r(shí)分析工作負(fù)載、調(diào)優(yōu)延遲,并精確平衡電池續(xù)航與視覺效果。
技術(shù)總結(jié):重新定義端側(cè)計(jì)算的黃金標(biāo)準(zhǔn)
Arm Lumex CSS平臺(tái)通過Arm C1 CPU集群的SME2加速、Mali G1-Ultra的架構(gòu)革新與系統(tǒng)級協(xié)同設(shè)計(jì),構(gòu)建了”性能-能效-面積”的最優(yōu)解。其核心突破在于:實(shí)現(xiàn)AI工作負(fù)載五倍性能提升的同時(shí)能效優(yōu)化三倍;光線追蹤性能提升兩倍且支持桌面級視覺效果;通過靈活配置覆蓋從旗艦手機(jī)到可穿戴設(shè)備的全場景需求。
隨著搭載Arm Lumex CSS平臺(tái)的移動(dòng)終端產(chǎn)品陸續(xù)落地,智能手機(jī)將真正邁入”實(shí)時(shí)端側(cè)AI”時(shí)代——從10億參數(shù)大模型的本地運(yùn)行,到4K HDR視頻的實(shí)時(shí)AI增強(qiáng),再到主機(jī)級游戲體驗(yàn)的持續(xù)輸出,Arm Lumex CSS平臺(tái)正在重塑用戶與技術(shù)交互的每一個(gè)瞬間。