華為UCM在9月30日開源上線,其方案介紹中也提到了稀疏化相關(guān)內(nèi)容。令人驚喜的是,UCM提供的并非僅僅一種稀疏化算法,而是四種:ESA、GSA、KVComp和KVStar,這幾種算法分別對應(yīng)不同的稀疏化策略。同時(shí),UCM提供了統(tǒng)一的稀疏化框架,所有模型可以按需適配不同的稀疏化策略,也支持用戶自定義使用自己的稀疏化算法。UCM的理念是——針對不同模型、不同場景,稀疏化算法將朝多元化方向演進(jìn)。其中,DSA attention模塊使用了“Lightning indexer & top-k selector”進(jìn)行重點(diǎn)token的篩選,這與UCM中“Retrieval_engine”的設(shè)計(jì)有相似之處。

兩者的共同點(diǎn)在于利用Query tensor在歷史的KV Cache中進(jìn)行檢索,檢索出來的topk個token參與模型的attention計(jì)算。

不同點(diǎn)在于:1. DSA中篩選的粒度是token,UCM篩選的粒度則可以是token或者block;2. DSA的Indexer是含參的,UCM的Retrieval_engine模塊則可以是帶參的,也可以是無參數(shù)的;3. DSA目前實(shí)現(xiàn)了attention計(jì)算復(fù)雜度上的降低,但是沒有減小顯存中KV Cache的占用,UCM則利用Store換入換出節(jié)省了顯存資源,進(jìn)一步提高并發(fā)收益。可以期待下,UCM的框架后續(xù)是否能配套使用DeepSeek的DSA。

華為開源UCM架構(gòu)圖

經(jīng)過對比分析可以看到,DeepSeek與UCM的稀疏化路徑有所不同:前者作為模型廠商,DSA是與訓(xùn)練過程深度結(jié)合的稀疏化模型;而后者提供推理加速方案,是基于已有模型無需額外訓(xùn)練就可實(shí)現(xiàn)的稀疏化,并希望在推理引擎層面更好地支持多種稀疏化算法。從已公布的吞吐提升與精度表現(xiàn)來看,DeepSeek DSA與UCM都實(shí)現(xiàn)了顯著的推理加速,同時(shí)保持了較高的模型精度??梢灶A(yù)見,稀疏化將成為繼PD分離之后,AI推理領(lǐng)域的又一大熱門方向,甚至是未來推理系統(tǒng)的“標(biāo)配”。

回顧此前的Mixture of Block Attention (簡稱MOBA)和NSA等稀疏注意力機(jī)制的提出,標(biāo)志著研究者開始嘗試在保持模型性能的前提下,通過結(jié)構(gòu)性剪枝或局部聚焦的方式,減少無效計(jì)算。如今,DSA與UCM的出現(xiàn),有望推動稀疏化從理論研究走向?qū)嶋H部署。在稀疏化的加持下,訓(xùn)練與推理成本的降低將進(jìn)一步提升模型的上下文處理能力——1M token的上下文長度不再是理論值,而是可在實(shí)際應(yīng)用中實(shí)現(xiàn)的目標(biāo)。長上下文、推理加速與成本優(yōu)化,也將共同推動AI在長任務(wù)、Agentic AI等方向的發(fā)展。

AI自誕生之初就被視為繼互聯(lián)網(wǎng)之后的下一代基礎(chǔ)設(shè)施。隨著稀疏化等新技術(shù)的涌現(xiàn),AI應(yīng)用的門檻正被持續(xù)降低,這一宏大的設(shè)想也加速走向現(xiàn)實(shí)。而在這場以“輕量化”為核心的演進(jìn)中,DeepSeek和華為UCM分別以創(chuàng)新的算法、統(tǒng)一的框架和靈活的適配能力,為行業(yè)提供了一條低成本、高效率的實(shí)踐路徑。它不僅將多種稀疏策略集于一身,更以開源開放的姿態(tài),為整個推理生態(tài)的“輕裝上陣”鋪平了道路。

DeepSeek V3.2-Exp:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

UCM開源Github倉:https://github.com/ModelEngine-Group/unified-cache-management

分享到

songjy

相關(guān)推薦