此外更爆炸的是兩大國產(chǎn)AI芯片巨頭寒武紀與華為昇騰在模型發(fā)布當日即宣布完成全面適配支持。

這一“Day 0”級別的快速響應,宣告了國產(chǎn)大模型與國產(chǎn)AI芯片之間前所未有的協(xié)同發(fā)展態(tài)勢已然形成。這不再是軟件追趕硬件,或硬件等待軟件的傳統(tǒng)模式,而是一種深度綁定、共同進化的新型產(chǎn)業(yè)關(guān)系。

文字編輯|宋雨涵

1

DeepSeek-V3.2-Exp:

重新定義長文本處理的效率與成本

DeepSeek-V3.2-Exp的發(fā)布,并非一次常規(guī)的性能迭代,而是對大模型底層架構(gòu)的一次大膽探索。其核心亮點,直指當前大模型應用中最棘手的難題之一:長文本處理的效率與成本。

技術(shù)革新:DeepSeek稀疏注意力(DSA)機制

傳統(tǒng)Transformer模型的核心是自注意力機制,它允許模型中的每個詞元(Token)關(guān)注輸入序列中的所有其他詞元。這種機制雖然強大,但也帶來了巨大的計算負擔,其計算復雜度與序列長度(L)的平方(O(L2))成正比。這意味著當文本長度從1K增加到100K時,計算量會暴增一萬倍,使得超長文本的實時推理變得異常昂貴且緩慢。

DeepSeek-V3.2-Exp引入的DeepSeek稀疏注意力(DeepSeek Sparse Attention, DSA)機制,正是為了打破這一瓶頸。它巧妙地引入了一個名為“閃電索引器”(Lightning Indexer)的組件。該組件能夠像一位經(jīng)驗豐富的速讀者,在處理海量歷史信息時,快速預判并索引出那些對當前生成任務“最重要”的少數(shù)關(guān)鍵Token。隨后,模型只需將計算資源集中在這些被選中的關(guān)鍵信息上,進行精細的注意力計算。

DeepSeek-V3.2-Exp模型中的稀疏注意力架構(gòu),核心在于“閃電索引器”和“Top-k選擇器”的高效協(xié)作。

通過這一革新,注意力的計算復雜度從O(L2)驟降至O(Lk),其中k是一個遠小于序列長度L的固定值。這意味著,即使處理的文本再長,其計算成本的增長也趨于線性,而非指數(shù)級爆炸。

“性能不降、成本驟減”

技術(shù)上的優(yōu)雅最終要體現(xiàn)在實際應用價值上。DeepSeek-V3.2-Exp在這一點上交出了一份令人信服的答卷。

根據(jù)官方公布的數(shù)據(jù),在處理128K(約20萬漢字)的超長文本時,新模型的推理成本相比前代V3.1-Terminus模型實現(xiàn)了驚人的下降。無論是在處理初始輸入(Prefilling)還是在逐字生成(Decoding)階段,成本節(jié)約都極為顯著。

與V3.1相比,V3.2-Exp在Prefilling和Decoding階段的推理成本隨文本長度增長極為平緩,優(yōu)勢明顯。

更重要的是,這種效率的提升并未以犧牲核心能力為代價。在編程、數(shù)學、邏輯推理等關(guān)鍵能力的嚴謹評估中,DeepSeek-V3.2-Exp與前代旗艦模型基本持平。這一成果直接轉(zhuǎn)化為對開發(fā)者社區(qū)的重大利好:得益于效率提升,DeepSeek官方宣布其API價格大幅下調(diào)超過50%,其中輸出成本降至每百萬Token僅需3元人民幣。

2

“零日適配”:

國產(chǎn)AI生態(tài)成熟的標志

如果說DeepSeek-V3.2-Exp的發(fā)布是一場精彩的獨奏,那么寒武紀與華為昇騰的“零日適配”(Day 0 Adaptation)則為這段獨奏注入了靈魂,產(chǎn)生共鳴。這標志著國產(chǎn)AI生態(tài)已經(jīng)具備與國際頂尖水平相媲美的敏捷性和協(xié)同能力。

寒武紀:速度與開源的結(jié)合

在DeepSeek模型發(fā)布的同一天,寒武紀迅速跟進,不僅宣布其AI芯片已完成對DeepSeek-V3.2-Exp的適配,更同步開源了其大模型推理引擎vLLM-MLU的適配源代碼。這種“即發(fā)即用,源碼開放”的姿態(tài),展現(xiàn)了寒武紀對開源生態(tài)的堅定擁抱和技術(shù)自信。

DeepSeek與寒武紀在社交媒體上幾乎同時發(fā)布消息,彰顯了雙方緊密的合作關(guān)系。

據(jù)了解,寒武紀通過Triton算子開發(fā)實現(xiàn)了快速適配,并利用其自研的BangC融合算子技術(shù)進行了極致的性能優(yōu)化。結(jié)合DeepSeek模型的稀疏特性與寒武紀芯片的計算效率,長序列場景下的AI應用成本有望被進一步壓縮。開發(fā)者可以訪問vLLM-MLU的GitHub倉庫獲取源碼。

華為昇騰:性能與編程范式的創(chuàng)新

華為昇騰同樣展現(xiàn)了驚人的響應速度,第一時間基于vLLM、SGLang等主流推理框架完成了對新模型的部署支持,并同樣面向開發(fā)者開源了所有推理代碼和算子實現(xiàn)。

華為昇騰強調(diào)其“0Day支持”能力,并突出其在算子編程上的創(chuàng)新。

昇騰團隊針對模型中的“Lightning Indexer”和“Sparse Flash Attention”這兩個全新算子,進行了深度優(yōu)化,確保在128K長序列下依然能保持低于2秒的首字返回時間(TTFT)和低于30毫秒的吞吐性能(TPOT)。

更重要的是,昇騰CANN借此機會首次推出了PyPTO大融合算子編程體系。這一創(chuàng)新的PTO(Python-based Tensor Operator)編程范式,允許開發(fā)者僅用數(shù)百行Python代碼即可完成過去需要數(shù)千行C++代碼才能實現(xiàn)的動態(tài)Shape算子開發(fā),極大地降低了AI算子開發(fā)的門檻和周期。同時,對新興AI編程語言TileLang的支持,也展現(xiàn)了昇騰積極擁抱前沿技術(shù)、構(gòu)建開放生態(tài)的決心。

3

軟硬件協(xié)同

國產(chǎn)AI的必然與未來

國產(chǎn)大模型與AI芯片的緊密協(xié)同,
正在形成獨特的競爭優(yōu)勢。DeepSeek-V3.2-Exp與國產(chǎn)芯片的 “同頻發(fā)布”,并非偶然的技術(shù)巧合,而是中國AI產(chǎn)業(yè)從 “單點突破” 向 “系統(tǒng)作戰(zhàn)” 轉(zhuǎn)型的必然結(jié)果。

快速響應能力構(gòu)建生態(tài)壁壘。Day 0適配的實現(xiàn),依賴于模型廠商與芯片廠商的前期技術(shù)協(xié)同、接口標準化建設和聯(lián)合調(diào)試機制。這種 “提前布局、即時響應” 的能力,使國產(chǎn)生態(tài)能快速捕捉技術(shù)創(chuàng)新紅利,在與國際巨頭的競爭中搶占時間窗口。

中科曙光:開放架構(gòu)“跨層協(xié)同”

基于中國首個AI計算開放架構(gòu),芯片層、軟件層、模型層實現(xiàn)“跨層協(xié)同”,使得曙光AI超集群系統(tǒng)完成對DeepSeek新版本的深度適配與調(diào)優(yōu),支持各行各業(yè)客戶進行全量落地部署。

AI計算開放架構(gòu)原生具備“跨層聯(lián)動”優(yōu)勢,通過統(tǒng)一的技術(shù)標準和接口規(guī)范,打通從底層硬件到上層應用的全鏈路:

在芯片層,適配國產(chǎn)主流GPU加速卡,避免客戶被單一廠商鎖定;

在軟件層,DeepAI深算智能引擎發(fā)揮關(guān)鍵作用,內(nèi)置的GPU異構(gòu)計算工具套件在編程前端提供與CUDA邏輯完全一致的接口,使國產(chǎn)GPU廠商只需維護一套代碼即可無縫兼容CUDA;

在模型層,全面支持以DeepSeek為代表的全球主流開源大模型。

曙光AI超集群系統(tǒng)擁有“超高性能、超高效率、超高可靠、全面開放”四大特征,“跨層聯(lián)動”優(yōu)勢使得曙光AI超集群可以充分利用自身的緊耦合系統(tǒng)設計,快速適配DeepSeek-V3.2-Exp,并高效支持Tilelang算子,確保大模型算力“零等待”部署。

在不久前召開的2025人工智能計算大會上還發(fā)布《超節(jié)點智算應用“北京方案”》,該方案以 “國芯、國連、國用” 為核心理念,精準對接多元行業(yè)場景的智能體開發(fā)需求。

這一方案為“人工智能+”在各領(lǐng)域的深度落地提供了實踐路徑。從模型到芯片,從系統(tǒng)軟件到應用生態(tài),國產(chǎn)AI產(chǎn)業(yè)的全棧協(xié)同格局正在形成。

結(jié)語:

DeepSeek-V3.2-Exp與國產(chǎn)AI芯片的“零日之舞”,標志著中國AI產(chǎn)業(yè)已從過去的“單點突破”正式進入“生態(tài)協(xié)同”的新階段。這種軟硬件深度綁定的發(fā)展模式,正在為國產(chǎn)AI產(chǎn)業(yè)筑起堅實的技術(shù)壁壘和生態(tài)優(yōu)勢。

分享到

lixiangjing

算力豹主編

相關(guān)推薦