在代碼生成測(cè)試平臺(tái)LiveCodeBench上,DeepSeek-R1-0528的表現(xiàn)堪稱(chēng)驚艷,幾乎與o3的高版本不相上下,甚至在某些任務(wù)中超越了Claude 4 Sonnet。開(kāi)發(fā)者們?cè)跍y(cè)試后紛紛驚嘆不已,直呼其“編程能力強(qiáng)大得超乎想象”。

沒(méi)有盛大的發(fā)布會(huì),沒(méi)有鋪天蓋地的宣傳,一家中國(guó)AI企業(yè)用一行行代碼再次改寫(xiě)了全球大模型競(jìng)爭(zhēng)格局。

文字編輯| 宋雨涵

1

中國(guó)大模型迎來(lái)“o3時(shí)刻”

性能飛躍

目前,DeepSeek尚未針對(duì)DeepSeek-R1-0528發(fā)布詳細(xì)的模型卡來(lái)介紹其更多功能。然而,這一新版本已在開(kāi)發(fā)者群體中引發(fā)了熱烈反響,眾多開(kāi)發(fā)者在體驗(yàn)后紛紛表示,DeepSeek-R1-0528在編程、邏輯推理以及交互能力等方面均展現(xiàn)出了顯著的提升。

已有開(kāi)發(fā)者對(duì)DeepSeek-R1-0528進(jìn)行了基準(zhǔn)測(cè)試,并稱(chēng)這是開(kāi)源領(lǐng)域的一次重大突破。代碼測(cè)試平臺(tái)Live CodeBench的數(shù)據(jù)顯示,其性能已接近OpenAI在4月中旬發(fā)布的o4 mini和o3模型的高版本。

同時(shí),文本召回測(cè)試的結(jié)果也表明,在32k以內(nèi)的文本處理上,DeepSeek-R1-0528相較于之前的R1版本有了顯著提升,但在60k時(shí)性能則有所下降。這意味著,在32k以內(nèi)的文本范圍內(nèi),使用新R1模型根據(jù)給定材料進(jìn)行提問(wèn)并獲取回答時(shí),其準(zhǔn)確度會(huì)更高。

多位開(kāi)發(fā)者通過(guò)實(shí)際案例體驗(yàn)后表示,DeepSeek-R1-0528的效果已基本與Claude 4持平,甚至在某些情況下表現(xiàn)更佳。“從實(shí)際效果來(lái)看,我注意到平面的橙色漫反射以及控制面板的美觀程度。這兩者都是使用同一個(gè)提示詞一次性生成的,Claude 4 sonnet生成了542行代碼,而DeepSeek-R1-0528則生成了728行。此外,幀率和運(yùn)動(dòng)角度的細(xì)節(jié)也值得關(guān)注?!币晃婚_(kāi)發(fā)者在X平臺(tái)上分享道。

還有開(kāi)發(fā)者讓DeepSeek-R1-0528、Claude 4和DeepSeek-V3-0324在飛機(jī)大戰(zhàn)游戲中生成對(duì)比效果。結(jié)果顯示,新版R1在之前的基礎(chǔ)上新增了許多道具,畫(huà)面質(zhì)量也有了顯著提升。

2

技術(shù)亮點(diǎn)

128K上下文與推理能力雙重突破

本次升級(jí)不僅體現(xiàn)在性能指標(biāo)上,更在核心架構(gòu)上實(shí)現(xiàn)了創(chuàng)新突破。

模型支持高達(dá)128K token的超長(zhǎng)上下文窗口,使其能夠流暢處理整本技術(shù)手冊(cè)、復(fù)雜項(xiàng)目代碼庫(kù)等長(zhǎng)文檔任務(wù)。測(cè)試顯示,在32K token內(nèi)的召回準(zhǔn)確度大幅優(yōu)于前代。

推理能力實(shí)現(xiàn)結(jié)構(gòu)化升級(jí)。用戶明顯感受到新版R1的思維鏈(Chain-of-Thought)更加清晰、邏輯更加嚴(yán)密。在解決“農(nóng)夫過(guò)河”等經(jīng)典邏輯難題時(shí),模型能夠逐步拆解問(wèn)題,展示出接近人類(lèi)專(zhuān)家的推理路徑。

“它是唯一能夠持續(xù)正確回答‘9.9減9.11是多少’的模型,這種看似簡(jiǎn)單但容易混淆的問(wèn)題最能考驗(yàn)?zāi)P偷膰?yán)謹(jǐn)性?!遍_(kāi)發(fā)者Yuchen Jin在社交平臺(tái)上指出。

DeepSeek團(tuán)隊(duì)延續(xù)了其一貫的“加量不加價(jià)”策略,在實(shí)現(xiàn)性能躍升的同時(shí),保持了模型的開(kāi)源屬性和免費(fèi)API策略。

未來(lái)展望

R2模型引發(fā)業(yè)界期待:

盡管R1-0528表現(xiàn)出色,行業(yè)更期待的是DeepSeek的下一代R2模型。

參數(shù)規(guī)模革命性躍遷方面,從當(dāng)前R1的67億(6.7B)參數(shù)躍升至預(yù)期的1.2萬(wàn)億(1.2T),實(shí)現(xiàn)近180倍的量級(jí)突破,這不僅是簡(jiǎn)單的規(guī)模擴(kuò)張,更是通過(guò)MoE(專(zhuān)家混合)與稀疏激活技術(shù)的深度整合,在萬(wàn)億參數(shù)層級(jí)維持可控推理成本的核心創(chuàng)新,其目標(biāo)直指GPT-5與Claude 4 Opus等下一代閉源旗艦。

推理能力質(zhì)變臨界點(diǎn)上,基于Scaling Law的預(yù)測(cè),萬(wàn)億參數(shù)突破或?qū)⒂|發(fā)三大能力涌現(xiàn)——解決跨學(xué)科復(fù)雜科學(xué)推導(dǎo)、構(gòu)建物理規(guī)則認(rèn)知的世界模型(如流體力學(xué)仿真與機(jī)械設(shè)計(jì))、實(shí)現(xiàn)代碼生成→測(cè)試→優(yōu)化的全閉環(huán)自我迭代,推動(dòng)AI從工具向協(xié)作伙伴進(jìn)化;國(guó)產(chǎn)算力里程碑維度,結(jié)合華為昇騰910B芯片已實(shí)現(xiàn)R1模型90%推理效率的實(shí)測(cè)表現(xiàn),R2有望成為全球首個(gè)完全運(yùn)行于國(guó)產(chǎn)算力生態(tài)的萬(wàn)億模型,并將推理成本壓縮至OpenAI API的1/5(當(dāng)前R1成本僅為GPT-4-turbo的17%),形成“性能躍升+成本斷崖”的雙重勢(shì)能。

結(jié)語(yǔ):

DeepSeek-R1-0528的發(fā)布,不僅是對(duì)自身技術(shù)實(shí)力的展示,也為全球AI行業(yè)注入了新的活力。作為一款性能直逼OpenAI o3的開(kāi)源模型,R1-0528以更低的成本和更高的靈活性挑戰(zhàn)了傳統(tǒng)閉源模型的霸主地位。業(yè)內(nèi)人士認(rèn)為,DeepSeek的持續(xù)創(chuàng)新將進(jìn)一步推動(dòng)開(kāi)源AI生態(tài)的發(fā)展,促使更多企業(yè)與開(kāi)發(fā)者擁抱開(kāi)源技術(shù)。

與此同時(shí),R1-0528的免費(fèi)API策略也為中小型企業(yè)和獨(dú)立開(kāi)發(fā)者提供了寶貴機(jī)會(huì),使其能夠以較低成本構(gòu)建高質(zhì)量的AI應(yīng)用。這無(wú)疑將加速AI技術(shù)的普及,助力全球AI生態(tài)的繁榮。

分享到

lixiangjing

算力豹主編

相關(guān)推薦