2025年6月17日,中國(guó)AI領(lǐng)域迎來(lái)一場(chǎng)技術(shù)地震。國(guó)內(nèi)AI六小虎之一的MiniMax正式開(kāi)源其新一代推理大模型MiniMax-M1,以100萬(wàn)token上下文窗口和僅53萬(wàn)美元的訓(xùn)練成本,在AI基礎(chǔ)模型領(lǐng)域樹(shù)立全新標(biāo)桿。

這款模型不僅將長(zhǎng)文本處理能力提升至Google Gemini 2.5 Pro級(jí)別,更以驚人的算力效率,在同等推理任務(wù)中僅需DeepSeek R1約30%的計(jì)算資源,真正實(shí)現(xiàn)了“性能躍升、成本腰斬”的雙重突破。

文字編輯|宋雨涵

1

技術(shù)核爆:

百萬(wàn)上下文背后的架構(gòu)革命

此次開(kāi)源的MiniMax-M1并非傳統(tǒng)Transformer架構(gòu)的延續(xù),而是全球首個(gè)大規(guī)?;旌霞軜?gòu)推理模型。其核心創(chuàng)新在于將線(xiàn)性注意力(Linear Attention)與標(biāo)準(zhǔn)Softmax注意力有機(jī)融合,形成獨(dú)特的“閃電注意力”機(jī)制。

這一設(shè)計(jì)讓M1在保持長(zhǎng)序列處理效率的同時(shí),解決了純線(xiàn)性注意力在信息檢索上的固有缺陷。

技術(shù)參數(shù)彰顯野心:

在處理400頁(yè)技術(shù)文檔或十萬(wàn)行代碼庫(kù)時(shí),傳統(tǒng)模型需反復(fù)切分上下文,而M1可整體消化、連貫推理,為Agent智能體發(fā)展鋪平道路。

在強(qiáng)化學(xué)習(xí)領(lǐng)域,MiniMax同樣取得了突破,提出了全新的CISPO算法。該算法通過(guò)優(yōu)化重要性采樣權(quán)重,極大地提升了強(qiáng)化學(xué)習(xí)的訓(xùn)練效率。在AIME實(shí)驗(yàn)中,CISPO算法的收斂速度較其他算法,包括字節(jié)最新提出的DAPO,快了一倍,甚至超越了DeepSeek早期采用的GRPO算法。這些技術(shù)創(chuàng)新使得MiniMax-M1的強(qiáng)化訓(xùn)練過(guò)程異常高效,訓(xùn)練成本大幅降低,僅用了512塊H800三周的時(shí)間,租賃成本遠(yuǎn)低于預(yù)期。

2

性能屠榜:

17項(xiàng)測(cè)試碾壓開(kāi)源界

在評(píng)測(cè)成績(jī)方面,MiniMax – M1的表現(xiàn)堪稱(chēng)亮眼,在業(yè)內(nèi)主流的17個(gè)評(píng)測(cè)集中均斬獲佳績(jī),不負(fù)大眾期待。尤其是在軟件工程、長(zhǎng)上下文理解以及工具使用這類(lèi)復(fù)雜且對(duì)生產(chǎn)力要求較高的場(chǎng)景中,MiniMax – M1展現(xiàn)出了令人矚目的壓倒性?xún)?yōu)勢(shì)。

在SWE – bench基準(zhǔn)測(cè)試?yán)?,MiniMax – M1 – 40k和MiniMax – M1 – 80k分別取得了55.6%和56.0%的高分。盡管這一成績(jī)比DeepSeek – R1 – 0528的57.6%稍低,但相較于其他開(kāi)源模型,MiniMax – M1的表現(xiàn)可謂遙遙領(lǐng)先。憑借其百萬(wàn)級(jí)的上下文窗口,MiniMax – M1在長(zhǎng)上下文理解任務(wù)中表現(xiàn)卓越,不僅超越了所有開(kāi)源模型,還在部分指標(biāo)上接近OpenAI o3和Claude4Opus,在全球范圍內(nèi)位居第二。

在代理工具使用場(chǎng)景(TAU – bench)的評(píng)測(cè)中,MiniMax – M1同樣成績(jī)斐然。它不僅在所有開(kāi)源模型中脫穎而出,還成功戰(zhàn)勝了Gemini – 2.5Pro。此外,MiniMax – M1 – 80k在多數(shù)基準(zhǔn)測(cè)試中的表現(xiàn)都優(yōu)于MiniMax – M1 – 40k,這有力地證明了增加計(jì)算資源對(duì)于提升模型性能有著顯著作用。

成本革命:

53萬(wàn)美元訓(xùn)練出頂級(jí)模型

當(dāng)OpenAI花費(fèi)上億美元訓(xùn)練GPT-4、DeepSeek R1耗費(fèi)500-600萬(wàn)美元時(shí),MiniMax-M1僅用53.47萬(wàn)美元即完成訓(xùn)練。這相當(dāng)于用經(jīng)濟(jì)型轎車(chē)的價(jià)格造出了超級(jí)跑車(chē)。

成本優(yōu)勢(shì)源于兩大技術(shù)創(chuàng)新:

CISPO強(qiáng)化學(xué)習(xí)算法:優(yōu)化重要性采樣權(quán)重,訓(xùn)練效率較字節(jié)DAPO提升2倍,超越DeepSeek的GRPO算法。

閃電注意力機(jī)制為主的混合架構(gòu),從而在計(jì)算長(zhǎng)的上下文輸入以及深度推理的時(shí)候顯著高效。例如,在用8萬(wàn)Token深度推理的時(shí)候,只需要使用DeepSeek R1約30%的算力。這個(gè)特性使得我們?cè)谟?xùn)練和推理的時(shí)候都有很大的算力效率優(yōu)勢(shì)。

編者觀察

此次發(fā)布恰逢MiniMax的“關(guān)鍵證明時(shí)刻”。2025年以來(lái),隨著“AI六小虎”概念淡化、“基模五強(qiáng)”(阿里、字節(jié)、DeepSeek、階躍星辰、智譜AI)興起,MiniMax一度被排除在頭部陣營(yíng)之外。

行業(yè)觀察人士指出:“M1的成敗決定MiniMax能否繼續(xù)坐在牌桌旁”。而此次開(kāi)源的激進(jìn)策略,可視為其對(duì)市場(chǎng)地位的全力捍衛(wèi)。

更深遠(yuǎn)的影響在于技術(shù)路線(xiàn)競(jìng)爭(zhēng)。當(dāng)全球聚焦于Transformer架構(gòu)優(yōu)化時(shí),MiniMax用規(guī)模化驗(yàn)證了混合架構(gòu)的可行性。

結(jié)語(yǔ):

此刻開(kāi)源的MiniMax-M1,不僅是技術(shù)里程碑,更是AI民主化進(jìn)程的加速器。當(dāng)百萬(wàn)token上下文不再是天價(jià)服務(wù),當(dāng)53萬(wàn)美元能訓(xùn)練頂尖模型,創(chuàng)新的大門(mén)已向全球開(kāi)發(fā)者敞開(kāi)。

DeepSeek在1月用R1定義了推理模型的標(biāo)準(zhǔn),而5個(gè)月后的今天,MiniMax用M1重新書(shū)寫(xiě)了規(guī)則——這場(chǎng)中國(guó)AI雙雄的架構(gòu)之爭(zhēng),贏家將是整個(gè)產(chǎn)業(yè)。

分享到

lixiangjing

算力豹主編

相關(guān)推薦