文字編輯| 宋雨涵

1

Llama 4的核心亮點(diǎn)

MoE架構(gòu)的工程化突破

該系列包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。所有這些模型都經(jīng)過(guò)了大量未標(biāo)注的文本、圖像和視頻數(shù)據(jù)的訓(xùn)練,以使它們具備廣泛的視覺(jué)理解能力。

? Llama 4 Scout:17B激活參數(shù),16個(gè)專家,是同尺寸中最強(qiáng)的多模態(tài)模型。支持10M超長(zhǎng)上下文窗口,單張NVIDIA H100即可運(yùn)行,適合輕量級(jí)部署。

? Llama 4 Maverick:同樣是17B激活參數(shù),但擁有128個(gè)專家,總參數(shù)達(dá)400B,超越GPT-4o和Gemini 2.0 Flash,在代碼、推理、多語(yǔ)言和圖像理解方面全面領(lǐng)先。

? Llama 4 Behemoth(預(yù)覽中):擁有288B激活參數(shù)、2萬(wàn)億總參數(shù),是目前Meta最強(qiáng)大的“教師模型”。它在STEM、圖像、多語(yǔ)言任務(wù)上全面超越GPT-4.5、Claude 3.7和Gemini 2.0 Pro。

多模態(tài)與長(zhǎng)上下文的協(xié)同革命:

多模態(tài)融合架構(gòu)

采用早期融合策略,實(shí)現(xiàn)文本、圖像、視頻Token的統(tǒng)一處理,在Chart QA等跨模態(tài)任務(wù)中達(dá)90%+ 準(zhǔn)確率。

無(wú)限上下文技術(shù)

通過(guò)iRoPE架構(gòu)實(shí)現(xiàn)1000 萬(wàn) + Token長(zhǎng)距離推理,結(jié)合局部 / 全局注意力分層設(shè)計(jì),在保持并行效率的同時(shí)突破位置編碼限制。

訓(xùn)練流程優(yōu)化

創(chuàng)新采用 “輕量級(jí)SFT→在線RL→輕量級(jí)DPO” 后訓(xùn)練方案,通過(guò)動(dòng)態(tài)樣本篩選機(jī)制提升模型泛化能力,Behemoth訓(xùn)練中過(guò)濾95%低質(zhì)數(shù)據(jù)。

智能調(diào)參系統(tǒng)

MetaP技術(shù)基于貝葉斯優(yōu)化框架,實(shí)現(xiàn)超參數(shù)動(dòng)態(tài)優(yōu)化,較傳統(tǒng)方法提升訓(xùn)練效率30%。

開源競(jìng)賽背后的算力民主化悖論

Llama 4的發(fā)布揭示AI競(jìng)賽的兩大矛盾:

技術(shù)普惠性與硬件門檻的撕裂

盡管Scout模型支持消費(fèi)級(jí)GPU部署,但Behemoth所需的32000塊H100集群(單次訓(xùn)練成本超2億美元)將中小機(jī)構(gòu)拒之門外。

開源理想與商業(yè)現(xiàn)實(shí)的博弈

Meta通過(guò)“開源模型+云服務(wù)收費(fèi)”模式,既吸引開發(fā)者生態(tài)又掌控商業(yè)化入口,與DeepSeek“全棧開源”形成戰(zhàn)略對(duì)沖。

編者洞察:

“Llama 4的MoE架構(gòu)革新雖亮眼,但其真正的顛覆性在于重構(gòu)了開源模型的‘成本-性能’曲線。當(dāng)170億參數(shù)模型能在單卡運(yùn)行且效果媲美閉源巨頭時(shí),企業(yè)級(jí)AI落地的最后一公里已被打通。然而,中文生態(tài)的薄弱與超大規(guī)模模型的‘精英化’傾向,仍為DeepSeek等本土玩家留下反超空間?!?/p>

3

開源生態(tài)的“三足鼎立”格局

Meta-DeepSeek-谷歌

維度Llama 4 MaverickDeepSeek V3Gemini 2.5 Pro
架構(gòu)128專家MoE256專家MoE密集模型+路徑稀疏化
上下文窗口1M token256K token2M token
多模態(tài)能力原生圖像/視頻融合文本優(yōu)先,需外掛視覺(jué)模塊多模態(tài)聯(lián)合訓(xùn)練
推理成本$0.17/百萬(wàn)token$0.19/百萬(wàn)token$4.38/百萬(wàn)token
中文場(chǎng)景適配訓(xùn)練數(shù)據(jù)占比不足5%中文任務(wù)得分超GPT-4o依賴翻譯接口

核心差異點(diǎn):

效率與成本的平衡:Llama 4的MoE架構(gòu)在激活參數(shù)量相同情況下,推理速度較DeepSeek提升30%,但后者在數(shù)學(xué)推理(MATH-500準(zhǔn)確率90.2%)和代碼生成(HumanEval-MUL 82.6%)仍具優(yōu)勢(shì)。

生態(tài)策略分化:Meta采用“有限開源+商業(yè)條款”模式(需標(biāo)注“Powered by Llama”),而DeepSeek徹底開放訓(xùn)練框架與數(shù)據(jù)處理方法,吸引更多開發(fā)者貢獻(xiàn)。

結(jié)語(yǔ)

Llama 4的深夜突襲,不僅是Meta的技術(shù)宣言,更是全球AI權(quán)力重構(gòu)的序幕。在這場(chǎng)算力、數(shù)據(jù)與生態(tài)的立體戰(zhàn)爭(zhēng)中,開放與封閉的邊界正被重新定義——而最終的贏家,或許是那些既能駕馭技術(shù)浪潮,又不失商業(yè)洞察的“平衡術(shù)大師”。

分享到

lixiangjing

算力豹主編

相關(guān)推薦