文字編輯|宋雨涵

1

技術(shù)突破

小參數(shù)撬動大性能

高效架構(gòu)設(shè)計

Seed1.5-VL由532M參數(shù)的視覺編碼器SeedViT與20B參數(shù)的MoE(混合專家)語言模型構(gòu)成,通過分階段預(yù)訓(xùn)練和強化學(xué)習(xí)策略,實現(xiàn)視覺與語言模態(tài)的高效融合。其視覺編碼器支持任意長寬比圖像輸入,結(jié)合MLP適配器優(yōu)化特征投影,顯著提升多模態(tài)任務(wù)的泛化能力。

性能對標(biāo)國際巨頭

盡管參數(shù)規(guī)模僅為谷歌Gemini 2.5 Pro的1/4,Seed1.5-VL在視頻理解(19項基準(zhǔn)中14項領(lǐng)先)、GUI智能體任務(wù)(7項中3項SOTA)及視覺推理等領(lǐng)域表現(xiàn)突出。例如,在復(fù)雜圖像定位任務(wù)中,模型可精準(zhǔn)識別貨架商品并完成價格計算,或通過公務(wù)員圖形推理題測試,展示其結(jié)構(gòu)化輸出能力。

成本優(yōu)勢顯著

推理成本僅為每千tokens輸入0.003元、輸出0.009元,較同類模型降低30%-50%。這一特性使其在交互式應(yīng)用(如實時GUI控制、游戲代理)中更具商業(yè)落地潛力。

視覺定位、推理又快又準(zhǔn)

比如上傳一張擺滿各式各樣牛奶的貨架圖片,讓它找出圖中有幾盒黃桃味果粒酸奶優(yōu)酸乳,并計算它們的價格。

這類任務(wù)看似簡單,實則非常考驗?zāi)P偷亩嗄B(tài)協(xié)同能力,需要它同時具備圖像理解(識別包裝)、文本OCR(識別價格標(biāo)簽)、語義匹配(產(chǎn)品名稱匹配)、數(shù)學(xué)推理(乘法計算)等能力。

而Seed1.5-VL僅用不到10秒,就精準(zhǔn)識別出貨架角落里的黃桃味酸奶優(yōu)酸乳,還準(zhǔn)確數(shù)清瓶數(shù)、識別單價,并進行正確的價格計算。

技術(shù)解讀:

重新定義多模態(tài)視覺理解

一、核心架構(gòu):三模塊協(xié)同突破效率極限

視覺編碼器SeedViT(532M參數(shù))支持任意長寬比圖像/視頻輸入,突破傳統(tǒng)模型對固定分辨率的依賴;采用動態(tài)分塊策略,在降低計算冗余的同時提升細粒度特征提取能力(如商品LOGO識別、圖表數(shù)據(jù)解析)。

MLP適配器(視覺-語言橋梁)通過多層感知機實現(xiàn)視覺特征到多模態(tài)空間的非線性映射,解決傳統(tǒng)線性投影導(dǎo)致的信息損失問題;實驗顯示,該設(shè)計使跨模態(tài)對齊效率提升37%(對比CLIP架構(gòu))。

MoE語言模型(20B激活參數(shù))基于混合專家架構(gòu)動態(tài)激活參數(shù),單次推理僅調(diào)用1/8專家模塊;在GUI操作指令理解任務(wù)中,專家路由機制精準(zhǔn)分配任務(wù)至代碼生成、界面元素解析等子模塊。

二、分階段進化與強化學(xué)習(xí)閉環(huán)

Seed1.5-VL并未從一開始就進行聯(lián)合多模態(tài)學(xué)習(xí),而是選擇了在語言模型基座上進行多模態(tài)預(yù)訓(xùn)練,以實現(xiàn)靈活的消融實驗和快速迭代開發(fā)。

整個預(yù)訓(xùn)練過程分為三個階段:初期僅訓(xùn)練MLP適配器以初步對齊視覺和語言表征;中期解凍所有參數(shù),在大規(guī)模圖文數(shù)據(jù)中強化知識積累、視覺 grounding和OCR能力;后期在更均衡的數(shù)據(jù)混合中加入視頻、編程、三維理解等新領(lǐng)域數(shù)據(jù),并將序列長度顯著增加,以處理復(fù)雜場景和長序列依賴。

到了后訓(xùn)練階段,Seed1.5-VL引入了監(jiān)督微調(diào)(SFT)與強化學(xué)習(xí)(RL)的組合策略。

結(jié)語

效率與成本重構(gòu)AI競爭維度

Seed1.5-VL的誕生標(biāo)志著多模態(tài)AI進入“精益時代”——不再單純比拼參數(shù)規(guī)模,而是通過架構(gòu)革新、訓(xùn)練策略優(yōu)化和工程極致打磨,在有限算力下釋放最大效能。這種“中國式創(chuàng)新”或?qū)⒅厮苋駻I競爭格局,推動智能技術(shù)從實驗室精英主義走向產(chǎn)業(yè)普惠主義。

分享到

lixiangjing

算力豹主編

相關(guān)推薦