GO-1開創(chuàng)性地提出Vision-Language-Latent-Action(ViLLA)架構(gòu),通過預測隱式動作標記(Latent Action Tokens),彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。其架構(gòu)由多模態(tài)大模型(VLM)和混合專家系統(tǒng)(MoE)組成:VLM采用InternVL-2B,接收多視角視覺、力覺信號和語言輸入,實現(xiàn)通用場景感知;MoE中的Latent Planner預測隱式動作規(guī)劃鏈,Action Expert則生成精細動作序列。

文字編輯| 宋雨涵

1

首個通用具身基座模型GO-1

核心能力與技術(shù)突破

智元推出了Vision-Language-Latent-Action(ViLLA)架構(gòu),這一架構(gòu)融合了VLM(多模態(tài)大模型)與MoE(混合專家系統(tǒng))。智元的啟元大模型GO-1,通過吸納人類及多種機器人的數(shù)據(jù),賦予了機器人強大的學習能力,使其能夠靈活應(yīng)用于各種環(huán)境和物品中,迅速適應(yīng)新任務(wù)、掌握新技能。此外,GO-1還支持部署至各類機器人平臺,并在實際應(yīng)用中不斷進化升級。

在智元的機器人服務(wù)場景中,舉一個具體例子:當用戶向機器人發(fā)出“掛衣服”的指令時,GO-1模型能夠根據(jù)當前視覺畫面,準確理解指令所對應(yīng)的任務(wù)需求。隨后,模型會依據(jù)其訓練過程中積累的掛衣服流程知識,規(guī)劃出完成該任務(wù)所需的一系列操作步驟,并順序執(zhí)行這些步驟,最終圓滿完成任務(wù)。

從技術(shù)層面深入剖析,GO-1大模型具備了廣泛的場景感知與理解能力。在模型構(gòu)建與訓練階段,它學習了互聯(lián)網(wǎng)上海量的純文本及圖文數(shù)據(jù),從而能夠準確理解“掛衣服”在具體情境下的含義與要求;通過觀摩人類操作視頻及其他機器人的操作視頻,它掌握了掛衣服任務(wù)的常規(guī)環(huán)節(jié);通過模擬不同衣物、衣柜、房間環(huán)境下的掛衣服操作,它深刻理解了任務(wù)環(huán)節(jié)中涉及的物體與環(huán)境,并打通了任務(wù)執(zhí)行的全流程;最后,得益于真機示教數(shù)據(jù)的學習,機器人能夠熟練地完成掛衣服任務(wù)的所有操作。

GO-1具備四大革命性能力

具體來說,該款大模型的特點可以歸納為4個方面。

人類視頻學習

GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,增強模型對人類行為的理解。

小樣本快速泛化

該大模型具有泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),降低了具身模型的使用門檻,使得后訓練成本非常低。

一腦多形

該大模型是通用機器人策略模型,能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體。

持續(xù)進化

該大模型搭配一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行中遇到的問題數(shù)據(jù)中持續(xù)進化學習。

2

基于全新ViLLA架構(gòu)

構(gòu)建核心圍繞對數(shù)據(jù)的充分利用展開

數(shù)據(jù)驅(qū)動:構(gòu)建具身智能金字塔

GO-1大模型的構(gòu)建核心圍繞對數(shù)據(jù)的充分利用展開?;诰呱眍I(lǐng)域的數(shù)字金字塔,GO-1吸納了人類世界多種維度和類型的數(shù)據(jù):

有了這些數(shù)據(jù),可以讓機器人在一開始就擁有通用的場景感知和語言能力,通用的動作理解能力,以及精細的動作執(zhí)行力。

當然,過程中也少不了一個合適的數(shù)據(jù)處理架構(gòu)。

由于現(xiàn)有的VLA(Vision-Language-Action)架構(gòu)沒有利用到數(shù)字金字塔中大規(guī)模人類/跨本體操作視頻數(shù)據(jù),缺少了一個重要的數(shù)據(jù)來源,導致迭代的成本更高,進化的速度更慢。

因此,智元團隊創(chuàng)新性地提出了ViLLA(Vision-Language-Latent-Action)架構(gòu)。

智元團隊創(chuàng)新性地提出了ViLLA架構(gòu)

ViLLA架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成,三者分工明確:

VLM(InternVL-2B)

接收多視角視覺、力覺信號和語言指令,通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)預訓練,具備通用場景感知能力。例如,識別“水杯”時不僅能判斷形狀,還能結(jié)合上下文理解“倒水”意圖。

Latent Planner(隱式規(guī)劃器)

基于VLM中間層輸出,預測離散化的隱式動作標記(Latent Action Tokens),形成任務(wù)規(guī)劃鏈(CoP)。通過時空Transformer編碼歷史幀與當前幀的差異,并利用VQ-VAE量化處理,將人類視頻中的動作抽象為通用模板。例如,將“掛衣服”動作分解為“舉起衣架-定位掛鉤”等隱式標記。

Action Expert(動作專家)

采用擴散模型生成高頻精細動作序列,在百萬級真機數(shù)據(jù)(如AgiBot World數(shù)據(jù)集)上訓練,實現(xiàn)毫米級動作控制。例如,倒水時每秒生成220次動作調(diào)整,動態(tài)適應(yīng)液面高度變化。

3

未來展望

具身智能邁向通用化、開放化、智能化

– 從單一任務(wù)到多種任務(wù):機器人能夠在不同場景中執(zhí)行多種任務(wù),無需針對每個新任務(wù)重新訓練

– 從封閉環(huán)境到開放世界:機器人不再局限于實驗室,而是可以適應(yīng)多變的真實世界環(huán)境

– 從預設(shè)程序到指令泛化:機器人能夠理解自然語言指令,并根據(jù)語義進行組合推理,不再局限于預設(shè)程序

寫在最后

GO-1通過ViLLA架構(gòu)與數(shù)據(jù)驅(qū)動策略,解決了具身智能長期面臨的泛化難、適應(yīng)性差、交互復雜等問題。隨著2025年量產(chǎn)計劃的推進(預計數(shù)千臺機器人落地),其有望成為具身智能領(lǐng)域的“安卓級”基座模型,推動機器人技術(shù)在商業(yè)、工業(yè)、家庭等多領(lǐng)域?qū)崿F(xiàn)規(guī)?;瘧?yīng)用。

分享到

lixiangjing

算力豹主編

相關(guān)推薦