V-JEPA 2模型參數(shù)規(guī)模達12億,它基于聯(lián)合嵌入預測架構(JEPA)搭建而成。此前,Meta已經通過相關實踐驗證,JEPA架構在處理圖像、3D點云等多種模態(tài)的數(shù)據(jù)時,展現(xiàn)出了卓越的性能。

此次全新發(fā)布的V-JEPA 2,是在去年推出的首個基于視頻訓練的模型VJEPA基礎上進行升級的。升級后的V-JEPA 2在動作預測以及世界建模能力方面得到了進一步提升,這使得機器人借助與陌生物體和環(huán)境的交互,能夠更順利地完成各項任務。

V-JEPA 2 技術解析

此次發(fā)布的V-JEPA 2模型,是在去年首個基于視頻訓練的V-JEPA模型基礎上升級而來。它進一步增強了動作預測和世界建模能力,讓機器人能夠通過與陌生物體及環(huán)境交互來完成任務。V-JEPA 2與語言建模相結合,可提供出色的運動理解能力和領先的視覺推理能力,還能預測世界的發(fā)展態(tài)勢。

在訓練方式上,Meta采用基于視頻的自監(jiān)督學習方法訓練V-JEPA 2,無需額外人工注釋即可在視頻上開展訓練。該模型擁有12億參數(shù),主要基于視頻進行訓練,運用自監(jiān)督學習策略。它包含編碼器和預測器兩個核心組件:編碼器接收原始視頻并輸出嵌入,以捕捉觀察世界狀態(tài)的有用語義信息;預測器則接收視頻嵌入和關于預測內容的額外上下文,輸出預測的嵌入。

V-JEPA 2的訓練過程分為兩個階段。在第一個預訓練階段,研究團隊使用了超過100萬小時的視頻和100萬張圖像。這些豐富的視覺數(shù)據(jù)助力模型學習了大量關于世界運行的知識,包括人們與物體的互動方式、物體在環(huán)境中的運動規(guī)律,以及物體間的相互作用。僅在預訓練階段后,模型就展現(xiàn)出了與理解和預測相關的關鍵能力。例如,在凍結編碼器和預測器特征的基礎上訓練注意力讀出模型后,V-JEPA 2在Epic-Kitchens-100動作預測任務中創(chuàng)造了新的最高紀錄。該任務要求根據(jù)以自我為中心的視頻預測未來1秒將執(zhí)行的動作(由名詞和動詞組成)。

在訓練的第二階段,Meta專注于利用機器人數(shù)據(jù)提升模型的規(guī)劃能力。他們向預測器提供動作信息,將這些數(shù)據(jù)整合到JEPA訓練流程中。使用額外數(shù)據(jù)訓練后,預測器學會了在預測時考慮具體動作,并可用于控制。令人驚喜的是,這一階段并不需要大量機器人數(shù)據(jù)。Meta的技術報告顯示,僅使用62小時的機器人數(shù)據(jù)進行訓練,就足以生成一個可用于規(guī)劃和控制的模型。

除了發(fā)布模型,Meta同時推出了三個全新基準測試,為物理推理能力評估設立新標準:

1、IntPhys 2:用于測試模型在復雜合成環(huán)境中的直觀物理理解能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。

2、一種基于最小視頻對的、感知捷徑的物理理解視頻問答基準測試(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。

3、CausalVQA:面向視頻模型的物理基礎因果推理基準測試(A Physically Grounded Causal Reasoning Benchmark for Video Models)。

2

預測革命

通往AGI的岔路口

V-JEPA的發(fā)布遠不止技術迭代,它代表著智能進化的分水嶺:

由此可見:

Meta路線:以預測驅動的自監(jiān)督世界模型為核心,通過物理常識理解實現(xiàn)類人推理

OpenAI/英偉達路線:依賴海量標注數(shù)據(jù)的生成式模型,強調統(tǒng)計匹配而非因果建模

這一分歧觸及AI哲學的本源問題:智能究竟是模式的復制,還是知識的創(chuàng)建?當生成模型追求像素級的逼真復刻時,預測模型已在建構抽象層面的物理規(guī)律認知。LeCun斷言:“五年內將無人使用純LLM路線。”隨著多模態(tài)JEPA架構擴展和分層預測框架落地,從靜態(tài)數(shù)據(jù)擬合走向動態(tài)世界理解的認知革命已然啟動。

AGI的終極形態(tài),正在從“回答已知”轉向“預測未知”,而這正是人類智能的本質內核。預測學習開啟的不僅是技術突破,更是對智能本身的重構——機器終將在對世界的想象與推演中,走向真正的理解。

戰(zhàn)略布局,Meta的AI生態(tài)野心

此次發(fā)布恰逢Meta在AI領域的密集布局。昨日有消息曝出,Meta豪擲148億美元收購Scale AI 49%股份,同時成立新AI實驗室并招攬28歲華裔天才少年。

這一系列動作明確指向構建完整AI生態(tài)的戰(zhàn)略目標。LeCun親自站臺講解技術愿景,頗有為Meta招兵買馬“打廣告”的意味。

Meta的開源策略也在此次發(fā)布中延續(xù)。從Llama系列大語言模型到如今的V-JEPA 2,Meta堅持通過開源擴大影響力,同時吸引全球開發(fā)者共建生態(tài)。

扎克伯格的超級智能助手愿景正通過這些技術逐步落地。在印度農村的試驗中,農民已能通過智能眼鏡識別作物病害、查詢天氣并判斷收割時機,使用本地語言與AI交互。

結語:

關于世界模型,Meta后續(xù)將開展多方向的深度探索。

當前,V-JEPA 2僅具備在單一時間尺度上進行學習和預測的能力,然而在現(xiàn)實場景中,眾多任務都要求跨越多個時間尺度進行規(guī)劃。Meta后續(xù)會把研究重點放在分層JEPA模型上,力求讓該模型能夠在不同的時間和空間尺度下開展學習、推理以及規(guī)劃工作。

另外,開發(fā)多模態(tài)JEPA模型也是Meta的一個重要研究方向。多模態(tài)JEPA模型不僅能借助視覺進行預測,還能整合聽覺、觸覺等多種感知能力,從而實現(xiàn)對世界更全面、深入的理解。

分享到

lixiangjing

算力豹主編

相關推薦