RTFM是一款能夠?qū)崟r(shí)生成交互式三維世界的全新模型,其最大突破在于僅需單塊NVIDIA H100 GPU即可實(shí)時(shí)渲染出持久且3D一致的虛擬世界。這意味著用戶只需提供一張2D圖像作為輸入,RTFM便能即時(shí)生成對(duì)應(yīng)的完整3D場(chǎng)景,并支持用戶在其中自由探索,場(chǎng)景內(nèi)容保持穩(wěn)定一致,不會(huì)因視角改變或時(shí)間推移而消失或重置。

文字編輯|宋雨涵

1

李飛飛的空間智能:

實(shí)時(shí)、持久、3D一致的世界模型

2024年9月,公司宣布獲得了2.3億美元的巨額融資,投后估值達(dá)到10億美元。強(qiáng)大的資金支持為團(tuán)隊(duì)提供了充足的資源來推進(jìn)研發(fā)。2025年10月16日,李飛飛通過社交媒體正式宣布RTFM模型的公開預(yù)覽版上線,并開放了在線演示供公眾體驗(yàn)。

李飛飛教授在推特上分享RTFM模型的最新研究成果

RTFM的設(shè)計(jì)遵循高效性、可擴(kuò)展性和持久性三大核心原則。

首先,高效性體現(xiàn)在推理速度上——模型經(jīng)過高度優(yōu)化,單張H100 GPU即可達(dá)到交互級(jí)幀率(每秒24幀以上),實(shí)現(xiàn)真正的實(shí)時(shí)運(yùn)行。

其次,可擴(kuò)展性意味著模型架構(gòu)簡(jiǎn)潔,能夠隨著訓(xùn)練數(shù)據(jù)量和算力的增長(zhǎng)持續(xù)提升性能,符合AI領(lǐng)域“算力擴(kuò)展定律”的思路。

最后,持久性指模型構(gòu)建的虛擬世界是永久存在的:用戶可以無限時(shí)地與場(chǎng)景交互,即使大幅移動(dòng)視角或長(zhǎng)時(shí)間離開后返回,場(chǎng)景內(nèi)容依然保持不變。

這三大原則確保RTFM在保持高保真度的同時(shí),能夠在當(dāng)前主流硬件上實(shí)現(xiàn)永不消逝的實(shí)時(shí)交互虛擬世界。

技術(shù)原理:端到端學(xué)習(xí)與可學(xué)習(xí)渲染器

TFM采用了與傳統(tǒng)計(jì)算機(jī)圖形學(xué)截然不同的技術(shù)路徑,將自身定位為一個(gè)“可學(xué)習(xí)的渲染器”(learned renderer)。
傳統(tǒng)渲染流程依賴顯式的3D模型(如三角網(wǎng)格、點(diǎn)云等)和復(fù)雜的物理渲染管線,而RTFM通過端到端的深度學(xué)習(xí)直接從海量視頻數(shù)據(jù)中學(xué)習(xí)渲染規(guī)律。其核心架構(gòu)是一個(gè)自回歸擴(kuò)散變換器(autoregressive diffusion transformer),經(jīng)過在大規(guī)模視頻數(shù)據(jù)集上的訓(xùn)練,掌握了從已有圖像幀預(yù)測(cè)新視角圖像的能力,整個(gè)過程無需人工構(gòu)建任何顯式3D幾何模型。
簡(jiǎn)單來說,RTFM將復(fù)雜的物理渲染問題轉(zhuǎn)化為了數(shù)據(jù)驅(qū)動(dòng)的感知建模任務(wù)——通過學(xué)習(xí)真實(shí)世界的光照、材質(zhì)和空間關(guān)系,直接“想象”出新視角下場(chǎng)景的樣子。

2

Marble和RTFM

數(shù)字大腦和神筆馬良

就在今年九月,斯坦福大學(xué)教授李飛飛的創(chuàng)業(yè)公司W(wǎng)orld Labs才剛剛上線了空間智能研究成果:Marble。時(shí)隔一個(gè)月,又再次發(fā)布了RTFM,這個(gè)節(jié)奏屬實(shí)比原來快了很多啊。

我們來看看這兩者有何不同:

Marble旨在創(chuàng)造一個(gè)理解世界如何運(yùn)作的“數(shù)字大腦”,而RTFM則專注于打造一支能實(shí)時(shí)畫出世界的“神筆”。

Marble(數(shù)字大腦):它的核心目標(biāo)是理解物理世界的因果和動(dòng)態(tài)。比如,一個(gè)球滾下斜坡會(huì)發(fā)生什么?它更像一個(gè)學(xué)習(xí)物理定律的“科學(xué)家”,最終服務(wù)于需要深度推理的領(lǐng)域,如機(jī)器人或自動(dòng)駕駛。

RTFM(神筆):它的核心專長(zhǎng)是從少數(shù)幾張圖片,實(shí)時(shí)生成一個(gè)持久且3D一致的視覺世界。它不深究物理規(guī)律,而是極致專注于視覺內(nèi)容的生成與渲染,像一個(gè)技藝超群的“畫家”,主打高效和逼真的視覺效果。

簡(jiǎn)而言之,一個(gè)重在“理解世界”,另一個(gè)重在“呈現(xiàn)世界”。 它們并非競(jìng)爭(zhēng)關(guān)系,而是構(gòu)建未來數(shù)字世界所需的兩種不同但互補(bǔ)的核心能力。

3

算力豹觀察

“大型世界模型”構(gòu)建之路

李飛飛本人在發(fā)布時(shí)表示,團(tuán)隊(duì)的長(zhǎng)期愿景是構(gòu)建“大型世界模型”(Large World Model, LWM),讓AI能夠深入理解并模擬三維物理世界。RTFM是這一愿景的第一步,它證明了在現(xiàn)有硬件上實(shí)現(xiàn)實(shí)時(shí)世界生成的可行性。

她在展望未來時(shí)說到,隨著技術(shù)的演進(jìn),我們有望迎來更加智能、逼真的虛擬世界,人類與AI將在數(shù)字空間中進(jìn)行前所未有的互動(dòng)與創(chuàng)造。

RTFM作為“世界模型,在AI與現(xiàn)實(shí)世界交互方面,自動(dòng)駕駛汽車可以利用類似的模型,將車載攝像頭獲取的2D畫面實(shí)時(shí)轉(zhuǎn)化為周圍環(huán)境的3D模型,輔助路徑規(guī)劃;機(jī)器人可以通過生成模型預(yù)測(cè)環(huán)境變化,提高對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)性。這類空間智能模型的發(fā)展,將使AI從理解2D圖像提升到理解3D世界,為物聯(lián)網(wǎng)、智能制造等領(lǐng)域帶來新的突破。

盡管RTFM帶來了令人振奮的突破,但我們也需冷靜地看到其面臨的挑戰(zhàn)和局限:

RTFM展示了在當(dāng)前硬件上實(shí)現(xiàn)復(fù)雜生成任務(wù)的可能性,但也對(duì)未來硬件提出了更高要求。
隨著模型規(guī)模和數(shù)據(jù)量的增加,新一代AI芯片需要在并行計(jì)算能力、內(nèi)存帶寬等方面進(jìn)一步提升,以支撐更大規(guī)模的世界模型。同時(shí),軟件生態(tài)也將隨之調(diào)整,例如出現(xiàn)專門針對(duì)實(shí)時(shí)生成優(yōu)化的渲染引擎、游戲引擎插件,以及標(biāo)準(zhǔn)化的3D內(nèi)容格式來存儲(chǔ)和共享AI生成的場(chǎng)景??梢灶A(yù)見,圍繞生成式世界模型將形成新的產(chǎn)業(yè)鏈,包括數(shù)據(jù)提供、模型訓(xùn)練服務(wù)、內(nèi)容分發(fā)平臺(tái)等,推動(dòng)相關(guān)產(chǎn)業(yè)的繁榮。

寫在最后:

李飛飛團(tuán)隊(duì)的RTFM,在技術(shù)指標(biāo)之外,最革命性的地方或許在于:它悄悄拆除了專業(yè)創(chuàng)作者與普通大眾之間的那堵高墻。當(dāng)創(chuàng)造世界變得像拍照一樣簡(jiǎn)單,我們每個(gè)人都將可以構(gòu)建自己的元宇宙——只不過需要的,只是一塊GPU和一點(diǎn)點(diǎn)想象力。

分享到

lixiangjing

算力豹主編

相關(guān)推薦