DW-Mesh是EX-4D的核心技術(shù),其通過(guò)構(gòu)建全密閉網(wǎng)格結(jié)構(gòu),精準(zhǔn)記錄場(chǎng)景中的可見與隱形面片信息,無(wú)需依賴多視角監(jiān)督便可統(tǒng)一處理復(fù)雜場(chǎng)景拓?fù)?。結(jié)合預(yù)訓(xùn)練深度預(yù)測(cè)模型,EX-4D能將單幀像素投影至3D空間,形成網(wǎng)格頂點(diǎn),并根據(jù)幾何關(guān)系精確標(biāo)記遮擋區(qū)域。這一方法確保了生成視頻即便在極端視角(如±90°)下,仍能維持物理一致性與細(xì)節(jié)完整性。
此外,EX-4D引入了渲染mask和跟蹤mask兩種模擬mask生成策略,通過(guò)模擬視角移動(dòng)與幀間一致性,有效破解了多視角訓(xùn)練數(shù)據(jù)稀缺的難題。這些策略讓EX-4D僅憑單目視頻便能“腦補(bǔ)”出全視角數(shù)據(jù),大幅降低了數(shù)據(jù)采集成本。
性能測(cè)試結(jié)果顯示,EX-4D在FID(弗雷歇距離)、FVD(弗雷歇視頻距離)和VBench等行業(yè)標(biāo)準(zhǔn)指標(biāo)上,均全面超越現(xiàn)有開源方法。尤其在極端視角(如接近90°)的生成任務(wù)中,EX-4D的性能優(yōu)勢(shì)更加顯著,生成的視頻在物體細(xì)節(jié)與遮擋邏輯上均展現(xiàn)出更高的真實(shí)性。
2
性能表現(xiàn)
指標(biāo)全面領(lǐng)先
在性能測(cè)試環(huán)節(jié),EX-4D交出了一份令人矚目的答卷。依托包含150個(gè)網(wǎng)絡(luò)視頻的測(cè)試數(shù)據(jù)集,EX-4D在FID(弗雷歇距離)、FVD(弗雷歇視頻距離)以及VBench等業(yè)界公認(rèn)的標(biāo)準(zhǔn)指標(biāo)上,全方位超越了現(xiàn)有的開源方法。特別是在處理接近90°極端視角的生成任務(wù)時(shí),EX-4D展現(xiàn)出的性能優(yōu)勢(shì)格外突出,生成視頻中的物體細(xì)節(jié)刻畫更為精細(xì),遮擋邏輯也更為自然真實(shí)。
在一項(xiàng)由50位志愿者參與的主觀評(píng)價(jià)活動(dòng)中,高達(dá)70.7%的參與者明確表示,EX-4D在極端視角下呈現(xiàn)出的物理一致性顯著優(yōu)于其他開源方案。這一結(jié)果充分證明,EX-4D不僅在技術(shù)指標(biāo)上占據(jù)領(lǐng)先地位,更在實(shí)際應(yīng)用中贏得了用戶的廣泛贊譽(yù)。
字節(jié)跳動(dòng)已將EX-4D全面開源,其代碼及配套文檔均已在GitHub平臺(tái)公開發(fā)布,全球開發(fā)者均可免費(fèi)獲取。這一舉措不僅彰顯了字節(jié)跳動(dòng)對(duì)開源社區(qū)的鼎力支持,更為沉浸式3D影視、虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)等前沿領(lǐng)域的創(chuàng)新發(fā)展提供了堅(jiān)實(shí)的技術(shù)基石。
三、世界模型:
通向未來(lái)數(shù)字宇宙的鑰匙
當(dāng)Sora、Veo等2D視頻模型還在平面維度上突破時(shí),字節(jié)跳動(dòng)旗下PICO-MR團(tuán)隊(duì)推出的EX-4D已開啟三維空間革命。這款全球首個(gè)單目視頻到自由視角4D生成框架,不僅突破了傳統(tǒng)視頻生成的技術(shù)邊界,更通過(guò)”空間智能”的范式升級(jí),為元宇宙、數(shù)字孿生、自動(dòng)駕駛等領(lǐng)域注入核心動(dòng)能。正如李飛飛教授所言:”空間智能是AI理解物理世界的北極星”,EX-4D的開源標(biāo)志著人類向”數(shù)字宇宙”邁出了關(guān)鍵一步。
在視頻生成領(lǐng)域,EX-4D所引領(lǐng)的變革正推動(dòng)技術(shù)向更深層次的演進(jìn)。未來(lái),視頻生成將不再局限于靜態(tài)空間的重構(gòu),而是朝著動(dòng)態(tài)環(huán)境交互與實(shí)時(shí)物理模擬的方向躍遷?;贓X-4D的DW-Mesh動(dòng)態(tài)建模技術(shù),下一代視頻生成框架或?qū)?shí)現(xiàn)”場(chǎng)景自進(jìn)化”——系統(tǒng)能根據(jù)用戶交互行為實(shí)時(shí)調(diào)整空間布局,例如在虛擬演唱會(huì)中,觀眾彈幕可觸發(fā)舞臺(tái)結(jié)構(gòu)的動(dòng)態(tài)重組,或是在開放世界游戲中,NPC會(huì)根據(jù)環(huán)境變化自主生成符合物理規(guī)則的避險(xiǎn)動(dòng)作。
多模態(tài)融合將成為另一核心方向。EX-4D已展現(xiàn)出單目視頻到4D空間的轉(zhuǎn)換能力,而未來(lái)技術(shù)將進(jìn)一步整合觸覺、聽覺甚至氣味數(shù)據(jù),構(gòu)建全感官沉浸體驗(yàn)。例如,自動(dòng)駕駛仿真系統(tǒng)不僅能生成4D視覺場(chǎng)景,還能模擬輪胎與路面的摩擦聲、急剎車時(shí)的G力反饋,甚至通過(guò)氣味模塊還原暴雨中的泥土氣息,使訓(xùn)練數(shù)據(jù)更貼近真實(shí)駕駛環(huán)境。
結(jié)語(yǔ):
技術(shù)演進(jìn)永無(wú)止境。EX-4D團(tuán)隊(duì)已在攻克透明材質(zhì)折射難題,而學(xué)術(shù)圈更關(guān)注其世界模型潛力:當(dāng)AI能精準(zhǔn)推演不可見區(qū)域的物理狀態(tài),我們距離真正的數(shù)字孿生世界還遠(yuǎn)嗎?下一次技術(shù)躍遷的種子,或許正埋在今天開源的代碼行間。