Cosmos Reason還將改變視頻分析領(lǐng)域。該模型已集成到NVIDIA Blueprint視頻搜索與總結(jié)方案中,能夠在錄好的視頻和實(shí)時(shí)視頻流中提取有價(jià)值洞察。未來(lái),基于該模型的視頻智能體,將在交通監(jiān)控、工業(yè)設(shè)施、城市巡邏場(chǎng)景中發(fā)揮重要作用。

物理AI開(kāi)發(fā)面臨的核心挑戰(zhàn)在于數(shù)據(jù)短缺

NVIDIA Cosmos是英偉達(dá)推出的用來(lái)開(kāi)發(fā)物理AI的平臺(tái),包含生成式世界基礎(chǔ)模型(WFM)、安全防護(hù)機(jī)制以及高速數(shù)據(jù)處理與篩選流水線??梢杂盟鼇?lái)開(kāi)發(fā)智能輔助駕駛汽車,智能機(jī)器人以及分析類AI智能體。

在英偉達(dá)的判斷中,繼AI智能體之后,AI技術(shù)發(fā)展的下一個(gè)站是“物理AI”——能夠感知、理解并與物理世界互動(dòng)的AI模型。這將推動(dòng)智能工廠、智能輔助駕駛、人形機(jī)器人等領(lǐng)域的革命。英偉達(dá)認(rèn)為,這一市場(chǎng)價(jià)值萬(wàn)億美元。

然而,物理AI面臨著與大語(yǔ)言模型截然不同的核心挑戰(zhàn):數(shù)據(jù)鴻溝——也就是數(shù)據(jù)不夠用的問(wèn)題。大語(yǔ)言模型可以利用整個(gè)互聯(lián)網(wǎng)進(jìn)行預(yù)訓(xùn)練,而物理AI所需的數(shù)據(jù),不僅獲取成本高,而且會(huì)有很多難以覆蓋的極端情況。

對(duì)此,英偉達(dá)給出的解決方案是,讓物理AI模型在虛擬世界中推理、學(xué)習(xí)、反復(fù)練習(xí)技能。英偉達(dá)免費(fèi)提供了需要用到的開(kāi)源庫(kù)、框架和模型,讓開(kāi)發(fā)者能直接集成到自己的工具和工作流中。

NVIDIA Cosmos為物理AI打造虛擬成長(zhǎng)平臺(tái)

具體而言,物理AI學(xué)習(xí)的時(shí)候需要三個(gè)步驟:

第一步:世界重建 (World Composition)

為了讓機(jī)器人在虛擬世界中訓(xùn)練,首先需要一個(gè)逼真的“訓(xùn)練場(chǎng)”。如果要靠大量3D藝術(shù)家手工建模、上材質(zhì)、添加物理屬性,成本高,而且很難成規(guī)模。為此,英偉達(dá)發(fā)布了一個(gè)叫NuRec的Omniverse庫(kù),它利用3DGS(3D 高斯濺射)等技術(shù),能將真實(shí)世界的傳感器數(shù)據(jù)自動(dòng)重建為可交互、物理精確的3D虛擬場(chǎng)景。

同時(shí),為了把來(lái)自傳感器、CAD工具以及模擬框架的不同來(lái)源的數(shù)據(jù)統(tǒng)一起來(lái),英偉達(dá)新增了對(duì)于OpenUSD(通用場(chǎng)景描述語(yǔ)言)的支持,實(shí)現(xiàn)了英偉達(dá)Isaac Sim、Mujoco、Gazebo等主流仿真框架的數(shù)據(jù)互通,極大地簡(jiǎn)化了虛擬世界的構(gòu)建流程。

第二步:世界生成 (World Generation)

現(xiàn)實(shí)世界通常非常復(fù)雜,各種環(huán)境變量都非常多,為了提高模型在不同環(huán)境和光照條件下的表現(xiàn),提高模型的泛化能力,要盡可能的讓模型見(jiàn)識(shí)到各種各樣的環(huán)境。為此,英偉達(dá)打造了Cosmos,里面有一系列世界模型。

比如,有個(gè)模型叫Cosmos Predict,給它一段文字、一張圖片或一段視頻,它可以“想象”接下來(lái)會(huì)發(fā)生什么,并生成后續(xù)的視頻畫面,用它生成連續(xù)的視頻數(shù)據(jù)。

還有個(gè)模型叫Cosmos Transfer,只需通過(guò)簡(jiǎn)單的文本提示,就能在一個(gè)3D場(chǎng)景基礎(chǔ)上生成無(wú)數(shù)個(gè)新場(chǎng)景,帶有不同的背景和光照條件,也可以用來(lái)做數(shù)據(jù)增強(qiáng)。

據(jù)介紹,這些模型自發(fā)布以來(lái)已被下載超過(guò)200萬(wàn)次,成為物理AI開(kāi)發(fā)領(lǐng)域當(dāng)中的熱門工具。

第三步,就是一開(kāi)始提到的Cosmos Reason所能做到的,提升AI模型對(duì)于所看到的世界的理解能力,還有與世界交互的能力。這三步所提供的能力,可以解決物理AI開(kāi)發(fā)常見(jiàn)的諸多問(wèn)題。

結(jié)束語(yǔ)

NVIDIA Cosmos提供了從數(shù)據(jù)生成、世界模擬到高級(jí)推理的開(kāi)源模型和一系列軟件工具,當(dāng)然還有采用CUDA生態(tài)的一系列顯卡方案,這對(duì)于開(kāi)發(fā)物理AI都非常重要。英偉達(dá)正在追逐萬(wàn)億美元規(guī)模的物理AI市場(chǎng),打造一個(gè)更智能的未來(lái)世界。

分享到

zhupb

相關(guān)推薦