拉斯維加斯CES—太平洋時(shí)間 2025 年 1 月6日—NVIDIA 今日宣布推出 NVIDIA Cosmos?,該平臺(tái)由先進(jìn)的生成式世界基礎(chǔ)模型、高級(jí) tokenizer、護(hù)欄和加速視頻處理管線組成,將推動(dòng)自動(dòng)駕駛汽車(AV)和機(jī)器人等物理 AI系統(tǒng)的發(fā)展。

物理 AI 模型的開發(fā)成本很高并且需要大量真實(shí)數(shù)據(jù)和測(cè)試。Cosmos 世界基礎(chǔ)模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學(xué)的逼真合成數(shù)據(jù),以用于訓(xùn)練和評(píng)估其現(xiàn)有的模型。他們還可以通過(guò)微調(diào) Cosmos WFM 構(gòu)建自定義模型。

為了加速機(jī)器人和自動(dòng)駕駛汽車行業(yè)的工作,Cosmos 模型將以開放模型許可證的方式提供。開發(fā)者可以在 NVIDIA API 目錄中預(yù)覽首批模型,也可以從 NVIDIA NGC? 目錄或 Hugging Face 下載整個(gè)系列的模型和微調(diào)框架。

Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領(lǐng)先機(jī)器人和汽車公司以及共享出行巨頭 Uber。

NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“機(jī)器人技術(shù)的 ChatGPT 時(shí)刻即將到來(lái)。與大語(yǔ)言模型一樣,世界基礎(chǔ)模型是推動(dòng)機(jī)器人和自動(dòng)駕駛汽車開發(fā)的基礎(chǔ),但并非所有開發(fā)者都擁有自主訓(xùn)練模型所需的專業(yè)知識(shí)和資源。我們創(chuàng)建 Cosmos 是為了普及物理 AI,讓每一位開發(fā)者都能接觸到通用機(jī)器人技術(shù)?!?/p>

開放世界基礎(chǔ)模型將加速下一輪 AI 熱潮

借助 NVIDIA Cosmos 的開放模型套件,開發(fā)者可以根據(jù)目標(biāo)應(yīng)用的需要,使用數(shù)據(jù)集定制自動(dòng)駕駛汽車旅行視頻、機(jī)器人在倉(cāng)庫(kù)中的移動(dòng)軌跡等 WFM。

Cosmos WFM 專為物理 AI 的研發(fā)而構(gòu)建,可以根據(jù)文本、圖像和視頻等輸入組合以及機(jī)器人傳感器或運(yùn)動(dòng)數(shù)據(jù)生成基于物理學(xué)的視頻。這些模型為實(shí)現(xiàn)基于物理學(xué)的交互、物體恒存性以及生成高質(zhì)量的仿真工業(yè)環(huán)境(例如倉(cāng)庫(kù)或工廠)和駕駛環(huán)境(包括各種路況)而構(gòu)建。

在 CES 主題演講中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛展示了物理AI開發(fā)者如何使用 Cosmos模型,包括用于:

l 視頻搜索和理解:使開發(fā)者能夠從視頻數(shù)據(jù)中輕松找到特定的訓(xùn)練場(chǎng)景,例如雪天路況或倉(cāng)庫(kù)擁堵等。

l 基于物理學(xué)的逼真合成數(shù)據(jù)生成:使用 Cosmos 模型從NVIDIA Omniverse? 平臺(tái)上開發(fā)的可控 3D 場(chǎng)景中生成逼真視頻。

l 物理 AI 模型開發(fā)和評(píng)估:在基礎(chǔ)模型上構(gòu)建自定義模型,使用 Cosmos 進(jìn)行強(qiáng)化學(xué)習(xí)以改進(jìn)模型,或者測(cè)試模型在特定仿真場(chǎng)景中的表現(xiàn)。

l 預(yù)測(cè)與“多元宇宙”模擬:使用 Cosmos 和 Omniverse 生成 AI 模型所有未來(lái)可能實(shí)現(xiàn)的結(jié)果,以便幫助其選擇最佳和最準(zhǔn)確的路徑。

先進(jìn)的世界模型開發(fā)工具

構(gòu)建物理 AI 模型需要數(shù) PB(petabytes)的視頻數(shù)據(jù)以及數(shù)萬(wàn)小時(shí)的計(jì)算來(lái)處理、整理和標(biāo)記這些數(shù)據(jù)。為了幫助節(jié)省在數(shù)據(jù)整理、訓(xùn)練和模型定制方面的巨大成本,Cosmos 提供了以下功能:

l NVIDIA NeMo? Curator 驅(qū)動(dòng)的 NVIDIA AI 和 CUDA? 加速數(shù)據(jù)處理管線,使開發(fā)者能夠使用 NVIDIA Blackwell 平臺(tái)在 14 天內(nèi)處理、整理和標(biāo)記 2000 萬(wàn)小時(shí)的視頻,而如果單純使用 CPU 則需要 3 年以上。

l NVIDIA Cosmos Tokenizer 是先進(jìn)的可視化 tokenizer,可將圖像和視頻轉(zhuǎn)換成 token。與當(dāng)前領(lǐng)先的 tokenizer 相比,其總壓縮率提高了 8 倍,處理速度提高了 12 倍。

l NVIDIA NeMo 框架可用于高效的模型訓(xùn)練、定制和優(yōu)化。

全球各大物理 AI 行業(yè)紛紛采用 Cosmos

物理 AI 行業(yè)的領(lǐng)先者已開始使用 Cosmos 技術(shù)。

AI 和人形機(jī)器人公司 1X 使用 Cosmos Tokenizer 推出了 1X World Model Challenge 數(shù)據(jù)集。小鵬汽車將使用 Cosmos 加快其人形機(jī)器人的開發(fā)。Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用機(jī)器人的開發(fā)。

Agility 首席技術(shù)官 Pras Velagapudi 表示:“數(shù)據(jù)的稀缺性和可變性是在機(jī)器人環(huán)境中成功學(xué)習(xí)的主要挑戰(zhàn)。借助 Cosmos 的文本、圖像和視頻到世界的能力,我們能夠在各種任務(wù)中生成和增強(qiáng)逼真的場(chǎng)景并利用這些場(chǎng)景訓(xùn)練模型,而不需要采集那么多昂貴的真實(shí)數(shù)據(jù)?!?/p>

交通運(yùn)輸領(lǐng)域的領(lǐng)先企業(yè)也在使用 Cosmos 構(gòu)建適用于自動(dòng)駕駛汽車的物理AI:

l Waabi 是一家從自動(dòng)駕駛汽車開始致力于開發(fā)物理世界生成式 AI 的先驅(qū)。該公司正在評(píng)估 Cosmos 在自動(dòng)駕駛汽車軟件開發(fā)和仿真中數(shù)據(jù)整理的應(yīng)用。

l Wayve 是一家致力于開發(fā)自動(dòng)駕駛 AI 基礎(chǔ)模型的公司。該公司正在評(píng)估使用 Cosmos 搜索用于提高安全性和驗(yàn)證的極端駕駛場(chǎng)景。

l 自動(dòng)駕駛汽車工具鏈提供商 Foretellix 將使用 Cosmos 與 NVIDIA Omniverse Sensor RTX API 大規(guī)模評(píng)估和生成高保真測(cè)試場(chǎng)景與訓(xùn)練數(shù)據(jù)。

l 全球共享出行巨頭 Uber 正在與 NVIDIA 合作,共同加速自動(dòng)駕駛汽車的發(fā)展。Uber 豐富的駕駛數(shù)據(jù)集在與 Cosmos 平臺(tái)和 NVIDIA DGX Cloud? 的功能結(jié)合后,能夠幫助自動(dòng)駕駛汽車合作伙伴更加高效地構(gòu)建更強(qiáng)大的 AI 模型。

Uber 首席執(zhí)行官 Dara Khosrowshahi 表示:“生成式 AI 將驅(qū)動(dòng)未來(lái)的移動(dòng)出行,而這需要豐富的數(shù)據(jù)和非常強(qiáng)大的算力。相信在 NVIDIA 的助力下,我們能夠幫助行業(yè)更快開發(fā)出安全、可擴(kuò)展的自動(dòng)駕駛解決方案。”

開發(fā)開放、安全和負(fù)責(zé)任的 AI

NVIDIA Cosmos 根據(jù) NVIDIA 的可信 AI 原則開發(fā)而成,該原則將優(yōu)先考慮隱私、安全、保障、透明和減少不必要的偏見(jiàn)。

可信 AI 對(duì)于促進(jìn)開發(fā)者社區(qū)創(chuàng)新和維護(hù)用戶信任至關(guān)重要。NVIDIA 致力于實(shí)現(xiàn)安全、可信的 AI,這與全球的各個(gè) AI 安全倡議相吻合。

Cosmos 開放平臺(tái)加入了專為減少有害文字和圖像而設(shè)計(jì)的護(hù)欄,并提供了一個(gè)增強(qiáng)文字提示準(zhǔn)確性的工具。使用 NVIDIA API 目錄上的 Cosmos 自回歸模型和擴(kuò)散模型生成的視頻會(huì)帶有隱形水印,可識(shí)別 AI 生成的內(nèi)容,這有助于減少錯(cuò)誤信息和錯(cuò)誤歸屬的可能性。

NVIDIA 鼓勵(lì)開發(fā)者采用可信 AI 實(shí)踐,并進(jìn)一步改進(jìn)其應(yīng)用的護(hù)欄和水印解決方案。

供貨情況

Cosmos WFM 現(xiàn)在可以通過(guò) NVIDIA在 Hugging Face 和 NVIDIA NGC 目錄上的開放模型許可證獲得,并且很快將以經(jīng)過(guò)全面優(yōu)化的 NVIDIA NIM 微服務(wù)形式提供。

開發(fā)者可以使用 NVIDIA NeMo Curator 加速視頻處理,并使用 NVIDIA NeMo 定制自己的世界模型。然后,他們可以通過(guò) NVIDIA DGX Cloud 快速、簡(jiǎn)單地部署這些模型,并獲得 NVIDIA AI Enterprise 軟件平臺(tái)提供的企業(yè)支持。

NVIDIA 還宣布推出全新 NVIDIA Llama Nemotron 大語(yǔ)言模型和 NVIDIA Cosmos Nemotron 視覺(jué)語(yǔ)言模型。開發(fā)者可將這些模型用于醫(yī)療、金融服務(wù)、制造等領(lǐng)域的企業(yè) AI 用例。

關(guān)于NVIDIA

NVIDIA (NASDAQ: NVDA) 是加速計(jì)算領(lǐng)域的全球領(lǐng)導(dǎo)者。

分享到

songjy

相關(guān)推薦