天天久久躁躁,亚洲波霸双飞,国产极品女主播国产区

這一成果不僅實(shí)現(xiàn)了李飛飛提出的“空間智能”概念，而且意味著計(jì)算機(jī)將能夠以類似人類的方式理解空間，為AR眼鏡、機(jī)器人、內(nèi)容創(chuàng)建和自主系統(tǒng)等領(lǐng)域帶來全新突破。

作為Niantic視覺定位系統(tǒng)（VPS）的一部分，團(tuán)隊(duì)訓(xùn)練了超過5000萬個(gè)神經(jīng)網(wǎng)絡(luò)，參數(shù)規(guī)模超過150萬億。

我們可以把LGM想象成一張為計(jì)算機(jī)準(zhǔn)備的超級(jí)智能地圖，不過，它卻能以與人類類似的方式理解空間。

憑借這種對(duì)世界的強(qiáng)大3D理解能力，LGM能夠非常智能地「填補(bǔ)空白」，甚至包括那些地球上人類尚未全面掃描的領(lǐng)域！

可以說是，讓AI終于長(zhǎng)出了眼睛

從此，LGM將使計(jì)算機(jī)不僅能感知和理解空間，還能以新的方式與之互動(dòng)，這就意味著AR眼鏡和機(jī)器人、內(nèi)容創(chuàng)建、自主系統(tǒng)等領(lǐng)域?qū)⒂瓉砣碌耐黄啤?/p>

隨著我們從手機(jī)轉(zhuǎn)向與現(xiàn)實(shí)世界相連的可穿戴技術(shù)，空間智能，將成為未來世界的操作系統(tǒng)！

李飛飛首提空間智能

在2024年的TED演講中，李飛飛詳細(xì)講解了“空間智能”的概念。她用一張簡(jiǎn)單的圖片“一只貓將玻璃杯推到桌子邊緣”向大家闡述了人類大腦如何瞬間處理物體的形狀、位置、與周圍環(huán)境的關(guān)系，并預(yù)測(cè)接下來可能發(fā)生的事件。這種復(fù)雜的空間推理能力，是目前人工智能所無法完全具備的。

傳統(tǒng)AI系統(tǒng)能夠處理靜態(tài)圖像，但對(duì)于如機(jī)器人和自動(dòng)化系統(tǒng)等需要理解動(dòng)態(tài)環(huán)境、執(zhí)行空間交互的任務(wù)，現(xiàn)有的AI表現(xiàn)仍然不足。正如李飛飛所指出的，“雖然計(jì)算機(jī)視覺技術(shù)已經(jīng)非常強(qiáng)大，但在面對(duì)三維現(xiàn)實(shí)環(huán)境的認(rèn)知與交互時(shí)，我們的AI系統(tǒng)仍遠(yuǎn)不如人類靈活?！?/p>

因此，她深入研究如何讓AI不僅能看到，還能真正理解物體在空間中的位置及其與周圍環(huán)境的關(guān)系，從而推動(dòng)機(jī)器人、虛擬現(xiàn)實(shí)以及其他需要空間理解的系統(tǒng)進(jìn)化，這就是她“空間智能”研究的起點(diǎn)。

空間智能的核心技術(shù)

多模態(tài)感知與推理

多模態(tài)感知是空間智能的基礎(chǔ)，它不僅依賴計(jì)算機(jī)視覺，還結(jié)合了語言理解、語音處理和物理模擬等多種技術(shù)。李飛飛團(tuán)隊(duì)的“Visual Genome”項(xiàng)目，通過大規(guī)模語義網(wǎng)絡(luò)，將視覺信息與語言描述關(guān)聯(lián)起來。這種關(guān)聯(lián)性讓AI在看圖識(shí)物的基礎(chǔ)上，能夠理解圖像中物體的復(fù)雜關(guān)系。這不僅提升了AI的認(rèn)知水平，也為機(jī)器人等實(shí)際應(yīng)用打下了技術(shù)基礎(chǔ)。

動(dòng)態(tài)三維環(huán)境的強(qiáng)化學(xué)習(xí)

為了訓(xùn)練AI具備與物理世界互動(dòng)的能力，李飛飛的團(tuán)隊(duì)在研究中大力推進(jìn)強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）技術(shù)的應(yīng)用。尤其是在動(dòng)態(tài)三維環(huán)境中的應(yīng)用，該技術(shù)的核心在于通過虛擬物理環(huán)境，讓AI不斷試錯(cuò)和學(xué)習(xí)。通過這種方式，AI能夠從與環(huán)境的互動(dòng)中自我優(yōu)化其行為策略。這項(xiàng)技術(shù)應(yīng)用于多個(gè)領(lǐng)域，如機(jī)器人導(dǎo)航、自動(dòng)駕駛等。

大規(guī)模物理場(chǎng)景建模

李飛飛的團(tuán)隊(duì)還在探索如何通過大規(guī)模物理建模，使AI能夠?qū)崟r(shí)推理和預(yù)測(cè)物體的物理屬性與運(yùn)動(dòng)軌跡。物理場(chǎng)景的建模不僅幫助AI更好地理解空間中的物體動(dòng)態(tài)，也大大擴(kuò)展了其應(yīng)用領(lǐng)域。在智能交通系統(tǒng)中，這一技術(shù)已經(jīng)展現(xiàn)出了巨大的潛力，尤其是在無人駕駛汽車對(duì)交通環(huán)境的實(shí)時(shí)感知和預(yù)測(cè)中，物理建模系統(tǒng)讓車輛能夠預(yù)判其他車輛的運(yùn)動(dòng)行為，做出更安全的決策。

LGM讓全球數(shù)百萬個(gè)場(chǎng)景，通過AI相連

這個(gè)大規(guī)模地理空間模型的概念，是利用大規(guī)模機(jī)器學(xué)習(xí)理解場(chǎng)景，然后它就會(huì)與全球數(shù)百萬個(gè)其他場(chǎng)景相連。

你是否曾有這樣的感覺？

看到一種熟悉的建筑，比如教堂、雕像或城鎮(zhèn)廣場(chǎng)，我們很容易想象它從其他角度看起來是什么樣子，即使這些角度我們從未見過。

這，就是我們?nèi)祟惇?dú)有的「空間理解」功能，它意味著，我們可以根據(jù)以前遇到的無數(shù)相似場(chǎng)景來填補(bǔ)這些細(xì)節(jié)。

但這種能力對(duì)于機(jī)器來說，卻是難如登天。

即使當(dāng)今最先進(jìn)的AI模型，也難以推斷出場(chǎng)景中缺失的部分、將其可視化，或者想象出一個(gè)地方從全新的角度看起來是什么樣子。

如今，LGM打破了AI的這種限制！

這套由寶可夢(mèng)GO團(tuán)隊(duì)訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)，可以在超過100萬個(gè)地點(diǎn)進(jìn)行操作。

每個(gè)本地網(wǎng)絡(luò)，都會(huì)為全球大模型做出貢獻(xiàn)，實(shí)現(xiàn)對(duì)地理位置的貢獻(xiàn)理解，包括那些尚未掃描的地方。

訓(xùn)練超過5000萬個(gè)神經(jīng)網(wǎng)絡(luò)

作為Niantic視覺定位系統(tǒng)（VPS）的核心部分，LGM通過訓(xùn)練超過5000萬個(gè)神經(jīng)網(wǎng)絡(luò)，能夠智能地“填補(bǔ)空白”，包括那些地球上人類尚未全面掃描的領(lǐng)域。這一超級(jí)智能地圖不僅能夠感知和理解空間，還能以新的方式與之互動(dòng)，預(yù)示著空間智能將成為未來世界的操作系統(tǒng)。

LGM的構(gòu)建基于數(shù)十億張全球各地的圖像，這些圖像錨定在地球上的精確位置，并被提煉成一個(gè)大模型，使計(jì)算機(jī)能夠基于位置去理解空間、結(jié)構(gòu)和物理交互。這一模型的突破在于它捕捉的是根植于特定地理位置、并且具有度量特性的3D實(shí)體，實(shí)現(xiàn)了一種地理空間智能，讓模型從其先前的觀察中學(xué)習(xí)，然后還能將知識(shí)轉(zhuǎn)移到新的位置，即使這些位置只是被部分觀察到的。

Niantic團(tuán)隊(duì)花費(fèi)了五年時(shí)間構(gòu)建視覺定位系統(tǒng)VPS，該系統(tǒng)能夠利用手機(jī)上的單張圖像，讓用戶在游戲和Scaniverse中有趣的地點(diǎn)構(gòu)建3D地圖，從而確定其位置和方向。VPS的構(gòu)建依賴于用戶掃描，全球范圍內(nèi)擁有1000萬個(gè)掃描地點(diǎn)，其中超過100萬個(gè)已激活，可供VPS使用。團(tuán)隊(duì)每周還在接收約100萬次新的掃描，每次掃描都包含數(shù)百張獨(dú)立的圖像。

LGM的實(shí)現(xiàn)，不僅僅是一個(gè)簡(jiǎn)單的定位模型，它將豐富的幾何、外觀和文化信息編碼到場(chǎng)景級(jí)特征中，這些特征將啟用場(chǎng)景表示、操控和創(chuàng)造的新方式。未來的智能體系統(tǒng)將不再是孤立的存在，不同類型的基礎(chǔ)模型將相互補(bǔ)充，共同工作以理解世界。隨著AR眼鏡等可穿戴設(shè)備變得更加普及，我們正邁向一個(gè)由物理和數(shù)字現(xiàn)實(shí)無縫融合的未來。LGM代表著AI進(jìn)化的又一個(gè)里程碑，將在空間規(guī)劃與設(shè)計(jì)、物流、受眾參與和遠(yuǎn)程協(xié)作等方面有廣泛的應(yīng)用。

結(jié)語

寶可夢(mèng)GO團(tuán)隊(duì)打造的全球最強(qiáng)3D地圖——LGM，以其龐大的神經(jīng)網(wǎng)絡(luò)與參數(shù)規(guī)模、高精度的3D視覺地圖以及全球范圍內(nèi)的知識(shí)互通與共享等特點(diǎn)，開啟了空間智能的新篇章。它將為AR技術(shù)、游戲領(lǐng)域、城市規(guī)劃與物流管理以及公共安全等領(lǐng)域帶來革命性的變革。然而，在享受LGM帶來的便利和創(chuàng)新的同時(shí)，我們也需要關(guān)注其隱私和數(shù)據(jù)安全問題，并采取有效的措施加以保護(hù)。（文/宋雨涵）

分享到

空間智能

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽