這一成果不僅實(shí)現(xiàn)了李飛飛提出的“空間智能”概念,而且意味著計(jì)算機(jī)將能夠以類(lèi)似人類(lèi)的方式理解空間,為AR眼鏡、機(jī)器人、內(nèi)容創(chuàng)建和自主系統(tǒng)等領(lǐng)域帶來(lái)全新突破。
作為Niantic視覺(jué)定位系統(tǒng)(VPS)的一部分,團(tuán)隊(duì)訓(xùn)練了超過(guò)5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),參數(shù)規(guī)模超過(guò)150萬(wàn)億。
我們可以把LGM想象成一張為計(jì)算機(jī)準(zhǔn)備的超級(jí)智能地圖,不過(guò),它卻能以與人類(lèi)類(lèi)似的方式理解空間。
憑借這種對(duì)世界的強(qiáng)大3D理解能力,LGM能夠非常智能地「填補(bǔ)空白」,甚至包括那些地球上人類(lèi)尚未全面掃描的領(lǐng)域!
可以說(shuō)是,讓AI終于長(zhǎng)出了眼睛
從此,LGM將使計(jì)算機(jī)不僅能感知和理解空間,還能以新的方式與之互動(dòng),這就意味著AR眼鏡和機(jī)器人、內(nèi)容創(chuàng)建、自主系統(tǒng)等領(lǐng)域?qū)⒂瓉?lái)全新的突破。
隨著我們從手機(jī)轉(zhuǎn)向與現(xiàn)實(shí)世界相連的可穿戴技術(shù),空間智能,將成為未來(lái)世界的操作系統(tǒng)!
李飛飛首提空間智能
在2024年的TED演講中,李飛飛詳細(xì)講解了“空間智能”的概念。她用一張簡(jiǎn)單的圖片“一只貓將玻璃杯推到桌子邊緣”向大家闡述了人類(lèi)大腦如何瞬間處理物體的形狀、位置、與周?chē)h(huán)境的關(guān)系,并預(yù)測(cè)接下來(lái)可能發(fā)生的事件。這種復(fù)雜的空間推理能力,是目前人工智能所無(wú)法完全具備的。
傳統(tǒng)AI系統(tǒng)能夠處理靜態(tài)圖像,但對(duì)于如機(jī)器人和自動(dòng)化系統(tǒng)等需要理解動(dòng)態(tài)環(huán)境、執(zhí)行空間交互的任務(wù),現(xiàn)有的AI表現(xiàn)仍然不足。正如李飛飛所指出的,“雖然計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)非常強(qiáng)大,但在面對(duì)三維現(xiàn)實(shí)環(huán)境的認(rèn)知與交互時(shí),我們的AI系統(tǒng)仍遠(yuǎn)不如人類(lèi)靈活?!?/p>
因此,她深入研究如何讓AI不僅能看到,還能真正理解物體在空間中的位置及其與周?chē)h(huán)境的關(guān)系,從而推動(dòng)機(jī)器人、虛擬現(xiàn)實(shí)以及其他需要空間理解的系統(tǒng)進(jìn)化,這就是她“空間智能”研究的起點(diǎn)。
空間智能的核心技術(shù)
多模態(tài)感知與推理
多模態(tài)感知是空間智能的基礎(chǔ),它不僅依賴(lài)計(jì)算機(jī)視覺(jué),還結(jié)合了語(yǔ)言理解、語(yǔ)音處理和物理模擬等多種技術(shù)。李飛飛團(tuán)隊(duì)的“Visual Genome”項(xiàng)目,通過(guò)大規(guī)模語(yǔ)義網(wǎng)絡(luò),將視覺(jué)信息與語(yǔ)言描述關(guān)聯(lián)起來(lái)。這種關(guān)聯(lián)性讓AI在看圖識(shí)物的基礎(chǔ)上,能夠理解圖像中物體的復(fù)雜關(guān)系。這不僅提升了AI的認(rèn)知水平,也為機(jī)器人等實(shí)際應(yīng)用打下了技術(shù)基礎(chǔ)。
動(dòng)態(tài)三維環(huán)境的強(qiáng)化學(xué)習(xí)
為了訓(xùn)練AI具備與物理世界互動(dòng)的能力,李飛飛的團(tuán)隊(duì)在研究中大力推進(jìn)強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)技術(shù)的應(yīng)用。尤其是在動(dòng)態(tài)三維環(huán)境中的應(yīng)用,該技術(shù)的核心在于通過(guò)虛擬物理環(huán)境,讓AI不斷試錯(cuò)和學(xué)習(xí)。通過(guò)這種方式,AI能夠從與環(huán)境的互動(dòng)中自我優(yōu)化其行為策略。這項(xiàng)技術(shù)應(yīng)用于多個(gè)領(lǐng)域,如機(jī)器人導(dǎo)航、自動(dòng)駕駛等。
大規(guī)模物理場(chǎng)景建模
李飛飛的團(tuán)隊(duì)還在探索如何通過(guò)大規(guī)模物理建模,使AI能夠?qū)崟r(shí)推理和預(yù)測(cè)物體的物理屬性與運(yùn)動(dòng)軌跡。物理場(chǎng)景的建模不僅幫助AI更好地理解空間中的物體動(dòng)態(tài),也大大擴(kuò)展了其應(yīng)用領(lǐng)域。在智能交通系統(tǒng)中,這一技術(shù)已經(jīng)展現(xiàn)出了巨大的潛力,尤其是在無(wú)人駕駛汽車(chē)對(duì)交通環(huán)境的實(shí)時(shí)感知和預(yù)測(cè)中,物理建模系統(tǒng)讓車(chē)輛能夠預(yù)判其他車(chē)輛的運(yùn)動(dòng)行為,做出更安全的決策。
LGM讓全球數(shù)百萬(wàn)個(gè)場(chǎng)景,通過(guò)AI相連
這個(gè)大規(guī)模地理空間模型的概念,是利用大規(guī)模機(jī)器學(xué)習(xí)理解場(chǎng)景,然后它就會(huì)與全球數(shù)百萬(wàn)個(gè)其他場(chǎng)景相連。
你是否曾有這樣的感覺(jué)?
看到一種熟悉的建筑,比如教堂、雕像或城鎮(zhèn)廣場(chǎng),我們很容易想象它從其他角度看起來(lái)是什么樣子,即使這些角度我們從未見(jiàn)過(guò)。
這,就是我們?nèi)祟?lèi)獨(dú)有的「空間理解」功能,它意味著,我們可以根據(jù)以前遇到的無(wú)數(shù)相似場(chǎng)景來(lái)填補(bǔ)這些細(xì)節(jié)。
但這種能力對(duì)于機(jī)器來(lái)說(shuō),卻是難如登天。
即使當(dāng)今最先進(jìn)的AI模型,也難以推斷出場(chǎng)景中缺失的部分、將其可視化,或者想象出一個(gè)地方從全新的角度看起來(lái)是什么樣子。
如今,LGM打破了AI的這種限制!
這套由寶可夢(mèng)GO團(tuán)隊(duì)訓(xùn)練出的神經(jīng)網(wǎng)絡(luò),可以在超過(guò)100萬(wàn)個(gè)地點(diǎn)進(jìn)行操作。
每個(gè)本地網(wǎng)絡(luò),都會(huì)為全球大模型做出貢獻(xiàn),實(shí)現(xiàn)對(duì)地理位置的貢獻(xiàn)理解,包括那些尚未掃描的地方。
訓(xùn)練超過(guò)5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò)
作為Niantic視覺(jué)定位系統(tǒng)(VPS)的核心部分,LGM通過(guò)訓(xùn)練超過(guò)5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),能夠智能地“填補(bǔ)空白”,包括那些地球上人類(lèi)尚未全面掃描的領(lǐng)域。這一超級(jí)智能地圖不僅能夠感知和理解空間,還能以新的方式與之互動(dòng),預(yù)示著空間智能將成為未來(lái)世界的操作系統(tǒng)。
LGM的構(gòu)建基于數(shù)十億張全球各地的圖像,這些圖像錨定在地球上的精確位置,并被提煉成一個(gè)大模型,使計(jì)算機(jī)能夠基于位置去理解空間、結(jié)構(gòu)和物理交互。這一模型的突破在于它捕捉的是根植于特定地理位置、并且具有度量特性的3D實(shí)體,實(shí)現(xiàn)了一種地理空間智能,讓模型從其先前的觀察中學(xué)習(xí),然后還能將知識(shí)轉(zhuǎn)移到新的位置,即使這些位置只是被部分觀察到的。
Niantic團(tuán)隊(duì)花費(fèi)了五年時(shí)間構(gòu)建視覺(jué)定位系統(tǒng)VPS,該系統(tǒng)能夠利用手機(jī)上的單張圖像,讓用戶(hù)在游戲和Scaniverse中有趣的地點(diǎn)構(gòu)建3D地圖,從而確定其位置和方向。VPS的構(gòu)建依賴(lài)于用戶(hù)掃描,全球范圍內(nèi)擁有1000萬(wàn)個(gè)掃描地點(diǎn),其中超過(guò)100萬(wàn)個(gè)已激活,可供VPS使用。團(tuán)隊(duì)每周還在接收約100萬(wàn)次新的掃描,每次掃描都包含數(shù)百?gòu)埅?dú)立的圖像。
LGM的實(shí)現(xiàn),不僅僅是一個(gè)簡(jiǎn)單的定位模型,它將豐富的幾何、外觀和文化信息編碼到場(chǎng)景級(jí)特征中,這些特征將啟用場(chǎng)景表示、操控和創(chuàng)造的新方式。未來(lái)的智能體系統(tǒng)將不再是孤立的存在,不同類(lèi)型的基礎(chǔ)模型將相互補(bǔ)充,共同工作以理解世界。隨著AR眼鏡等可穿戴設(shè)備變得更加普及,我們正邁向一個(gè)由物理和數(shù)字現(xiàn)實(shí)無(wú)縫融合的未來(lái)。LGM代表著AI進(jìn)化的又一個(gè)里程碑,將在空間規(guī)劃與設(shè)計(jì)、物流、受眾參與和遠(yuǎn)程協(xié)作等方面有廣泛的應(yīng)用。
結(jié)語(yǔ)
寶可夢(mèng)GO團(tuán)隊(duì)打造的全球最強(qiáng)3D地圖——LGM,以其龐大的神經(jīng)網(wǎng)絡(luò)與參數(shù)規(guī)模、高精度的3D視覺(jué)地圖以及全球范圍內(nèi)的知識(shí)互通與共享等特點(diǎn),開(kāi)啟了空間智能的新篇章。它將為AR技術(shù)、游戲領(lǐng)域、城市規(guī)劃與物流管理以及公共安全等領(lǐng)域帶來(lái)革命性的變革。然而,在享受LGM帶來(lái)的便利和創(chuàng)新的同時(shí),我們也需要關(guān)注其隱私和數(shù)據(jù)安全問(wèn)題,并采取有效的措施加以保護(hù)。(文/宋雨涵)