這一成果不僅實現(xiàn)了李飛飛提出的“空間智能”概念,而且意味著計算機(jī)將能夠以類似人類的方式理解空間,為AR眼鏡、機(jī)器人、內(nèi)容創(chuàng)建和自主系統(tǒng)等領(lǐng)域帶來全新突破。
作為Niantic視覺定位系統(tǒng)(VPS)的一部分,團(tuán)隊訓(xùn)練了超過5000萬個神經(jīng)網(wǎng)絡(luò),參數(shù)規(guī)模超過150萬億。
我們可以把LGM想象成一張為計算機(jī)準(zhǔn)備的超級智能地圖,不過,它卻能以與人類類似的方式理解空間。
憑借這種對世界的強(qiáng)大3D理解能力,LGM能夠非常智能地「填補(bǔ)空白」,甚至包括那些地球上人類尚未全面掃描的領(lǐng)域!
可以說是,讓AI終于長出了眼睛
從此,LGM將使計算機(jī)不僅能感知和理解空間,還能以新的方式與之互動,這就意味著AR眼鏡和機(jī)器人、內(nèi)容創(chuàng)建、自主系統(tǒng)等領(lǐng)域?qū)⒂瓉砣碌耐黄啤?/p>
隨著我們從手機(jī)轉(zhuǎn)向與現(xiàn)實世界相連的可穿戴技術(shù),空間智能,將成為未來世界的操作系統(tǒng)!
李飛飛首提空間智能
在2024年的TED演講中,李飛飛詳細(xì)講解了“空間智能”的概念。她用一張簡單的圖片“一只貓將玻璃杯推到桌子邊緣”向大家闡述了人類大腦如何瞬間處理物體的形狀、位置、與周圍環(huán)境的關(guān)系,并預(yù)測接下來可能發(fā)生的事件。這種復(fù)雜的空間推理能力,是目前人工智能所無法完全具備的。
傳統(tǒng)AI系統(tǒng)能夠處理靜態(tài)圖像,但對于如機(jī)器人和自動化系統(tǒng)等需要理解動態(tài)環(huán)境、執(zhí)行空間交互的任務(wù),現(xiàn)有的AI表現(xiàn)仍然不足。正如李飛飛所指出的,“雖然計算機(jī)視覺技術(shù)已經(jīng)非常強(qiáng)大,但在面對三維現(xiàn)實環(huán)境的認(rèn)知與交互時,我們的AI系統(tǒng)仍遠(yuǎn)不如人類靈活。”
因此,她深入研究如何讓AI不僅能看到,還能真正理解物體在空間中的位置及其與周圍環(huán)境的關(guān)系,從而推動機(jī)器人、虛擬現(xiàn)實以及其他需要空間理解的系統(tǒng)進(jìn)化,這就是她“空間智能”研究的起點。
空間智能的核心技術(shù)
多模態(tài)感知與推理
多模態(tài)感知是空間智能的基礎(chǔ),它不僅依賴計算機(jī)視覺,還結(jié)合了語言理解、語音處理和物理模擬等多種技術(shù)。李飛飛團(tuán)隊的“Visual Genome”項目,通過大規(guī)模語義網(wǎng)絡(luò),將視覺信息與語言描述關(guān)聯(lián)起來。這種關(guān)聯(lián)性讓AI在看圖識物的基礎(chǔ)上,能夠理解圖像中物體的復(fù)雜關(guān)系。這不僅提升了AI的認(rèn)知水平,也為機(jī)器人等實際應(yīng)用打下了技術(shù)基礎(chǔ)。
動態(tài)三維環(huán)境的強(qiáng)化學(xué)習(xí)
為了訓(xùn)練AI具備與物理世界互動的能力,李飛飛的團(tuán)隊在研究中大力推進(jìn)強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)技術(shù)的應(yīng)用。尤其是在動態(tài)三維環(huán)境中的應(yīng)用,該技術(shù)的核心在于通過虛擬物理環(huán)境,讓AI不斷試錯和學(xué)習(xí)。通過這種方式,AI能夠從與環(huán)境的互動中自我優(yōu)化其行為策略。這項技術(shù)應(yīng)用于多個領(lǐng)域,如機(jī)器人導(dǎo)航、自動駕駛等。
大規(guī)模物理場景建模
李飛飛的團(tuán)隊還在探索如何通過大規(guī)模物理建模,使AI能夠?qū)崟r推理和預(yù)測物體的物理屬性與運動軌跡。物理場景的建模不僅幫助AI更好地理解空間中的物體動態(tài),也大大擴(kuò)展了其應(yīng)用領(lǐng)域。在智能交通系統(tǒng)中,這一技術(shù)已經(jīng)展現(xiàn)出了巨大的潛力,尤其是在無人駕駛汽車對交通環(huán)境的實時感知和預(yù)測中,物理建模系統(tǒng)讓車輛能夠預(yù)判其他車輛的運動行為,做出更安全的決策。
LGM讓全球數(shù)百萬個場景,通過AI相連
這個大規(guī)模地理空間模型的概念,是利用大規(guī)模機(jī)器學(xué)習(xí)理解場景,然后它就會與全球數(shù)百萬個其他場景相連。
你是否曾有這樣的感覺?
看到一種熟悉的建筑,比如教堂、雕像或城鎮(zhèn)廣場,我們很容易想象它從其他角度看起來是什么樣子,即使這些角度我們從未見過。
這,就是我們?nèi)祟惇氂械摹缚臻g理解」功能,它意味著,我們可以根據(jù)以前遇到的無數(shù)相似場景來填補(bǔ)這些細(xì)節(jié)。
但這種能力對于機(jī)器來說,卻是難如登天。
即使當(dāng)今最先進(jìn)的AI模型,也難以推斷出場景中缺失的部分、將其可視化,或者想象出一個地方從全新的角度看起來是什么樣子。
如今,LGM打破了AI的這種限制!
這套由寶可夢GO團(tuán)隊訓(xùn)練出的神經(jīng)網(wǎng)絡(luò),可以在超過100萬個地點進(jìn)行操作。
每個本地網(wǎng)絡(luò),都會為全球大模型做出貢獻(xiàn),實現(xiàn)對地理位置的貢獻(xiàn)理解,包括那些尚未掃描的地方。
訓(xùn)練超過5000萬個神經(jīng)網(wǎng)絡(luò)
作為Niantic視覺定位系統(tǒng)(VPS)的核心部分,LGM通過訓(xùn)練超過5000萬個神經(jīng)網(wǎng)絡(luò),能夠智能地“填補(bǔ)空白”,包括那些地球上人類尚未全面掃描的領(lǐng)域。這一超級智能地圖不僅能夠感知和理解空間,還能以新的方式與之互動,預(yù)示著空間智能將成為未來世界的操作系統(tǒng)。
LGM的構(gòu)建基于數(shù)十億張全球各地的圖像,這些圖像錨定在地球上的精確位置,并被提煉成一個大模型,使計算機(jī)能夠基于位置去理解空間、結(jié)構(gòu)和物理交互。這一模型的突破在于它捕捉的是根植于特定地理位置、并且具有度量特性的3D實體,實現(xiàn)了一種地理空間智能,讓模型從其先前的觀察中學(xué)習(xí),然后還能將知識轉(zhuǎn)移到新的位置,即使這些位置只是被部分觀察到的。
Niantic團(tuán)隊花費了五年時間構(gòu)建視覺定位系統(tǒng)VPS,該系統(tǒng)能夠利用手機(jī)上的單張圖像,讓用戶在游戲和Scaniverse中有趣的地點構(gòu)建3D地圖,從而確定其位置和方向。VPS的構(gòu)建依賴于用戶掃描,全球范圍內(nèi)擁有1000萬個掃描地點,其中超過100萬個已激活,可供VPS使用。團(tuán)隊每周還在接收約100萬次新的掃描,每次掃描都包含數(shù)百張獨立的圖像。
LGM的實現(xiàn),不僅僅是一個簡單的定位模型,它將豐富的幾何、外觀和文化信息編碼到場景級特征中,這些特征將啟用場景表示、操控和創(chuàng)造的新方式。未來的智能體系統(tǒng)將不再是孤立的存在,不同類型的基礎(chǔ)模型將相互補(bǔ)充,共同工作以理解世界。隨著AR眼鏡等可穿戴設(shè)備變得更加普及,我們正邁向一個由物理和數(shù)字現(xiàn)實無縫融合的未來。LGM代表著AI進(jìn)化的又一個里程碑,將在空間規(guī)劃與設(shè)計、物流、受眾參與和遠(yuǎn)程協(xié)作等方面有廣泛的應(yīng)用。
結(jié)語
寶可夢GO團(tuán)隊打造的全球最強(qiáng)3D地圖——LGM,以其龐大的神經(jīng)網(wǎng)絡(luò)與參數(shù)規(guī)模、高精度的3D視覺地圖以及全球范圍內(nèi)的知識互通與共享等特點,開啟了空間智能的新篇章。它將為AR技術(shù)、游戲領(lǐng)域、城市規(guī)劃與物流管理以及公共安全等領(lǐng)域帶來革命性的變革。然而,在享受LGM帶來的便利和創(chuàng)新的同時,我們也需要關(guān)注其隱私和數(shù)據(jù)安全問題,并采取有效的措施加以保護(hù)。(文/宋雨涵)