而就在昨天,“AI教母”李飛飛終于是坐不住了
“無論怎樣理論化,我們還是很難用語言來描述與照片或句子生成的3D場景交互的體驗(yàn),”李飛飛說道。
北京時(shí)間12月3日凌晨,著名 AI 學(xué)者、斯坦福大學(xué)教授李飛飛公布了她的第一個(gè)創(chuàng)業(yè)項(xiàng)目。這是一個(gè)能用單張圖片、一句話生成3D世界的神奇項(xiàng)目。
生成式AI,從此進(jìn)入了3D化、完全沉浸式的新時(shí)代。
只用一張圖生成的3D世界會有多精細(xì)?World Labs表示,效果是這樣的:
空間智能的發(fā)展史
理論基礎(chǔ):李飛飛的空間智能發(fā)展基于對人類空間智能的深入理解。空間智能是指一個(gè)人準(zhǔn)確感受視覺空間并將所見形象表現(xiàn)出來的能力,包括以三維空間的方式來思考、知覺外在和內(nèi)在的影像,并能重現(xiàn)這些影像。
理論闡述:李飛飛在斯坦福大學(xué)任教期間,就開始了對空間智能的研究,并在多次演講中詳細(xì)解讀了這一概念。她認(rèn)為空間智能的核心在于教會計(jì)算機(jī)如何看、學(xué)習(xí)和行動,并不斷學(xué)習(xí)如何更好地看和行動。
首次面向大眾:在2024年的TED演講中,李飛飛詳細(xì)講解了“空間智能”的概念。她用一張簡單的圖片“一只貓將玻璃杯推到桌子邊緣”向大家闡述了人類大腦如何瞬間處理物體的形狀、位置、與周圍環(huán)境的關(guān)系,并預(yù)測接下來可能發(fā)生的事件。這種復(fù)雜的空間推理能力,是目前人工智能所無法完全具備的。
她深入研究如何讓AI不僅能看到,還能真正理解物體在空間中的位置及其與周圍環(huán)境的關(guān)系,從而推動機(jī)器人、虛擬現(xiàn)實(shí)以及其他需要空間理解的系統(tǒng)進(jìn)化,這就是她“空間智能”研究的起點(diǎn)。
此前一周寶可夢GO團(tuán)隊(duì)打造的全球最強(qiáng)3D地圖——LGM:以其龐大的神經(jīng)網(wǎng)絡(luò)與參數(shù)規(guī)模、高精度的3D視覺地圖以及全球范圍內(nèi)的知識互通與共享等特點(diǎn),開啟了空間智能的新篇章。
就在昨天,李飛飛空間智能首個(gè)項(xiàng)目突然發(fā)布:僅憑借1張圖,就能生成一個(gè)3D游戲世界的AI系統(tǒng)!
生成的3D世界具有交互性
能夠像玩游戲那樣,自由地移動相機(jī)來探索這個(gè)3D世界,淺景深、希區(qū)柯克變焦等操作均可行。
隨便輸入一張圖:除了這張圖本體,可探索的3D世界里,所有東西都是AI生成的:
與生成式AI工具生成的圖片或視頻等2D內(nèi)容不同,以3D形式生成的內(nèi)容具有更好的控制性和一致性。而且,該模型還可以適應(yīng)各種場景類型和藝術(shù)風(fēng)格,比如生成不同的相機(jī)效果、3D效果以及經(jīng)典繪畫風(fēng)格的3D內(nèi)容。
這將改變我們制作電影、游戲、模擬器和其他物理世界數(shù)字表現(xiàn)形式的方式。
技術(shù)意義與應(yīng)用前景
技術(shù)意義:該成果展示了「空間智能」在AI領(lǐng)域的重要應(yīng)用,推動了計(jì)算機(jī)視覺和實(shí)體智能體的發(fā)展。實(shí)現(xiàn)了從2D到3D的跨越,為電影、游戲、模擬器等物理世界的數(shù)字表現(xiàn)形式帶來了翻天覆地的變化。
應(yīng)用前景:目標(biāo)客戶包括視頻游戲開發(fā)商和電影制片廠,有望降低開發(fā)成本,幫助工作室實(shí)現(xiàn)更大膽的創(chuàng)意冒險(xiǎn)。對藝術(shù)家、設(shè)計(jì)師、開發(fā)人員、電影制作人和工程師等專業(yè)人士有用的工具,可以與其他AI工具自然地結(jié)合,創(chuàng)造新的工作流體驗(yàn)。
多模態(tài)語言模型和空間智能的區(qū)別
知名華裔計(jì)算機(jī)科學(xué)家、人工智能專家李飛飛和計(jì)算機(jī)視覺領(lǐng)域的知名學(xué)者Justin Johnson共同接受了a16z的專訪。
在受訪中,李飛飛表示,計(jì)算能力、數(shù)據(jù)理解和算法的進(jìn)步為空間智能的發(fā)展奠定了基礎(chǔ)。相對于語言模型而言,空間智能更側(cè)重于機(jī)器對物理世界的感知、推理和交互能力,它是人工智能發(fā)展的必然趨勢。
當(dāng)前語言模型,特別是多模態(tài)模型,底層表示均為一維。上下文長度、Transformer架構(gòu)、序列處理及注意力機(jī)制均體現(xiàn)一維表示。這些模型基于一維標(biāo)記序列運(yùn)作。語言的一維表示自然,因文字為字母構(gòu)成的一維序列。多模態(tài)模型將其他模態(tài)信息融入一維表示。但空間智能領(lǐng)域需三維表征為核心。
算法層面,這提供了新數(shù)據(jù)處理、輸出類型及問題解決途徑。多模態(tài)模型處理圖像時(shí),未包含基本三維表示。李飛飛認(rèn)為,一維與三維表示的根本差異是關(guān)鍵。語言為生成信號,模型可概括性輸出數(shù)據(jù)。而3D世界遵循物理定律,結(jié)構(gòu)復(fù)雜。3D信息處理與語言處理截然不同,雖借鑒語言模型想法,但為全新哲學(xué)議題。
主持人問,一維語言是否為物理世界的糟糕表征,因人類生成且可能信息損失?;谙袼氐哪P吞幚?D圖像和視頻,觀看視頻可感知3D世界??臻g智能與2D處理有何不同?
Justin區(qū)分底層表示和面向用戶的可供性。感知二維圖像,視網(wǎng)膜為二維結(jié)構(gòu),但表示方式影響可供性。大腦將二維視為三維投影,執(zhí)行操作如移動物體或相機(jī)??捎枚S表示和模型實(shí)現(xiàn),但與任務(wù)不完全匹配。對三維世界的二維投影建模可能,但非核心。三維表示置于模型核心,表示類型與任務(wù)類型更匹配,提供更自然的可供性。
李飛飛強(qiáng)調(diào)空間智能重要性。智能的弧線指向可供性,進(jìn)化使動物和人類能在世界移動、互動、創(chuàng)造。原生的三維性對釋放應(yīng)用洪流至關(guān)重要,即使表現(xiàn)形式二維,本質(zhì)三維。
結(jié)語
李飛飛首個(gè)「空間智能」模型的發(fā)布標(biāo)志著AI在3D世界生成和交互性方面取得了重要突破。這一成果不僅具有技術(shù)意義,還展示了廣闊的應(yīng)用前景和無限的可能性。
此外World Labs表示,他們正在努力改進(jìn)生成的3D世界的大小和逼真度,并嘗試與用戶互動的新方法。未來,隨著「空間智能」的加速進(jìn)步,一個(gè)新時(shí)代正在我們眼前展開,這將催化機(jī)器人學(xué)習(xí)等具身智能系統(tǒng)的發(fā)展。(文/宋雨涵)