av动漫,亚洲综合久久久久久888

而就在昨天，“AI教母”李飛飛終于是坐不住了

“無論怎樣理論化，我們還是很難用語言來描述與照片或句子生成的3D場(chǎng)景交互的體驗(yàn)，”李飛飛說道。

北京時(shí)間12月3日凌晨，著名 AI 學(xué)者、斯坦福大學(xué)教授李飛飛公布了她的第一個(gè)創(chuàng)業(yè)項(xiàng)目。這是一個(gè)能用單張圖片、一句話生成3D世界的神奇項(xiàng)目。

生成式AI，從此進(jìn)入了3D化、完全沉浸式的新時(shí)代。

只用一張圖生成的3D世界會(huì)有多精細(xì)？World Labs表示，效果是這樣的：

空間智能的發(fā)展史

理論基礎(chǔ)：李飛飛的空間智能發(fā)展基于對(duì)人類空間智能的深入理解。空間智能是指一個(gè)人準(zhǔn)確感受視覺空間并將所見形象表現(xiàn)出來的能力，包括以三維空間的方式來思考、知覺外在和內(nèi)在的影像，并能重現(xiàn)這些影像。

理論闡述：李飛飛在斯坦福大學(xué)任教期間，就開始了對(duì)空間智能的研究，并在多次演講中詳細(xì)解讀了這一概念。她認(rèn)為空間智能的核心在于教會(huì)計(jì)算機(jī)如何看、學(xué)習(xí)和行動(dòng)，并不斷學(xué)習(xí)如何更好地看和行動(dòng)。

首次面向大眾：在2024年的TED演講中，李飛飛詳細(xì)講解了“空間智能”的概念。她用一張簡單的圖片“一只貓將玻璃杯推到桌子邊緣”向大家闡述了人類大腦如何瞬間處理物體的形狀、位置、與周圍環(huán)境的關(guān)系，并預(yù)測(cè)接下來可能發(fā)生的事件。這種復(fù)雜的空間推理能力，是目前人工智能所無法完全具備的。

她深入研究如何讓AI不僅能看到，還能真正理解物體在空間中的位置及其與周圍環(huán)境的關(guān)系，從而推動(dòng)機(jī)器人、虛擬現(xiàn)實(shí)以及其他需要空間理解的系統(tǒng)進(jìn)化，這就是她“空間智能”研究的起點(diǎn)。

此前一周寶可夢(mèng)GO團(tuán)隊(duì)打造的全球最強(qiáng)3D地圖——LGM：以其龐大的神經(jīng)網(wǎng)絡(luò)與參數(shù)規(guī)模、高精度的3D視覺地圖以及全球范圍內(nèi)的知識(shí)互通與共享等特點(diǎn)，開啟了空間智能的新篇章。

就在昨天，李飛飛空間智能首個(gè)項(xiàng)目突然發(fā)布：僅憑借1張圖，就能生成一個(gè)3D游戲世界的AI系統(tǒng)！

生成的3D世界具有交互性

能夠像玩游戲那樣，自由地移動(dòng)相機(jī)來探索這個(gè)3D世界，淺景深、希區(qū)柯克變焦等操作均可行。

隨便輸入一張圖：除了這張圖本體，可探索的3D世界里，所有東西都是AI生成的：

與生成式AI工具生成的圖片或視頻等2D內(nèi)容不同，以3D形式生成的內(nèi)容具有更好的控制性和一致性。而且，該模型還可以適應(yīng)各種場(chǎng)景類型和藝術(shù)風(fēng)格，比如生成不同的相機(jī)效果、3D效果以及經(jīng)典繪畫風(fēng)格的3D內(nèi)容。

這將改變我們制作電影、游戲、模擬器和其他物理世界數(shù)字表現(xiàn)形式的方式。

技術(shù)意義與應(yīng)用前景

技術(shù)意義：該成果展示了「空間智能」在AI領(lǐng)域的重要應(yīng)用，推動(dòng)了計(jì)算機(jī)視覺和實(shí)體智能體的發(fā)展。實(shí)現(xiàn)了從2D到3D的跨越，為電影、游戲、模擬器等物理世界的數(shù)字表現(xiàn)形式帶來了翻天覆地的變化。

應(yīng)用前景：目標(biāo)客戶包括視頻游戲開發(fā)商和電影制片廠，有望降低開發(fā)成本，幫助工作室實(shí)現(xiàn)更大膽的創(chuàng)意冒險(xiǎn)。對(duì)藝術(shù)家、設(shè)計(jì)師、開發(fā)人員、電影制作人和工程師等專業(yè)人士有用的工具，可以與其他AI工具自然地結(jié)合，創(chuàng)造新的工作流體驗(yàn)。

多模態(tài)語言模型和空間智能的區(qū)別

知名華裔計(jì)算機(jī)科學(xué)家、人工智能專家李飛飛和計(jì)算機(jī)視覺領(lǐng)域的知名學(xué)者Justin Johnson共同接受了a16z的專訪。

在受訪中，李飛飛表示，計(jì)算能力、數(shù)據(jù)理解和算法的進(jìn)步為空間智能的發(fā)展奠定了基礎(chǔ)。相對(duì)于語言模型而言，空間智能更側(cè)重于機(jī)器對(duì)物理世界的感知、推理和交互能力，它是人工智能發(fā)展的必然趨勢(shì)。

當(dāng)前語言模型，特別是多模態(tài)模型，底層表示均為一維。上下文長度、Transformer架構(gòu)、序列處理及注意力機(jī)制均體現(xiàn)一維表示。這些模型基于一維標(biāo)記序列運(yùn)作。語言的一維表示自然，因文字為字母構(gòu)成的一維序列。多模態(tài)模型將其他模態(tài)信息融入一維表示。但空間智能領(lǐng)域需三維表征為核心。

算法層面，這提供了新數(shù)據(jù)處理、輸出類型及問題解決途徑。多模態(tài)模型處理圖像時(shí)，未包含基本三維表示。李飛飛認(rèn)為，一維與三維表示的根本差異是關(guān)鍵。語言為生成信號(hào)，模型可概括性輸出數(shù)據(jù)。而3D世界遵循物理定律，結(jié)構(gòu)復(fù)雜。3D信息處理與語言處理截然不同，雖借鑒語言模型想法，但為全新哲學(xué)議題。

主持人問，一維語言是否為物理世界的糟糕表征，因人類生成且可能信息損失?；谙袼氐哪Ｐ吞幚?D圖像和視頻，觀看視頻可感知3D世界。空間智能與2D處理有何不同？

Justin區(qū)分底層表示和面向用戶的可供性。感知二維圖像，視網(wǎng)膜為二維結(jié)構(gòu)，但表示方式影響可供性。大腦將二維視為三維投影，執(zhí)行操作如移動(dòng)物體或相機(jī)。可用二維表示和模型實(shí)現(xiàn)，但與任務(wù)不完全匹配。對(duì)三維世界的二維投影建?？赡埽呛诵?。三維表示置于模型核心，表示類型與任務(wù)類型更匹配，提供更自然的可供性。

李飛飛強(qiáng)調(diào)空間智能重要性。智能的弧線指向可供性，進(jìn)化使動(dòng)物和人類能在世界移動(dòng)、互動(dòng)、創(chuàng)造。原生的三維性對(duì)釋放應(yīng)用洪流至關(guān)重要，即使表現(xiàn)形式二維，本質(zhì)三維。

結(jié)語

李飛飛首個(gè)「空間智能」模型的發(fā)布標(biāo)志著AI在3D世界生成和交互性方面取得了重要突破。這一成果不僅具有技術(shù)意義，還展示了廣闊的應(yīng)用前景和無限的可能性。

此外World Labs表示，他們正在努力改進(jìn)生成的3D世界的大小和逼真度，并嘗試與用戶互動(dòng)的新方法。未來，隨著「空間智能」的加速進(jìn)步，一個(gè)新時(shí)代正在我們眼前展開，這將催化機(jī)器人學(xué)習(xí)等具身智能系統(tǒng)的發(fā)展。（文/宋雨涵）

分享到

AI 生成式AI 空間智能

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽