2025年6月6日,第七屆北京智源大會在中關村國家自主創(chuàng)新示范區(qū)展示中心開幕。這場匯聚4位圖靈獎得主、30余位AI企業(yè)CEO、200余位頂尖學者的“AI界春晚”,以“全球視野、思想碰撞、前沿引領”為內(nèi)核,揭開了人工智能從數(shù)字世界邁向物理世界的技術拐點。
文字編輯| 宋雨涵
1
技術突破:
“悟界”系列構建物理世界交互基座
智源研究院院長王仲遠在主題演講中宣布推出 “悟界”系列大模型,包含四大核心技術成果,覆蓋從微觀生命到宏觀機器智能的全鏈條:
原生多模態(tài)世界模型Emu3
突破性架構:基于“下一個token預測”統(tǒng)一文本、圖像、視頻模態(tài),通過新型視覺tokenizer構建模態(tài)無關的表征空間,實現(xiàn)任意組合理解與生成。
物理因果推理:王仲遠以咖啡杯為例說明其價值——“現(xiàn)有模型能描述‘杯子在桌上’,但Emu3可推斷‘杯沿懸空會墜落’,這是對物理規(guī)律的真正理解”。
腦科學模型“見微Brainμ”
首次將fMRI、EEG等腦信號統(tǒng)一token化,實現(xiàn)腦活動與文本、圖像的雙向映射;
在便攜式腦電設備上重建感覺信號,已應用于睡眠分型、腦疾病診斷,并與清華、北大等機構合作探索腦機接口新場景。
具身智能雙引擎:RoboBrain 2.0 + RoboOS 2.0
RoboBrain 2.0:全球最強開源具身大腦,空間推理準確率提升74%,新增閉環(huán)反饋與深度思考能力;
RoboOS 2.0:跨本體協(xié)作框架響應時延降至3ms以下,支持“機器人應用商店”生態(tài),代碼量僅為傳統(tǒng)方案的1/10。
微觀生命模型OpenComplex2
在原子分辨率層面模擬生物分子動態(tài)構象,破解蛋白質結構預測瓶頸,為藥物研發(fā)提供新工具。
通往物理AGI的必經(jīng)之路戰(zhàn)略意圖:
“打造強大的世界模型是人類通往AGI的必經(jīng)之路?!敝窃创髸?,這一觀點成為共識。
李飛飛近期在與硅谷風投機構a16z的對話中也探討了“世界模型”概念——這些AI系統(tǒng)不僅能理解和推理文字信息,還能理解物理世界的運作規(guī)律。
世界模型代表著智能系統(tǒng)對物理世界的數(shù)字化理解與預測能力。在智能駕駛領域,各企業(yè)的競爭已從拼車端算力演進到比拼云端構建的世界模型能力。
華泰證券分析指出,這將持續(xù)提升車載芯片算力及傳感器精度,對算法公司和主機廠技術研發(fā)能力提出新要求。
億歐智庫報告則提醒,世界模型通過云端訓練+車端蒸餾提升泛化能力,但規(guī)?;涞厝允芟抻谒懔Τ杀九c數(shù)據(jù)質量兩大桎梏。
“大模型技術路線正從大語言模型轉向多模態(tài)尤其是原生多模態(tài)世界模型,”王仲遠指出,“所有這一切構成的世界模型,是實現(xiàn)物理AGI的重要發(fā)展路徑?!?/p>
2
具身智能爆發(fā)
機器人2.0時代落地提速
在過去一年里,具身智能領域呈現(xiàn)出爆發(fā)式的增長態(tài)勢,已然成為人工智能與機器人技術深度融合的核心領域。
在本屆智源大會上,“具身智能”元素無處不在,熱度空前。在開幕式的具身會客廳環(huán)節(jié),現(xiàn)場熱鬧非凡,宇樹、天工、銀河通用三大明星機器人紛紛登臺展示絕技,引得觀眾陣陣喝彩。
與此同時,Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman與宇樹科技創(chuàng)始人王興興、銀河通用創(chuàng)始人兼CTO(同時也是北京大學助理教授、智源具身智能研究中心主任)王鶴、穹徹智能聯(lián)合創(chuàng)始人兼上海交通大學教授盧策吾、北京人形機器人創(chuàng)新中心總經(jīng)理熊友軍以及智源研究院院長王仲遠,通過線上連線的方式,共同探討具身智能的現(xiàn)狀與未來走向。
技術路線與底層邏輯
清華大學教授孫富春認為世界模型是全要素模型,空間智能是其視覺投影,強調觸覺糾偏重要性,要構建沉浸式數(shù)字物理系統(tǒng);清華大學研究員趙明國提出類腦算法可替代傳統(tǒng)控制器,人形機器人發(fā)展需向視覺決策等升級,人類進化底層運動智能有啟示意義。
數(shù)據(jù)瓶頸突破
銀河通用王鶴主張采用合成數(shù)據(jù)為主的具身大模型訓練范式,其機器人Galbot已在多場景落地;上海人工智能實驗室龐江淼認為合成數(shù)據(jù)有助于泛化,但實現(xiàn)全合成數(shù)據(jù)零樣本泛化需時間;北京大學盧宗青提出利用互聯(lián)網(wǎng)視頻預訓練姿態(tài)生成模型解決數(shù)據(jù)稀缺問題;清華大學高陽指出機器人數(shù)據(jù)采集成本高、難描述,可利用互聯(lián)網(wǎng)視頻數(shù)據(jù)結合強化學習解決仿真與現(xiàn)實差距;北京人形機器人創(chuàng)新中心唐劍認為虛實結合是正確方式,世界模型能模擬規(guī)律、生成數(shù)據(jù)、預測變化。
通用泛化能力構建
智源具身多模態(tài)大模型中心仉尚航認為構建具身快慢系統(tǒng)是從“單一任務/本體”邁向“通用泛化”的關鍵,介紹了兩條技術路線及相關最新工作;北京郵電大學方斌指出視觸覺感知是邁向“精準操作”的核心,需通過多種方式解決操作穩(wěn)定性與泛化性難題。
智源研究院理事長黃鐵軍在閉幕致辭中表示,智源持續(xù)布局類腦等方向的研究,意在構造精細完整的物理智能體,從原子到器官打造媲美人類的物理智能體。他帶領團隊開發(fā)的脈沖視覺芯片,功能類似人眼,速度比人眼快千倍,就是為具身智能準備的“超級電眼”。2024年底登上Nature子刊封面的智源線蟲,實現(xiàn)秀麗線蟲神經(jīng)系統(tǒng)、身體與環(huán)境的閉環(huán)仿真,能夠自主覓食,逼真詮釋了具身理念。5-10年,具身智能有望代替人類從事不愿干、危險的勞動,但這并非具身智能的終極目標。人類從地球演化出來,只適合在地球生存,生理上不適合移民到其他星球。2045 年具身智能有望全面超越人類,代表人類走向星際,“我們的目標是星辰大海!我們的使命偉大而光榮!”
安全警鐘
圖靈獎得主呼吁全球協(xié)同治理
在AI技術高歌猛進之際,安全警鐘長鳴。圖靈獎得主約書亞·本吉奧在大會尖峰對話環(huán)節(jié)發(fā)出警示:當前AI在規(guī)劃、推理等領域進步飛速,部分前沿模型已顯現(xiàn)自我保護、欺騙性對齊等類生物主體行為。
本吉奧警告,若形成 “智能+自主目標+行動能力”組合將引發(fā)失控風險,甚至可能威脅人類生存。
“要在AGI可能于5年內(nèi)達到人類水平的緊迫時間窗口內(nèi),通過技術創(chuàng)新與全球協(xié)作筑牢安全防線?!彼粲跬苿尤騾f(xié)同治理,建立國際監(jiān)管框架與技術驗證機制。
另一位圖靈獎得主理查德·薩頓則提出不同思路:以去中心化合作替代中心化控制,通過信任、協(xié)調和市場機制引導AI與人類共生。
智源研究院持續(xù)推進AI安全底層關鍵技術研究,2024年3月發(fā)起并承辦我國首個AI安全國際對話高端閉門論壇,與全球AI領袖聯(lián)合簽署《北京AI安全國際共識》。
結語:
王仲遠指出,大模型技術演進遠未抵達終點,而當前大語言模型的性能提升正面臨顯著瓶頸,主要源于互聯(lián)網(wǎng)高質量訓練數(shù)據(jù)的枯竭與同質化競爭。
“悟界”系列的推出標志著中國AI研究從“數(shù)字AGI”邁向 “物理AGI” 的關鍵轉折。當Emu3能理解咖啡杯放桌沿會摔碎,當RoboBrain 2.0能精準規(guī)劃機器人行動路徑,當Brainμ解碼人腦信號——物理世界的運行規(guī)則正被AI重新書寫。