6月7日,為期 2 天的第七屆北京智源大會(huì)圓滿落下帷幕。本次大會(huì)邀請到了4位圖靈獎(jiǎng)得主、30余位AI企業(yè)創(chuàng)始人&CEO、100余位全球青年科學(xué)家、200余位人工智能頂尖學(xué)者和產(chǎn)業(yè)專家,設(shè)置20個(gè)論壇共計(jì)180余場報(bào)告,覆蓋多模態(tài)、深度推理、下一代AI路徑、Agent智能體、具身智能、AI4S、AI產(chǎn)業(yè)、AI安全、AI開源等關(guān)鍵議題,除了專題論壇外還設(shè)置了Tech Tutorial特色活動(dòng),并首次和聯(lián)合Pytorch舉辦Pytorch Day China。此外,大會(huì)現(xiàn)場搭建了智源AI科研成果互動(dòng)體驗(yàn)展臺,集中呈現(xiàn)了具身智能、腦科學(xué)、數(shù)字心臟等前沿科研成果的應(yīng)用場景,吸引大量參會(huì)者駐足體驗(yàn)、深度互動(dòng),現(xiàn)場氣氛熱烈。
過去一年,具身智能領(lǐng)域迎來爆發(fā)式增長,成為人工智能與機(jī)器人技術(shù)融合的核心賽道。
本屆智源大會(huì)的“具身智能”濃度拉滿,開幕式的具身會(huì)客廳環(huán)節(jié),不僅有宇樹、天工、銀河通用三大明星機(jī)器人現(xiàn)場炫技,還有Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman與宇樹科技創(chuàng)始人王興興,銀河通用創(chuàng)始人兼CTO、北京大學(xué)助理教授、智源具身智能研究中心主任王鶴,穹徹智能聯(lián)合創(chuàng)始人、上海交通大學(xué)教授盧策吾,北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍、智源研究院院長王仲遠(yuǎn)隔空共話具身智能的現(xiàn)狀與未來。
此外,今年首次將具身智能升級為全天的分論壇,并加入人形機(jī)器人的主題,可見智能與機(jī)器人本體互相促進(jìn)的技術(shù)演進(jìn)趨勢。
具身智能與人形機(jī)器人分論壇邀請到了來自清華大學(xué)、北京大學(xué)、北京郵電大學(xué)、上海人工智能實(shí)驗(yàn)室知名高校和研究機(jī)構(gòu)的學(xué)者專家以及眾擎機(jī)器人、千尋智能、北京人形機(jī)器人創(chuàng)新中心等具身公司的創(chuàng)始人與CTO分享前沿研究與產(chǎn)業(yè)實(shí)踐。
在具身智能的技術(shù)路線與底層邏輯層面,清華大學(xué)教授,IEEE/CAAI/CAA Fellow、 國家杰出青年基金獲得者孫富春指出,世界模型是全要素模型,空間智能是其向視覺空間的投影,強(qiáng)調(diào)觸覺糾偏高于視覺糾偏,需構(gòu)建包含物理屬性等的沉浸式數(shù)字物理系統(tǒng)。
而清華大學(xué)研究員、機(jī)器人控制實(shí)驗(yàn)室主任趙明國提出類腦算法可替代傳統(tǒng)控制器,人形機(jī)器人發(fā)展需從運(yùn)動(dòng)控制向視覺決策等升級,人類進(jìn)化的底層運(yùn)動(dòng)智能具有啟示意義。
在具身智能的數(shù)據(jù)瓶頸突破路徑上,銀河通用創(chuàng)始人及CTO、北京大學(xué)助理教授、智源具身智能研究中心主任王鶴主張采用合成數(shù)據(jù)為主的具身大模型訓(xùn)練范式,通過數(shù)十億級高質(zhì)量仿真數(shù)據(jù)預(yù)訓(xùn)練的具身端到端大模型,在采集少量真機(jī)數(shù)據(jù)快速對齊后,可快速掌握新需求,并可將技能直接泛化到相同任務(wù)但從未見過的物品上,目前銀河通用具身大模型機(jī)器人Galbot已在零售、工業(yè)等場景逐步規(guī)?;涞亍?/p>
上海人工智能實(shí)驗(yàn)室青年科學(xué)家、具身智能中心負(fù)責(zé)人龐江淼也認(rèn)為,合成數(shù)據(jù)有助于本體和場景泛化,但持續(xù)壓低真實(shí)數(shù)據(jù)采集數(shù)量,提升合成數(shù)據(jù)的質(zhì)量,直到全合成數(shù)據(jù)能夠達(dá)成零樣本泛化,需要一定時(shí)間。
北京大學(xué)副教授、BeingBeyond創(chuàng)始人盧宗青提出利用互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練姿態(tài)生成模型,學(xué)習(xí)人類運(yùn)動(dòng)先驗(yàn),解決人形機(jī)器人數(shù)據(jù)稀缺問題。
清華大學(xué)交叉信息研究院助理教授、千尋智能聯(lián)合創(chuàng)始人高陽指出,機(jī)器人數(shù)據(jù)采集成本高(需遙操作 + 物理交互),且難以用語言描述(如游泳),形成“無智能-少機(jī)器人-少數(shù)據(jù)”的惡性循環(huán),可利用互聯(lián)網(wǎng)視頻數(shù)據(jù),通過跟蹤視頻中物體運(yùn)動(dòng)預(yù)訓(xùn)練模型,再遷移到機(jī)器人遙操作數(shù)據(jù)微調(diào),結(jié)合強(qiáng)化學(xué)習(xí),解決仿真與現(xiàn)實(shí)差距。
北京人形機(jī)器人創(chuàng)新中心有限公司CTO、IEEE Fellow、ACM杰出科學(xué)家、中國電子學(xué)會(huì)會(huì)士唐劍認(rèn)為,虛實(shí)結(jié)合是具身智能的正確打開方式,世界模型能夠模擬物理規(guī)律,生成虛擬數(shù)據(jù),預(yù)測環(huán)境變化,形成閉環(huán)反饋。
在具身智能的通用泛化能力構(gòu)建方面,智源具身多模態(tài)大模型中心負(fù)責(zé)人,北京大學(xué)計(jì)算機(jī)學(xué)院助理教授仉尚航認(rèn)為,構(gòu)建具身快慢系統(tǒng)是具身智能從 “單一任務(wù) / 本體” 邁向 “通用泛化”的關(guān)鍵路徑,分別以“大腦(推理)+ 小腦(控制)”的分層快慢系統(tǒng)和VLA端到端快慢系統(tǒng)兩條技術(shù)路線,解決跨本體(如機(jī)械臂、人形機(jī)器人)與場景的泛化性問題。她詳細(xì)介紹了RoboBrain 2.0, RoboOS 2.0, HybridVLA, Fast-in-Slow等最新工作。
北京郵電大學(xué)教授方斌指出,視觸覺感知是具身智能從“感知”邁向“精準(zhǔn)操作”的核心環(huán)節(jié),需通過傳感器創(chuàng)新、仿真數(shù)據(jù)增強(qiáng)與多模態(tài)融合,解決動(dòng)態(tài)環(huán)境下的操作穩(wěn)定性與泛化性難題。
在具身智能的商業(yè)化落地進(jìn)程中,眾擎機(jī)器人 創(chuàng)始人、董事長趙同陽指出,當(dāng)前人形機(jī)器人的基礎(chǔ)能力還不足,還無法穩(wěn)定從 A 點(diǎn)走到 B 點(diǎn)、上下電梯,需要先解決全地形適應(yīng)、穩(wěn)定行走,再進(jìn)一步發(fā)展抓取、服務(wù)等上層應(yīng)用,從而突破行業(yè)瓶頸。
在圓桌討論環(huán)節(jié),與會(huì)嘉賓們指出當(dāng)前具身智能與人形機(jī)器人的發(fā)展存在數(shù)據(jù)質(zhì)量與數(shù)量不足、學(xué)術(shù)研究與產(chǎn)業(yè)落地錯(cuò)位、人形機(jī)器人移動(dòng)操作難度大等問題;解決方案上,需融合互聯(lián)網(wǎng)視頻、遙操作、仿真等多源數(shù)據(jù),推動(dòng)硬件接口標(biāo)準(zhǔn)化,以系統(tǒng)化視角構(gòu)建“大腦+小腦”分層框架,同時(shí)平衡技術(shù)創(chuàng)新與工程化驗(yàn)證,從而推動(dòng)具身智能從實(shí)驗(yàn)室走向場景落地。
智源研究院理事長黃鐵軍在閉幕致辭中表示,智源持續(xù)布局類腦等方向的研究,意在構(gòu)造精細(xì)完整的物理智能體,從原子到器官打造媲美人類的物理智能體。他帶領(lǐng)團(tuán)隊(duì)開發(fā)的脈沖視覺芯片,功能類似人眼,速度比人眼快千倍,就是為具身智能準(zhǔn)備的“超級電眼”。2024年底登上Nature子刊封面的智源線蟲,實(shí)現(xiàn)秀麗線蟲神經(jīng)系統(tǒng)、身體與環(huán)境的閉環(huán)仿真,能夠自主覓食,逼真詮釋了具身理念。5-10年,具身智能有望代替人類從事不愿干、危險(xiǎn)的勞動(dòng),但這并非具身智能的終極目標(biāo)。人類從地球演化出來,只適合在地球生存,生理上不適合移民到其他星球。2045 年具身智能有望全面超越人類,代表人類走向星際,“我們的目標(biāo)是星辰大海!我們的使命偉大而光榮!”