GO-1開創(chuàng)性地提出Vision-Language-Latent-Action(ViLLA)架構(gòu),通過預(yù)測(cè)隱式動(dòng)作標(biāo)記(Latent Action Tokens),彌合了圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝。其架構(gòu)由多模態(tài)大模型(VLM)和混合專家系統(tǒng)(MoE)組成:VLM采用InternVL-2B,接收多視角視覺、力覺信號(hào)和語(yǔ)言輸入,實(shí)現(xiàn)通用場(chǎng)景感知;MoE中的Latent Planner預(yù)測(cè)隱式動(dòng)作規(guī)劃鏈,Action Expert則生成精細(xì)動(dòng)作序列。
文字編輯| 宋雨涵
1
首個(gè)通用具身基座模型GO-1
核心能力與技術(shù)突破
智元推出了Vision-Language-Latent-Action(ViLLA)架構(gòu),這一架構(gòu)融合了VLM(多模態(tài)大模型)與MoE(混合專家系統(tǒng))。智元的啟元大模型GO-1,通過吸納人類及多種機(jī)器人的數(shù)據(jù),賦予了機(jī)器人強(qiáng)大的學(xué)習(xí)能力,使其能夠靈活應(yīng)用于各種環(huán)境和物品中,迅速適應(yīng)新任務(wù)、掌握新技能。此外,GO-1還支持部署至各類機(jī)器人平臺(tái),并在實(shí)際應(yīng)用中不斷進(jìn)化升級(jí)。
在智元的機(jī)器人服務(wù)場(chǎng)景中,舉一個(gè)具體例子:當(dāng)用戶向機(jī)器人發(fā)出“掛衣服”的指令時(shí),GO-1模型能夠根據(jù)當(dāng)前視覺畫面,準(zhǔn)確理解指令所對(duì)應(yīng)的任務(wù)需求。隨后,模型會(huì)依據(jù)其訓(xùn)練過程中積累的掛衣服流程知識(shí),規(guī)劃出完成該任務(wù)所需的一系列操作步驟,并順序執(zhí)行這些步驟,最終圓滿完成任務(wù)。
從技術(shù)層面深入剖析,GO-1大模型具備了廣泛的場(chǎng)景感知與理解能力。在模型構(gòu)建與訓(xùn)練階段,它學(xué)習(xí)了互聯(lián)網(wǎng)上海量的純文本及圖文數(shù)據(jù),從而能夠準(zhǔn)確理解“掛衣服”在具體情境下的含義與要求;通過觀摩人類操作視頻及其他機(jī)器人的操作視頻,它掌握了掛衣服任務(wù)的常規(guī)環(huán)節(jié);通過模擬不同衣物、衣柜、房間環(huán)境下的掛衣服操作,它深刻理解了任務(wù)環(huán)節(jié)中涉及的物體與環(huán)境,并打通了任務(wù)執(zhí)行的全流程;最后,得益于真機(jī)示教數(shù)據(jù)的學(xué)習(xí),機(jī)器人能夠熟練地完成掛衣服任務(wù)的所有操作。
GO-1具備四大革命性能力
具體來(lái)說,該款大模型的特點(diǎn)可以歸納為4個(gè)方面。
人類視頻學(xué)習(xí)
GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解。
小樣本快速泛化
該大模型具有泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù),降低了具身模型的使用門檻,使得后訓(xùn)練成本非常低。
一腦多形
該大模型是通用機(jī)器人策略模型,能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體。
持續(xù)進(jìn)化
該大模型搭配一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行中遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)。
2
基于全新ViLLA架構(gòu)
構(gòu)建核心圍繞對(duì)數(shù)據(jù)的充分利用展開
數(shù)據(jù)驅(qū)動(dòng):構(gòu)建具身智能金字塔
GO-1大模型的構(gòu)建核心圍繞對(duì)數(shù)據(jù)的充分利用展開?;诰呱眍I(lǐng)域的數(shù)字金字塔,GO-1吸納了人類世界多種維度和類型的數(shù)據(jù):
有了這些數(shù)據(jù),可以讓機(jī)器人在一開始就擁有通用的場(chǎng)景感知和語(yǔ)言能力,通用的動(dòng)作理解能力,以及精細(xì)的動(dòng)作執(zhí)行力。
當(dāng)然,過程中也少不了一個(gè)合適的數(shù)據(jù)處理架構(gòu)。
由于現(xiàn)有的VLA(Vision-Language-Action)架構(gòu)沒有利用到數(shù)字金字塔中大規(guī)模人類/跨本體操作視頻數(shù)據(jù),缺少了一個(gè)重要的數(shù)據(jù)來(lái)源,導(dǎo)致迭代的成本更高,進(jìn)化的速度更慢。
因此,智元團(tuán)隊(duì)創(chuàng)新性地提出了ViLLA(Vision-Language-Latent-Action)架構(gòu)。
智元團(tuán)隊(duì)創(chuàng)新性地提出了ViLLA架構(gòu)
ViLLA架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成,三者分工明確:
VLM(InternVL-2B)
接收多視角視覺、力覺信號(hào)和語(yǔ)言指令,通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)預(yù)訓(xùn)練,具備通用場(chǎng)景感知能力。例如,識(shí)別“水杯”時(shí)不僅能判斷形狀,還能結(jié)合上下文理解“倒水”意圖。
Latent Planner(隱式規(guī)劃器)
基于VLM中間層輸出,預(yù)測(cè)離散化的隱式動(dòng)作標(biāo)記(Latent Action Tokens),形成任務(wù)規(guī)劃鏈(CoP)。通過時(shí)空Transformer編碼歷史幀與當(dāng)前幀的差異,并利用VQ-VAE量化處理,將人類視頻中的動(dòng)作抽象為通用模板。例如,將“掛衣服”動(dòng)作分解為“舉起衣架-定位掛鉤”等隱式標(biāo)記。
Action Expert(動(dòng)作專家)
采用擴(kuò)散模型生成高頻精細(xì)動(dòng)作序列,在百萬(wàn)級(jí)真機(jī)數(shù)據(jù)(如AgiBot World數(shù)據(jù)集)上訓(xùn)練,實(shí)現(xiàn)毫米級(jí)動(dòng)作控制。例如,倒水時(shí)每秒生成220次動(dòng)作調(diào)整,動(dòng)態(tài)適應(yīng)液面高度變化。
3
未來(lái)展望
具身智能邁向通用化、開放化、智能化
– 從單一任務(wù)到多種任務(wù):機(jī)器人能夠在不同場(chǎng)景中執(zhí)行多種任務(wù),無(wú)需針對(duì)每個(gè)新任務(wù)重新訓(xùn)練
– 從封閉環(huán)境到開放世界:機(jī)器人不再局限于實(shí)驗(yàn)室,而是可以適應(yīng)多變的真實(shí)世界環(huán)境
– 從預(yù)設(shè)程序到指令泛化:機(jī)器人能夠理解自然語(yǔ)言指令,并根據(jù)語(yǔ)義進(jìn)行組合推理,不再局限于預(yù)設(shè)程序
寫在最后
GO-1通過ViLLA架構(gòu)與數(shù)據(jù)驅(qū)動(dòng)策略,解決了具身智能長(zhǎng)期面臨的泛化難、適應(yīng)性差、交互復(fù)雜等問題。隨著2025年量產(chǎn)計(jì)劃的推進(jìn)(預(yù)計(jì)數(shù)千臺(tái)機(jī)器人落地),其有望成為具身智能領(lǐng)域的“安卓級(jí)”基座模型,推動(dòng)機(jī)器人技術(shù)在商業(yè)、工業(yè)、家庭等多領(lǐng)域?qū)崿F(xiàn)規(guī)模化應(yīng)用。