Gemini Robotics On-Device模型的任務(wù)適應(yīng)性能

區(qū)別于傳統(tǒng)強(qiáng)化學(xué)習(xí)需數(shù)萬(wàn)次試錯(cuò),該模型引入演示驅(qū)動(dòng)的少樣本微調(diào)機(jī)制。開(kāi)發(fā)者通過(guò)50-100次遙操作演示(如人工控制機(jī)械臂完成新任務(wù)),錄制動(dòng)作軌跡與視覺(jué)-語(yǔ)言配對(duì)數(shù)據(jù),輸入模型進(jìn)行參數(shù)軟更新(Soft Prompt Tuning)。其底層依賴Gemini的多模態(tài)對(duì)齊能力:將演示視頻幀編碼為視覺(jué)token,動(dòng)作序列解碼為運(yùn)動(dòng)token,再通過(guò)跨模態(tài)注意力機(jī)制建立語(yǔ)義映射。例如在“系鞋帶”任務(wù)中,模型能從少量演示中抽象出“交叉-穿引-拉緊”的動(dòng)作范式,泛化至不同鞋型。這種能力源于預(yù)訓(xùn)練階段對(duì)海量物理交互模擬數(shù)據(jù)(如MuJoCo仿真環(huán)境)的學(xué)習(xí),使模型具備對(duì)物體動(dòng)力學(xué)與操作邏輯的隱式理解。

開(kāi)發(fā)賦能

安全框架下的開(kāi)放生態(tài)

為加速技術(shù)落地,谷歌同步推出Gemini Robotics SDK開(kāi)發(fā)套件。開(kāi)發(fā)者可通過(guò)該工具包在MuJoCo物理模擬器中測(cè)試模型,并在現(xiàn)實(shí)環(huán)境中部署驗(yàn)證。

這個(gè)SDK不僅能讓開(kāi)發(fā)者輕松評(píng)估模型在自己任務(wù)和環(huán)境中的表現(xiàn),還提供了MuJoCo物理模擬器的測(cè)試功能。開(kāi)發(fā)者可以先在模擬環(huán)境中驗(yàn)證想法,再部署到真實(shí)機(jī)器人上,大大降低了開(kāi)發(fā)成本和風(fēng)險(xiǎn)。

目前技術(shù)通過(guò) “可信測(cè)試者”計(jì)劃 逐步開(kāi)放,延續(xù)了谷歌在機(jī)器人領(lǐng)域?qū)徤髀涞氐牟呗浴?/p>

結(jié)語(yǔ):

這一模型的出現(xiàn)也將極大地推動(dòng)機(jī)器人技術(shù)的創(chuàng)新和發(fā)展。開(kāi)發(fā)者可以基于它,開(kāi)發(fā)出更多功能豐富、性能卓越的機(jī)器人應(yīng)用,進(jìn)一步拓展機(jī)器人在各個(gè)行業(yè)的應(yīng)用邊界。從長(zhǎng)遠(yuǎn)來(lái)看,Gemini Robotics On-Device模型有望成為機(jī)器人技術(shù)發(fā)展史上的一個(gè)重要里程碑,引領(lǐng)機(jī)器人產(chǎn)業(yè)邁向一個(gè)更加智能、自主和高效的新時(shí)代。

分享到

lixiangjing

算力豹主編

相關(guān)推薦