Deep Mind 的研究小組通過 RGB 堆疊技術(shù)(RGB-Stacking)對(duì)機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,評(píng)估多個(gè)研究對(duì)象的行為和動(dòng)作來提高機(jī)器人能力。該項(xiàng)技術(shù)利用放置在籃子內(nèi)紅色、藍(lán)色、綠色三種顏色的不同物體,對(duì)機(jī)器人手臂進(jìn)行訓(xùn)練,因此被稱作 RGB 堆疊。
一、推出機(jī)器人堆疊新基準(zhǔn),開源成果
對(duì)大多數(shù)人來說,將一個(gè)物體堆疊在另一個(gè)物體上是一項(xiàng)簡(jiǎn)單的任務(wù),但即使是最精密的機(jī)器人也很難一次處理多項(xiàng)堆疊任務(wù)。堆疊動(dòng)作需要一系列不同的運(yùn)動(dòng)、感知和分析技能,包括與不同類型物體交互的能力,將這個(gè)簡(jiǎn)單的人工任務(wù)提升為機(jī)器人技術(shù),是一個(gè)面臨巨大挑戰(zhàn)并極其復(fù)雜的任務(wù)。
DeepMind 關(guān)于機(jī)器人學(xué)習(xí)的研究小組認(rèn)為,推進(jìn)機(jī)器人堆疊的最新技術(shù)將需要一個(gè)新的基準(zhǔn)。機(jī)器人學(xué)習(xí)會(huì)議 (the Conference on Robot Learning ,CoRL 2021)中發(fā)表的一篇論文中介紹了 RGB 堆疊,該項(xiàng)技術(shù)的任務(wù)是讓機(jī)器人學(xué)習(xí)如何抓住不同的物體并在彼此之間保持平衡。
雖然其他論文中已經(jīng)存在堆疊任務(wù)的相關(guān)基準(zhǔn),但研究人員認(rèn)為其研究的獨(dú)創(chuàng)性在于,研究對(duì)象選擇的多樣性以及驗(yàn)證其研究發(fā)現(xiàn)而進(jìn)行的評(píng)估。該論文的研究結(jié)果表明,模擬數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)的組合可用于學(xué)習(xí)“多對(duì)象操作”,這為機(jī)器人學(xué)習(xí)解決泛化新對(duì)象的問題提供了強(qiáng)大的基礎(chǔ)。
為了支持其他研究人員,該研究小組開源了一版模擬環(huán)境,并發(fā)布了他們用于構(gòu)建真實(shí)機(jī)器人 RGB 堆疊環(huán)境的設(shè)計(jì),以及用于 3D 打印的 RGB 對(duì)象模型信息,并且在未來將更廣泛地開放其機(jī)器人研究過程中使用的一系列圖書館資源和工具。
二、兩大測(cè)試三大階段,挖掘機(jī)器人學(xué)習(xí)潛能
RGB 堆疊的目標(biāo)是通過強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)械臂堆疊不同形狀的物體。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),它使機(jī)器人能夠利用自己動(dòng)作和經(jīng)驗(yàn)的反饋,并通過反復(fù)試驗(yàn)來學(xué)習(xí)。
RGB 堆疊將一個(gè)抓手連接到籃子上方的機(jī)器人手臂上,籃子里放著紅、綠、藍(lán)不同顏色的三個(gè)物體。機(jī)器人必須在 20 秒內(nèi)將紅色物體堆疊在藍(lán)色物體上方,而綠色物體則作為障礙物來分散其注意力。
DeepMind 的研究人員表示,這個(gè)學(xué)習(xí)過程可以確保機(jī)器人通過對(duì)多個(gè)對(duì)象集的訓(xùn)練獲得通用技能。RGB 堆疊有意改變機(jī)器人抓取和堆疊的特性,這些特性定義了機(jī)器人如何抓取和堆疊每個(gè)對(duì)象,從而使機(jī)器人不斷超越更簡(jiǎn)單的拾取和放置行為策略。
DeepMind 研究小組的 RGB 堆疊基準(zhǔn)測(cè)試包括兩個(gè)不同難度的測(cè)試。在“技能掌握”測(cè)試中,其目標(biāo)是訓(xùn)練一個(gè)能夠熟練堆疊一組預(yù)定義的五個(gè)三元組的智能體;在“技能泛化”測(cè)試中,研究人員使用相同的三元組進(jìn)行評(píng)估,但在超過一百萬個(gè)可能的三元組對(duì)象上訓(xùn)練代理研究對(duì)象,為了測(cè)試泛化,這些訓(xùn)練對(duì)象中排除了被選擇在“技能掌握”中測(cè)試的三元組的對(duì)象組。其次,在這兩級(jí)測(cè)試中,又將機(jī)器學(xué)習(xí)管道分解為三個(gè)階段。
研究人員聲稱,使用 RGB 堆疊方法訓(xùn)練的機(jī)器人產(chǎn)生了“令人驚訝”的堆疊策略,并且出現(xiàn)對(duì)堆疊對(duì)象子集的“精通”現(xiàn)象。盡管如此,研究人員認(rèn)為這只觸及了機(jī)器人學(xué)習(xí)的表面內(nèi)容,而針對(duì)泛化面臨的挑戰(zhàn)仍未得到解決。
三、發(fā)布新基準(zhǔn),助推制造業(yè)再次繁榮
“隨著研究人員不斷努力解決機(jī)器人技術(shù)推廣落地的挑戰(zhàn),我們希望這個(gè)新的基準(zhǔn),連同我們發(fā)布的環(huán)境、設(shè)計(jì)和工具,有助于產(chǎn)生新的想法和方法,使操作更容易,機(jī)器人更有能力?!毖芯咳藛T補(bǔ)充道。
隨著機(jī)器人越來越擅長(zhǎng)堆疊和抓取物體,一些專家認(rèn)為,這種自動(dòng)化技術(shù)可能會(huì)推動(dòng)美國(guó)的制造業(yè)的新繁榮。在谷歌云和哈里斯民意調(diào)查最近的一項(xiàng)研究中,三分之二的制造商表示,日常運(yùn)營(yíng)中人工智能技術(shù)的使用頻率正在增加,74% 的制造商認(rèn)為他們能夠應(yīng)對(duì)目前瞬息萬變的工作環(huán)境。
其次,制造業(yè)公司預(yù)計(jì)在未來五年的生產(chǎn)效率將會(huì)隨著數(shù)字化轉(zhuǎn)型的發(fā)展而逐漸提高。麥肯錫與世界經(jīng)濟(jì)論壇(McKinsey’s research with the World Economic Forum)的研究表明,到 2025 年,實(shí)施傳統(tǒng)工業(yè)實(shí)踐自動(dòng)化“工業(yè) 4.0”的制造商,其生產(chǎn)價(jià)值的創(chuàng)造潛力將達(dá)到 3.7 萬億美元。
結(jié)語:DeepMind 新基準(zhǔn)推動(dòng)機(jī)器人行業(yè)進(jìn)程
在機(jī)器人學(xué)習(xí)技術(shù)的研究過程中,獲取數(shù)據(jù)較為困難,使得其發(fā)展面臨困境。作為通用人工智能領(lǐng)域的領(lǐng)軍企業(yè),DeepMind 為解決機(jī)器人學(xué)習(xí)泛化問題提出新基準(zhǔn),并且主動(dòng)開放研究過程的相關(guān)資源,共享研究成果,有望推動(dòng)整個(gè)行業(yè)取得新進(jìn)展。
但顯而易見的是,機(jī)器人學(xué)習(xí)泛化問題仍需要長(zhǎng)時(shí)間的探索,也是人工智能企業(yè)在未來發(fā)展面臨的重大挑戰(zhàn)。