人工智能研究公司OpenAI最新成果即是用單個(gè)機(jī)器手掌解魔方,其采用與操作?Dota 2?OpenAI Five相同的增強(qiáng)學(xué)習(xí)代碼,搭配一種稱(chēng)為自動(dòng)域隨機(jī)化(Automatic Domain Randomization,ADR)的新技術(shù),以完全模擬的方式訓(xùn)練機(jī)器手掌,現(xiàn)在機(jī)器手掌能有60%的成功率解開(kāi)魔方。

對(duì)人類(lèi)來(lái)說(shuō),單手解魔方也不是一件簡(jiǎn)單的事,孩子需要花費(fèi)數(shù)年的時(shí)間,才能掌握單手操作需要的靈巧性。在過(guò)去60年的機(jī)器人技術(shù),人類(lèi)需要為困難的任務(wù)設(shè)計(jì)定制化的機(jī)器人,因此開(kāi)發(fā)使用通用機(jī)器人硬件的方法,一直是近幾十年人類(lèi)的目標(biāo),而OpenAI在這項(xiàng)最新的研究中,使用15年前的機(jī)器手掌,搭配最新的方法,在通用機(jī)器人硬件操作課題上前進(jìn)了一步。

OpenAI利用了神經(jīng)網(wǎng)絡(luò)來(lái)解決魔方的問(wèn)題,透過(guò)增強(qiáng)學(xué)習(xí)進(jìn)行模擬,并且使用Kociemba演算法以挑選魔術(shù)方塊解法的步驟,并且利用域隨機(jī)化(Domain Randomization)將訓(xùn)練模擬轉(zhuǎn)移到真實(shí)的機(jī)器手掌上。

而讓機(jī)器手掌操作魔術(shù)方塊最大的挑戰(zhàn),是在創(chuàng)建的模擬環(huán)境中,模擬出真實(shí)世界特徵,研究人員表示,像是魔術(shù)方塊或是機(jī)器手掌這類(lèi)複雜的物體,非常難模擬其摩擦、彈性或是動(dòng)態(tài)性,僅是靠現(xiàn)有的域隨機(jī)化技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,因此為了克服這個(gè)問(wèn)題,他們開(kāi)發(fā)了自動(dòng)域隨機(jī)化技術(shù),這個(gè)技術(shù)可以在模擬訓(xùn)練中產(chǎn)生越來(lái)越困難的環(huán)境。

自動(dòng)域隨機(jī)化訓(xùn)練會(huì)從單一且非隨機(jī)的環(huán)境開(kāi)始,讓神經(jīng)網(wǎng)絡(luò)先學(xué)會(huì)解決魔術(shù)方塊,隨著神經(jīng)網(wǎng)絡(luò)的表現(xiàn)越來(lái)越好,在達(dá)到一定的效能閾值時(shí),域隨機(jī)化的數(shù)量便會(huì)自動(dòng)增加,讓神經(jīng)網(wǎng)絡(luò)應(yīng)付更隨機(jī)的環(huán)境,使得需要解決的任務(wù)更加困難,當(dāng)神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí)后,再次超過(guò)效能閾值時(shí),便會(huì)再加入更多的隨機(jī)化,然后重複該過(guò)程。

自動(dòng)域隨機(jī)化的參數(shù)有很多種,一開(kāi)始從固定魔術(shù)方塊的大小開(kāi)始,之后隨著訓(xùn)練逐漸增加隨機(jī)范圍,變動(dòng)魔術(shù)方塊的尺寸和重量,也會(huì)隨機(jī)化機(jī)器手指的摩擦力和手的視覺(jué)表面材質(zhì),神經(jīng)網(wǎng)絡(luò)需要在越來(lái)越困難的情況下,解決魔術(shù)方塊。

研究人員提到,過(guò)去域隨機(jī)化需要手動(dòng)指定隨機(jī)范圍,但這并不容易,太多隨機(jī)化使得學(xué)習(xí)太困難,太少又會(huì)阻礙模擬轉(zhuǎn)移到真正機(jī)器人上的效果,而自動(dòng)域隨機(jī)化能夠自動(dòng)擴(kuò)展隨機(jī)范圍,不需要人工干預(yù),也不需要研究人員對(duì)域知識(shí)的理解,降低了該方法使用到不同領(lǐng)域的難度,而且由于自動(dòng)域隨機(jī)化讓訓(xùn)練任務(wù)始終具有挑戰(zhàn)性,訓(xùn)練成效不會(huì)收斂。

自動(dòng)域隨機(jī)化讓神經(jīng)網(wǎng)絡(luò)在無(wú)數(shù)種隨機(jī)情況中進(jìn)行模擬,進(jìn)而增加了強(qiáng)健性,當(dāng)神經(jīng)網(wǎng)絡(luò)從模擬轉(zhuǎn)移到真實(shí)機(jī)器人上的時(shí)候,就能夠快速辨識(shí)并適應(yīng)真實(shí)世界的環(huán)境條件。研究人員利用了各種擾動(dòng),以測(cè)試機(jī)器手掌解決魔術(shù)方塊的強(qiáng)健性,包括把機(jī)器手掌的兩只手指綁起來(lái)、戴上橡膠手套、阻礙視覺(jué)或是以長(zhǎng)頸鹿玩偶隨意干擾等。

在施予擾動(dòng)的初期,機(jī)器手掌解決魔術(shù)方塊的時(shí)間都會(huì)上升,研究人員解釋?zhuān)@是因?yàn)橹皩W(xué)習(xí)的策略無(wú)法發(fā)揮作用,當(dāng)經(jīng)神經(jīng)網(wǎng)絡(luò)過(guò)一段時(shí)間學(xué)習(xí)之后,完成的時(shí)間便會(huì)下降到之前的水準(zhǔn)。

目前OpenAI的成果,在需要15次翻轉(zhuǎn)才能完成魔術(shù)方塊的條件,機(jī)器手掌有60%的成功率解決魔術(shù)方塊,但是在需要26次翻轉(zhuǎn)的復(fù)雜條件,現(xiàn)在機(jī)器手掌就只有20%的成功率。研究人員提到,他們的神經(jīng)網(wǎng)絡(luò)在前幾次的翻轉(zhuǎn),魔術(shù)方塊掉落的機(jī)率特別大,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)需要透過(guò)初期的翻轉(zhuǎn)適應(yīng)物理世界。

分享到

崔歡歡

相關(guān)推薦