研究人員提到,OpenSpiel的目標(biāo)是要促進(jìn)在多種游戲類型中,發(fā)展多代理增強(qiáng)學(xué)習(xí),跟一般的游戲訓(xùn)練環(huán)境相似,但更強(qiáng)調(diào)學(xué)習(xí)的部分而非競(jìng)爭(zhēng)的形式。研究人員希望OpenSpiel可以在通用增強(qiáng)學(xué)習(xí)上,達(dá)到Atari學(xué)習(xí)環(huán)境在單一代理人增強(qiáng)學(xué)習(xí)的地位,對(duì)通用增強(qiáng)學(xué)習(xí)的發(fā)展產(chǎn)生重大的影響。
OpenSpiel提供了一個(gè)可讓研究人員在各種基準(zhǔn)游戲中,評(píng)估游戲以及演算法的框架,OpenSpiel內(nèi)建了各式包括世界網(wǎng)格游戲、拍賣游戲,以及矩陣游戲等20多種不同類型的游戲,這些游戲涵蓋單一或多個(gè)代理人的零和、合作、一般和對(duì)局(General-Sum)游戲,還有一次性以及連續(xù)性游戲研究。這些游戲以C++撰寫,并以Python打包。
OpenSpiel的算法是以C++或是Python實(shí)作,官方提到,這2種語言的API幾乎相同,因此當(dāng)開發(fā)者需要,能夠簡(jiǎn)單地在這兩種語言間切換使用,而絕大部分學(xué)習(xí)演算法都是以Python使用Tensorflow撰寫,官方目前正發(fā)展PyTorch和JAX的支援。另外,OpenSpiel函式庫的一個(gè)子集被移植到了Swift上,因此開發(fā)者也能在MacOS裝置上進(jìn)行研究。
DeepMind只在Linux上測(cè)試OpenSpiel,但研究人員提到,雖然他們沒有在MacOS和Windows上進(jìn)行測(cè)試,但是在編譯以及執(zhí)行上,預(yù)計(jì)不會(huì)有太大的問題發(fā)生。OpenSpiel主要設(shè)計(jì)理念為簡(jiǎn)單以及最小化,使用了參照實(shí)作而非完全最佳化以及高效能的程式碼,而且盡可能維持最小相依性,降低相容性問題發(fā)生的可能性。
最近也有不少組織機(jī)構(gòu)推出了增強(qiáng)學(xué)習(xí)的研究工具,像是谷歌大腦就開源了足球增強(qiáng)學(xué)習(xí)環(huán)境專案Google Research Football,臉書也發(fā)布了增強(qiáng)學(xué)習(xí)平臺(tái)Horizon,英特爾也在RL Coach中推出一系列增強(qiáng)學(xué)習(xí)的工具。