2018年12月,“王者絕悟”對陣玩家高手隊的5v5測試。這一版本通過監(jiān)督學習方法,模擬學習了職業(yè)選手的操作,達到頂尖業(yè)余水平。
2019年,隨著在深度強化學習、多智能體決策課題上研究不斷深入,“王者絕悟”不再需要模仿人類數(shù)據(jù),而是通過自己和自己對戰(zhàn),進一步提升微操水平和大局觀,達到了王者榮耀職業(yè)電競水平。
2020年,“王者絕悟”通過課程學習方式,學會了更多英雄玩法;5月,它用40個英雄池首次接受玩家們的挑戰(zhàn)。
在本次亮相的完全體版本中,王者絕悟進一步引入了多輪組合博弈和層次化的強化學習算法。也就是在競技比賽的局前和局內(nèi),都做了針對性優(yōu)化,提升它的整體能力和戰(zhàn)術對抗水平。
在局前BP環(huán)節(jié)(Ban and Pick,禁止對方使用的英雄和選擇本方使用的英雄),王者絕悟既會考慮當前對局雙方陣容的勝率,也會更長遠地為后續(xù)對局“留招”,最大化多輪比賽的勝率。
在局內(nèi),通過自我博弈學習同時提升宏觀戰(zhàn)術策略和具體微操水平。在保持高強度微操能力的情況下,對不同的敵方戰(zhàn)術策略,如五人抱團、四一分推、野區(qū)入侵等戰(zhàn)術,做出更加合理的應對。
“王者絕悟”的演進,代表著騰訊在復雜策略與多智能體博弈課題研究上的先進技術水平;同時,也推動著行業(yè)在攻克“通用人工智能難題”上,又向前邁進了一步。
面向未來:AI贏了比賽,人類贏得未來
21世紀初,以 Deepmind、OpenAI 等為代表的一系列人工智能公司將由大數(shù)據(jù)和深度學習方法引領的又一輪人工智能浪潮推向巔峰。游戲也給計算機技術的前沿研究提供了大量的實驗場景和驅動力,出現(xiàn)了一個良性循環(huán)的狀態(tài)。
事實上,AI的目的并不是要在游戲里戰(zhàn)勝人類,而是通過越來越復雜的游戲訓練,最終解決現(xiàn)實生活中的問題。
自2018年初次亮相電競賽場以來,絕悟AI在對局中飛速成長,王者榮耀游戲機制高復雜度、高挑戰(zhàn)性、強協(xié)作性等特征,滿足了對高水平AI的研究需要,并且得到了國際認可,絕悟AI相關論文已先后被AAAI、NeurIPS等AI頂級會議收錄。
騰訊 AI Lab還同步推進了多類“AI+游戲”研究。棋牌類AI“絕藝”,四奪圍棋AI世界冠軍、擔任中國國家圍棋隊專用AI,并進一步探索棋力極限,讓職業(yè)棋手2子取得200連勝。絕藝從圍棋的完全信息博弈到不完全信息博弈的棋牌類研究亦取得階段性進展,獲 IJCAI 2020麻將AI比賽冠軍。
策略協(xié)作型AI絕悟也正從王者峽谷走向更多類型游戲。在足球游戲中,絕悟Wekick版本獲谷歌Kaggle 11v11足球AI競賽世界冠軍。在RTS游戲中,在星際爭霸2里打敗“開掛”內(nèi)置 AI 的智能體;在FPS射擊類游戲中,著力解決3D環(huán)境建模、感知實現(xiàn)視角的轉換和移動尋人等難題,先是奪得了VizDoom AI競賽歷史上首個中國區(qū)冠軍,后在FPS AI上線手游《穿越火線-槍戰(zhàn)王者(CFM)》中廣獲好評。
未來,騰訊AI研究還將有更多場景和應用。對于不少研究人員和開發(fā)者來說,多智能體技術研究依然存在顯著的現(xiàn)實困難,包括環(huán)境的不確定性、信息獲取的局限性、個體目標與全局目標的一致性,以及對高算力的要求。
基于此,2019年8月,王者榮耀、騰訊 AI Lab、高校攜手共建“開悟”AI開放平臺,打造利用王者榮耀與騰訊AI Lab核心技術構建的,對使用者低成本的多智能體人工智能算法研究、教學和驗證的科研教學平臺,助力打通產(chǎn)學研聯(lián)盟通路。
長遠來看,AI+游戲研究將是騰訊攻克 AI 終極研究難題——通用人工智能(AGI)的關鍵一步。AGI 代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復雜命令,達到或超越人類水平的 AI ,從絕藝到絕悟,不斷讓 AI 從0到1去學習進化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗、方法與結論,長期來看,有望在大范圍內(nèi),如醫(yī)療、制造、無人駕駛、農(nóng)業(yè)到智慧城市管理等領域帶來更深遠影響。