華文網

中科院自動化所拿下星際爭霸AI競賽第四名,順便發佈了一個訓練AI“大局觀”的資料集

雷鋒網 AI 科技評論按:上周日,互動數字娛樂AI大會(AIIDE)2017中的星際爭霸AI競賽落下帷幕。

這一競賽是即時戰略(RTS)遊戲AI比賽中最重要的比賽之一,暴雪、DeepMind和Facebook人工智慧研究院等機構也有贊助。兩周的車輪戰中共進行了41580場1v1比賽,28個參賽AI中每兩個之間也平均比賽了110場。

DeepMind 和 Facebook 近兩年在星際爭霸AI研發上動作頻頻,Facebook 也拿出名為 CherryPi 的機器學習AI親自參加了這場比賽,但只以69%的勝率拿到第6名。面對這樣的戰績,多家外媒不免對 Facebook 發出了“雷聲大雨點小”的嘲笑,

不過機器學習在RTS遊戲中的探索畢竟只是剛剛開始,大可不必心急。

比賽冠軍是一位獨立參加的星際爭霸愛好者,來自澳大利亞的程式師Chris Coxe,依靠手工編碼、基於預定義規則和情境判斷的AI獲得了最高勝率83%,從而獲得冠軍;不僅如此,排名前三的AI都是由獨立參賽的星際爭霸愛好者開發的,大多數排名靠前的個人參賽AI也都是和Chris Coxe類似的手工編碼、基於規則的AI。

同時雷鋒網 AI 科技評論發現,

也有多個來自中國的AI參加了這次比賽,除了個人名義參加的Sijia Xu和他的AI“Overkill”之外,中科院自動化研究所更是有三支隊伍參賽,複雜系統管理與控制國家重點實驗室有兩支,一支是在讀博士生朱圓恒、趙冬斌研究員的團隊和他們的AI“Juno”,另一支是唐振濤團隊,他們的AI名為“killall”;還有一支團隊來自智慧感知與計算研究中心,他們的AI“cpac”首次參賽就以71%的勝率拿下了第4名。

智慧感知與計算研究中心“cpac”團隊共有13名成員,

開發這個 AI 用了幾個月的時間,其中有新的遊戲策略,也融合了部分機器學習功能。根據他們介紹,他們訓練了一個多層感知網路用於在生產佇列為空的時候造兵。

在這個 AI 的開發過程中,他們還一併發佈了一個新的資料集 MSC(Macro-management in StarCraft),論文署名為在讀博士生武慧凱、副研究員張俊格、研究員黃凱奇。

MSC 基於暴雪今年開放的 SC2LE 平臺,作者們在論文中表示這個平臺的好處是有目前為止最大的replay資料集、這些replay的品質更高格式更標準,

而且 SC2LE 還有官方的支持和積極的更新。

MSC 資料集的目標是提供預定義的、根據特徵分割過的replay,用於遊戲中宏觀操作(比賽策略&“大局觀”,Macro-management)的訓練和評估。SC2LE中現有的replay雖然數量很多,但是沒辦法直接用來學習和測試;MSC則把replay過濾、解析、採樣、提取操作特徵,並形成訓練、驗證、測試三個資料集,就可以供研究人員方便地訓練模型,

資料集自身也就成為了公開、標準的模型對比手段。

MSC基於 CS2LE 的80萬場replay中已經公開的約6萬4千場,按照上圖中的流程進行處理,形成三個資料集。在預處理中剔除了過短、APM(每分鐘運算元)過低以及選手的MMR(比賽積分)過低的比賽。

除了資料集之外,論文中也一併提出了一個基準模型,展示了在全域局面評估和單位建造預測任務中的表現;其它遊戲策略、序列建模、不確定性建模、不平衡資料集學習、強化學習、規劃和樹搜索等RTS遊戲中常出現的子任務也可以從這個資料集中受益。

詳細內容和資料集請參見原論文和項目地址

論文位址:https://arxiv.org/abs/1710.03131

項目位址:https://github.com/wuhuikai/MSC

雷鋒網 AI 科技評論報導。

論文中也一併提出了一個基準模型,展示了在全域局面評估和單位建造預測任務中的表現;其它遊戲策略、序列建模、不確定性建模、不平衡資料集學習、強化學習、規劃和樹搜索等RTS遊戲中常出現的子任務也可以從這個資料集中受益。

詳細內容和資料集請參見原論文和項目地址

論文位址:https://arxiv.org/abs/1710.03131

項目位址:https://github.com/wuhuikai/MSC

雷鋒網 AI 科技評論報導。