中科院自動化所拿下星際爭霸AI競賽第四名，順便發佈了一個訓練AI“大局觀”的資料集

分類＼遊戲
時間＼2017-10-13

雷鋒網 AI 科技評論按：上周日，互動數字娛樂AI大會（AIIDE）2017中的星際爭霸AI競賽落下帷幕。

這一競賽是即時戰略（RTS）遊戲AI比賽中最重要的比賽之一，暴雪、DeepMind和Facebook人工智慧研究院等機構也有贊助。兩周的車輪戰中共進行了41580場1v1比賽，28個參賽AI中每兩個之間也平均比賽了110場。

DeepMind 和 Facebook 近兩年在星際爭霸AI研發上動作頻頻，Facebook 也拿出名為 CherryPi 的機器學習AI親自參加了這場比賽，但只以69%的勝率拿到第6名。面對這樣的戰績，多家外媒不免對 Facebook 發出了“雷聲大雨點小”的嘲笑，

不過機器學習在RTS遊戲中的探索畢竟只是剛剛開始，大可不必心急。

比賽冠軍是一位獨立參加的星際爭霸愛好者，來自澳大利亞的程式師Chris Coxe，依靠手工編碼、基於預定義規則和情境判斷的AI獲得了最高勝率83%，從而獲得冠軍；不僅如此，排名前三的AI都是由獨立參賽的星際爭霸愛好者開發的，大多數排名靠前的個人參賽AI也都是和Chris Coxe類似的手工編碼、基於規則的AI。

同時雷鋒網 AI 科技評論發現，

也有多個來自中國的AI參加了這次比賽，除了個人名義參加的Sijia Xu和他的AI“Overkill”之外，中科院自動化研究所更是有三支隊伍參賽，複雜系統管理與控制國家重點實驗室有兩支，一支是在讀博士生朱圓恒、趙冬斌研究員的團隊和他們的AI“Juno”，另一支是唐振濤團隊，他們的AI名為“killall”；還有一支團隊來自智慧感知與計算研究中心，他們的AI“cpac”首次參賽就以71%的勝率拿下了第4名。

智慧感知與計算研究中心“cpac”團隊共有13名成員，

開發這個 AI 用了幾個月的時間，其中有新的遊戲策略，也融合了部分機器學習功能。根據他們介紹，他們訓練了一個多層感知網路用於在生產佇列為空的時候造兵。

在這個 AI 的開發過程中，他們還一併發佈了一個新的資料集 MSC（Macro-management in StarCraft），論文署名為在讀博士生武慧凱、副研究員張俊格、研究員黃凱奇。

MSC 基於暴雪今年開放的 SC2LE 平臺，作者們在論文中表示這個平臺的好處是有目前為止最大的replay資料集、這些replay的品質更高格式更標準，

而且 SC2LE 還有官方的支持和積極的更新。

MSC 資料集的目標是提供預定義的、根據特徵分割過的replay，用於遊戲中宏觀操作（比賽策略&“大局觀”，Macro-management）的訓練和評估。SC2LE中現有的replay雖然數量很多，但是沒辦法直接用來學習和測試；MSC則把replay過濾、解析、採樣、提取操作特徵，並形成訓練、驗證、測試三個資料集，就可以供研究人員方便地訓練模型，

資料集自身也就成為了公開、標準的模型對比手段。

MSC基於 CS2LE 的80萬場replay中已經公開的約6萬4千場，按照上圖中的流程進行處理，形成三個資料集。在預處理中剔除了過短、APM（每分鐘運算元）過低以及選手的MMR（比賽積分）過低的比賽。

除了資料集之外，論文中也一併提出了一個基準模型，展示了在全域局面評估和單位建造預測任務中的表現；其它遊戲策略、序列建模、不確定性建模、不平衡資料集學習、強化學習、規劃和樹搜索等RTS遊戲中常出現的子任務也可以從這個資料集中受益。

詳細內容和資料集請參見原論文和項目地址

論文位址：https://arxiv.org/abs/1710.03131

項目位址：https://github.com/wuhuikai/MSC

雷鋒網 AI 科技評論報導。

論文中也一併提出了一個基準模型，展示了在全域局面評估和單位建造預測任務中的表現；其它遊戲策略、序列建模、不確定性建模、不平衡資料集學習、強化學習、規劃和樹搜索等RTS遊戲中常出現的子任務也可以從這個資料集中受益。

詳細內容和資料集請參見原論文和項目地址

論文位址：https://arxiv.org/abs/1710.03131

項目位址：https://github.com/wuhuikai/MSC

雷鋒網 AI 科技評論報導。