AlphaGo 真的要去打星際了？DeepMind 用星際爭霸訓練 AI

在征服了雅達利遊戲，以及圍棋選手李世石和柯潔之後，Google 旗下的人工智慧實驗室 DeepMind 將眼光瞄向了更高的挑戰 —— 星際爭霸。

事實上，星際爭霸的遊戲方式非常適合 DeepMind 訓練人工智慧的記憶、計畫等高級的技能。

自去年 AlphaGo 打敗李世石之後，DeepMind 就和星際爭霸的創造者暴雪遊戲公司達成合作，用遊戲訓練 AI。今天，用於訓練 AI 系統的軟體在 Deep Mind 官網上發佈了出來。

這個叫做 SC2LE 的軟體主要包括一套用於加速 AI 在星際爭霸的訓練的工具，具體內容如下：

由暴雪公司開發的機器學習 API，幫助開發者和研究人員參與到星際爭霸遊戲中
一個匿名的遊戲資料集
開源的 DeepMind 工具集 PySC2，可以讓研究人員非常容易地使用暴雪遊戲的 API
一系列簡單的增強學習迷你遊戲，

用於測試 AI 系統特定的功能和任務
一些研究論文，幫助開發者瞭解整個遊戲環境，報告迷你遊戲的測試結果等

SC2LE 軟體工具包能夠讓 AI 系統像人類玩家一樣玩遊戲，也就是說，AI 系統和人類玩家有著相同的約束條件，比如開局時無法看到遊戲的全地圖、無法快速點擊滑鼠。這就要求 AI 系統通過不斷地試錯來進行學習，

或者叫做「增強學習」。

為什麼星際爭霸可以用來訓練 AI 系統呢？

在計算的精度和速度上，電腦遠超人類，但是在更高層級的「抽象思維」能力上，電腦短時間內還無法達到人類的水準，而電子遊戲就是訓練電腦「抽象思維」的重要工具。星際爭霸被玩家們稱作最難的即時戰略遊戲，

該遊戲的搜索和決策空間比圍棋大了多個數量級，AI 在進行訓練時不僅要考慮戰鬥策略，環境探索，建築和技能升級，還要考慮資源的搜集和分配等因素。另外，遊戲早期所採用的生產和戰鬥策略不一定會立即產生效果，所以遊戲玩家必須做好長期的戰略規劃，這對 AI 來說是個不小的挑戰。

DeepMind 研究員，同時也是星際爭霸頂級玩家的 Oriol Vinyals 說：「遊戲提供的一個很有趣的機制叫做『戰鬥迷霧』，

它迫使玩家探索地圖，找到敵人的位置，分析敵人的發展狀況。對於人類玩家來說，『探索地圖』這樣的遊戲方式已經習以為常，但對 AI 來講就不一定，AI 需要不斷地學習才能形成一種常識，這樣的挑戰在之前的圍棋大戰是不存在的。」

對於 AI 的訓練，DeepMind 希望通過一系列的「迷你遊戲」，將整個遊戲分解成多個可管理的，簡單的機制進行訓練，

比如收集資源、遊戲單位的移動、造房子等，然後從中來評估 AI 的訓練結果。

根據 DeepMind 的初步調查顯示，AI 在這些迷你遊戲中表現良好。但在一場完整的遊戲比賽中，再強大的 AI 系統也無法完成一場最簡單的星際爭霸比賽，DeepMind 表示，他們將繼續優化訓練方法，爭取在深度增強學習領域有所突破。

DeepMind 和暴雪的訓練正在進行中，但是已經有專業玩家對「人機大戰」表示興趣十足。韓國星際電競選手卞玄宇說：「我不認為現在的人工智慧在星際爭霸上能夠打敗一位專業的玩家，至少在我有生之年內不會。」

電腦不斷採用新的方式來解決問題，並形成一種「常識」，這是一件很有挑戰性，也很有意思的事情，它有可能會給世人帶來很多驚喜。不過，作為一名 AI 和電子遊戲的愛好者，我期待著人類玩家和人工智慧在星際爭霸上對決的那天。

轉載、約稿、投稿、團隊報導請聯繫微信公眾號：shenzhenware（回復關鍵字）