華文網

沒有最強 只有更強!DeepMind的AlphaZero 完勝人類棋類遊戲

對電腦象棋的研究和電腦科學本身一樣古老。巴貝奇,圖靈,香農,馮·諾依曼等著名大師設計了硬體、演算法和理論來分析和玩遊戲——國際象棋。自此,國際象棋隨後成為一代人工智慧的重大挑戰任務,

它也成為人工智慧史上研究最廣泛的領域。

引起大眾關注的一件事就是DeepMind的AlphaGo在圍棋賽場上一戰成名,但這家穀歌旗下的公司一直沒有停下發展的步伐,又推出了AlphaGo Zero ,只需要三天的時間,從空白的狀態學起,在無任何人類輸入的情況下,迅速自學圍棋,擊敗了“前輩”AlphaGo。

而在最近的論文中,似乎又有了新的突破。話說,DeepMind論文發這麼快,有點跟不上的節奏啊。

最新的AlphaGo Zero從零開始訓練,

除了基本的規則沒有其他“知識”,8小時的學習就擊敗了與李世石對戰的AlphaGo v18,又經過4小時的訓練,擊敗了世界頂級的國際象棋程式——Stockfish,緊接著,又是2小時的訓練之後,日本將棋Elmo也敗在它的手下。

AlphaGo的神經網路架構更適用於圍棋,因為圍棋的規則變化比較少。而象棋和將棋的規則變化比較多,很多規則還要基於棋盤上的具體位置。例如象棋中的“兵”在第一步的時候可以前進一格或兩格,

並在到達對方底線後升棋(即兵可以升級為車、馬、象或後)。

而AlphaZero 則是 AlphaGo Zero 的通用化進化版本,它繼續保持了 AlphaGo Zero 中不需要人工特徵、利用深度神經網路從零開始進行強化學習、結合蒙特卡洛樹搜索的特點,然後更新網路參數,減小網路估計的比賽結果和實際結果之間的誤差,同時最大化策略網路輸出動作和蒙特卡洛樹搜索可能性之間的相似度。

DeepMind 當然也讓完全訓練後的 AlphaZero 與 Stockfish、Elmo 和 AlphaGo Zero(訓練時間為 3 天)進行了實際的比賽,

分別 100 場,每步的思考時間限制為一分鐘;AlphaGo Zero 和 AlphaZero 都運行在配備 4 塊 TPU 的單個伺服器上。

結果並不意外,AlphaZero 在國際象棋中面對 Stockfish 一局未輸,日本象棋中共輸 8 局,面對 AlphaGo Zero 也拿下了 60% 的勝率。

它是一種通用的強化學習演算法,

最初是為了圍棋而設計的,在幾小時內取得了優異的成績,搜索次數減少了1000倍,除了國際象棋的規則外,不需要任何領域的其他知識。

沒有最強,只有更強。

關注我們,回復“AlphaZero”,即可獲得原論文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》(用通用強化學習演算法自我對弈,掌握國際象棋和將棋)下載地址。