沒有最強 只有更強!DeepMind的AlphaZero 完勝人類棋類遊戲
對電腦象棋的研究和電腦科學本身一樣古老。巴貝奇,圖靈,香農,馮·諾依曼等著名大師設計了硬體、演算法和理論來分析和玩遊戲——國際象棋。自此,國際象棋隨後成為一代人工智慧的重大挑戰任務,
引起大眾關注的一件事就是DeepMind的AlphaGo在圍棋賽場上一戰成名,但這家穀歌旗下的公司一直沒有停下發展的步伐,又推出了AlphaGo Zero ,只需要三天的時間,從空白的狀態學起,在無任何人類輸入的情況下,迅速自學圍棋,擊敗了“前輩”AlphaGo。
而在最近的論文中,似乎又有了新的突破。話說,DeepMind論文發這麼快,有點跟不上的節奏啊。
最新的AlphaGo Zero從零開始訓練,
AlphaGo的神經網路架構更適用於圍棋,因為圍棋的規則變化比較少。而象棋和將棋的規則變化比較多,很多規則還要基於棋盤上的具體位置。例如象棋中的“兵”在第一步的時候可以前進一格或兩格,
而AlphaZero 則是 AlphaGo Zero 的通用化進化版本,它繼續保持了 AlphaGo Zero 中不需要人工特徵、利用深度神經網路從零開始進行強化學習、結合蒙特卡洛樹搜索的特點,然後更新網路參數,減小網路估計的比賽結果和實際結果之間的誤差,同時最大化策略網路輸出動作和蒙特卡洛樹搜索可能性之間的相似度。
DeepMind 當然也讓完全訓練後的 AlphaZero 與 Stockfish、Elmo 和 AlphaGo Zero(訓練時間為 3 天)進行了實際的比賽,
結果並不意外,AlphaZero 在國際象棋中面對 Stockfish 一局未輸,日本象棋中共輸 8 局,面對 AlphaGo Zero 也拿下了 60% 的勝率。
它是一種通用的強化學習演算法,
沒有最強,只有更強。
關注我們,回復“AlphaZero”,即可獲得原論文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》(用通用強化學習演算法自我對弈,掌握國際象棋和將棋)下載地址。