DeepMind AI只需要4個小時的自我訓練即可成為國際象棋霸主

圖片來自網路

我們在10月份瞭解到了DeepMind主導的遊戲AI 。其新的神經網路不斷完善自己去擊敗了先期優點，在感知方面，為了實現自我訓練的成功，人工智慧只能局限於明確的規則限制其行為問題，明確的規則決定了遊戲的結果。

圖片來自網路

本周，一篇新的論文詳細介紹了DeepMind的AI在這種情況下自我訓練的改進速度。現在發展到AlphaZero，這個最新的反覆運算從頭開始，在經過八個小時的自我訓練之後擊敗了人類Go 冠軍。而當AlphaZero轉而決定自己教棋， AlphaZero還花了兩個小時的時間學習規則知識，僅僅經過四個小時的自我訓練。

擊敗了目前世界冠軍的國際象棋程式，

這一切讓人非常震驚， DeepMind的最新AI在不到一天的時間裡，在三個獨立的複雜棋類中成為世界級的競爭對手。這個團隊打算在這個時候構建一個以前的軟體的“更通用的版本”，看起來他們成功了。

圖片來自網路

早在2015年10月，當AlphaGo擊敗三屆歐洲冠軍時，它依靠深度神經網路機器學習和搜索技術的新穎組合。在不涉及所有複雜性的情況下，系統觀察人類然後通過在稱為強化學習的過程中，將AlphaGo的實例相互對抗來磨練其策略。從而AlphaGo可能占主導地位。

這一次， AlphaZero更加依賴強化訓練，類似2017年10月AlphaGo Zero的成功。該演算法將通過對其自身的第二個實例進行學習。兩個Zeroes都會從規則的知識開始，但是他們只能隨機移動。

然而一旦移動被執行，該演算法追蹤是否與更好的遊戲結果相關聯。隨著時間的推移，這種知識累計導致更複雜的演算法。

我們滿滿瞭解， AI建立了以及與他們所玩遊戲結果相關的值。它記錄了過去某一特定舉措的發生頻率，因此可以迅速確定一直與成功相關的舉措。由於神經網路的兩個實例同時在改進，程式確保了AlphaGo Zero總是與當前技能水準以上的挑戰對手進行比賽。無論國際象棋多複雜，有可能的位置總計是輕鬆超過10點100的可能性。

圖片來自網路

AlphaGo的成功是如此令人印象深刻，這個壯舉是DeepMind最新的一個里程碑，現在包括擊敗最好的人類棋手， 51勝的線上連勝，並且訓練自己成為世界級的。正如我們之前提到的，

人類幾乎沒有機會再次擊敗AlphaGo，但是我們通過觀看這個人工智慧仍然可以瞭解本身的意義價值。