您的位置:首頁>正文

DeepMind AI只需要4個小時的自我訓練即可成為國際象棋霸主

圖片來自網路

我們在10月份瞭解到了DeepMind主導的遊戲AI 。 其新的神經網路不斷完善自己去擊敗了先期優點, 在感知方面, 為了實現自我訓練的成功, 人工智慧只能局限於明確的規則限制其行為問題, 明確的規則決定了遊戲的結果。

圖片來自網路

本周, 一篇新的論文詳細介紹了DeepMind的AI在這種情況下自我訓練的改進速度。 現在發展到AlphaZero, 這個最新的反覆運算從頭開始, 在經過八個小時的自我訓練之後擊敗了人類Go 冠軍 。 而當AlphaZero轉而決定自己教棋, AlphaZero還花了兩個小時的時間學習規則知識, 僅僅經過四個小時的自我訓練。

擊敗了目前世界冠軍的國際象棋程式,

這一切讓人非常震驚, DeepMind的最新AI在不到一天的時間裡, 在三個獨立的複雜棋類中成為世界級的競爭對手。 這個團隊打算在這個時候構建一個以前的軟體的“更通用的版本”, 看起來他們成功了。

圖片來自網路

早在2015年10月, 當AlphaGo擊敗三屆歐洲冠軍時, 它依靠深度神經網路機器學習和搜索技術的新穎組合。 在不涉及所有複雜性的情況下, 系統觀察人類然後通過在稱為強化學習的過程中, 將AlphaGo的實例相互對抗來磨練其策略。 從而AlphaGo可能占主導地位。

這一次, AlphaZero更加依賴強化訓練, 類似2017年10月AlphaGo Zero的成功。 該演算法將通過對其自身的第二個實例進行學習。 兩個Zeroes都會從規則的知識開始, 但是他們只能隨機移動。

然而一旦移動被執行, 該演算法追蹤是否與更好的遊戲結果相關聯。 隨著時間的推移, 這種知識累計導致更複雜的演算法。

我們滿滿瞭解, AI建立了以及與他們所玩遊戲結果相關的值。 它記錄了過去某一特定舉措的發生頻率, 因此可以迅速確定一直與成功相關的舉措。 由於神經網路的兩個實例同時在改進, 程式確保了AlphaGo Zero總是與當前技能水準以上的挑戰對手進行比賽。 無論國際象棋多複雜, 有可能的位置總計是輕鬆超過10點100的可能性。

圖片來自網路

AlphaGo的成功是如此令人印象深刻, 這個壯舉是DeepMind最新的一個里程碑, 現在包括擊敗最好的人類棋手, 51勝的線上連勝, 並且訓練自己成為世界級的。 正如我們之前提到的,

人類幾乎沒有機會再次擊敗AlphaGo, 但是我們通過觀看這個人工智慧仍然可以瞭解本身的意義價值。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示