您的位置:首頁>正文

最強AlphaGo降臨,柯潔稱相比下“人類太多餘了”

人工智慧研究在語音辨識、圖像分類、基因組學和藥物研發等領域已經取得了迅速的發展。 在許多情況下, 這些專業的系統依賴大量的來自人類的專業知識和資料。

然而, 對於某些問題, 這種人類知識或者資料可能成本過高、不可靠或根本不可用。 因此, 人工智慧研究的一個長期目標就是繞過這一步, 在那些最具挑戰性的領域中創造出超人的性能, 而且擺脫傳統的人工層面的投入。

而這其中最有代表性、也最廣為人知的莫過於 Google DeepMind 開發的人工智慧圍棋應用 AlphaGo。 就在今天, 《Nature》官網刊出了一篇名為“Self-taught AI is best yet at strategy game Go”的頭條文章, DeepMind 關於 AlphaGo Zero 的最新論文也隨之曝光。

從零開始

AlphaGo 是世界上第一個在圍棋這項古老的中國遊戲中擊敗世界冠軍選手的 AI, 而在今年的人機大戰中擊敗人類頂尖棋手柯潔的 AlphaGo 最新版本——AlphaGo Zero——已經變得更為強大, 可以說是“歷史上最強的圍棋選手”。

之前版本的 AlphaGo 最初接受了基於數千人的業餘和專業遊戲的訓練,

而 AlphaGo Zero 則跳過這一步, 從簡單的自我對弈和隨機遊戲開始, 之後 AlphaGo Zero 很快就超過了人類的水準, 不僅如此, 它還以 100:0 的完美比分打敗了此前公佈的 AlphaGo 版本“Master”。

通過全新的強化學習(reinforcement learning)方式, AlphaGo Zero 真正做到“無師自通”。 整套 AI 系統始於一個對圍棋一無所知的神經網路,

通過一套強大的搜尋引擎來與自己對弈。 這個原本一片空白的神經網路與自己對弈的局數越多, 就越能準確的調整與預測下一步棋的走法, 對圍棋的掌握程度也越來越高。

這套升級過的神經網路通過與搜索演算法的再次整合, 最終形成了全新的、更強大的 AlphaGo Zero, 並不停重複這一過程。 在每一個反覆運算版本中, 系統的性能都有小的提升, 自我對弈的品質也越來越高, 因此形成了一個越來越精准的神經網路, 這就是空前強大的 AlphaGo Zero。

這種技術相比以前版本的 AlphaGo 要更為強大, 因為它不再受到人類知識的限制。 相反, 它可以從世界上最強的 AlphaGo 那裡獲得學習與提升。

除此以外, 它與以前的版本在其它方面也有著明顯的差別:

AlphaGo Zero 僅使用棋盤上的黑白子作為輸入, 而以前版本的 AlphaGo 則包含少量的人為設定功能。

AlphaGo Zero 只使用一個神經網路。 AlphaGo 的早期版本則使用兩個神經網路, 其中“策略網路”用來選擇下一步的走法, “價值網路”從每一步棋預測遊戲的獲勝者。

而這兩部分在 AlphaGo Zero 中得以整合, 使其能夠更有效地進行訓練和評估。

AlphaGo Zero 也不使用“走子”(rollout)這一其它圍棋程式在遊戲中常用到的勝者推測方法。 相反, 它依靠其高品質的神經網路來評估每一步該怎麼走才最終可能獲勝。

而所有這些差異將有助於提高系統的表現並使其更為通用。 但最核心的還是演算法的提升使得系統變得更加強大和高效。

圖丨得益於硬體和演算法的雙重優化,AlphaGo 的效率已經得到了空前的提升

經過短短三天的自我訓練之後,AlphaGo Zero 就輕鬆擊敗了與李世乭對戰的那版 AlphaGo,而且是 100 場對決無一敗績。而經過 40 天的自我訓練之後,AlphaGo Zero 又變得更強了,擊敗了“Master”版本的 AlphaGo,而當時世界排名第一的柯潔就是敗給了 Master。

圖丨ELO等級分制度(Elo ratings),是當今對弈水準評估的公認的權威方法

而在 DeepMind 最新公佈的關於 AlphaGo Zero 的論文中,也對其技術原理和學習機制做了深入分析。以下是論文重點概述:

圖丨《不使用人類知識掌握圍棋》

人工智慧領域一個長期以來的目標就是一款可以在困難的領域中,從“一片空白”(Tabula Rasa)開始學習,直到實現超越人類能力的演算法。

去年,AlphaGo 成為了首個在圍棋上戰勝人類世界冠軍的軟體。AlphaGo 的樹搜索可以對局勢進行分析,並使用深神經網路選擇每一步的落子。這些神經網路是在人類專家的棋路上使用監督學習,以及在自我對弈中使用增強學習訓練出來的。我們在本論文中提出了一個純基於增強學習,不需要任何人類資料和説明,或者規則之外任何知識的演算法。AlphaGo 成為了它自己的老師:一個神經網路被訓練得可以預測 AlphaGo 自己的每一步、甚至每一局的勝利者。

這個神經網路可以提高樹搜索的強度,產生更高品質的落子選擇,以及下一局自我對弈中更強的棋手。從“一片空白”開始,我們的新程式——AlphaGo Zero 實現了超越人類的表現:在與之前發表的戰勝了人類冠軍的 AlphaGo 的對弈中實現了驚人的 100 比 0 的勝率。

原版的 AlphaGo 設計有兩個深度神經網路:一個計算每步落子的概率的策略網路,以及一個計算每步後的局勢的價值網路。這兩個神經網路被蒙特卡洛樹搜索(MCTS)結合在了一起:用策略網路將搜索範圍縮小為高概率的落子,用價值網路來判斷搜尋樹中的每個局勢。戰勝李世乭那個版本的 AlphaGo 正是這個設計。

圖丨AlphaGo 對戰李世乭

新版的 AlphaGo Zero 則與原版有著多個重要的區別。首先,它是從隨機落子狀態,完全通過自我對弈和增強學習訓練出來的。其次,它的輸入函數只有棋盤上的黑白子。再次,它只使用一個神經網路,而不是策略和價值這兩個神經網路。最終,它使用的樹搜索更簡單,只依靠這單個神經網路來判斷局勢和落子,而不會進行任何蒙特卡洛快速走子(Monte Carlo Rollout)。

簡單來說,AlphaGo Zero 的神經網路會先列出下一步棋的可能性,再通過執行蒙特卡洛樹搜索(MCTS)在這些可能性中選擇最優解。通過將神經網路計算結果與 MCTS 篩選出的結果進行對比,反向再對神經網路的參數進行調整優化,使得神經網路與 MCTS 間的誤差更小。在下一局自我對弈時,神經網路便會擁有一套升級版的參數。通過不停重複這個過程,在數百萬次優化後,最終打造出強大的 AlphaGo Zero。

AlphaGo 的自我對弈強化學習機制

DeepMind 團隊確定這套強化學習的技術原理後,將其應用在第二個版本的 AlphaGo Zero 上,這個版本擁有規模更大的神經網路和更長的訓練時間。從“毫無章法”的隨意走子開始,訓練僅僅持續了約 40 天。

在整個訓練過程中,AlphaGo Zero 共進行了 2900 萬次自我對弈,進行了 310 萬次參數升級。隨後,DeepMind 團隊現在內部對 AlphaGo Zero 進行了棋力評估,分別用戰勝樊麾和李世乭的 AlphaGo 版本,以及在 2017 年 1 月以 60:0 線上完勝最強人類棋手的 AlphaGo Master,來與 AlphaGo Zero 對弈。

在整個棋力評估過程中,各版本的 AlphaGo 們僅有 5 秒時間來“思考”下一步棋的走法。其中,AlphaGo Zero 和 AlphaGo Master 只配備了 4 個 TPU(張量處理單元),而此前戰勝樊麾和李世乭的 AlphaGo 則分別配備了 176 個和 48 個 TPU。

最終結果是,在最初的 AlphaGoZero 與 AlphaGo Master 持續兩小時的 100 局對戰中,前者以 89:11 完勝後者。

圖丨Elo 棋力排名顯示,AlphaGo 花了 3 天時間超越 AlphaGo 李世乭版本,21 天后超越 AlphaGo Master。

ELO 等級分制度(Elo ratings)是由匈牙利裔美國物理學家 Elo 創建的一個衡量衡量競爭性遊戲中玩家的相對技能水準的評分方法,是當今對弈水準評估的公認的權威方法,被廣泛應用於國際象棋、圍棋、足球等運動,以及很多網遊與電子競技產業。在 AlphaGo 的開發過程中,Elo 排名的變化直觀顯示了 AlphaGo 是如何迅速變強的。

在數以千萬計的 AlphaGo pk AlphaGo 的遊戲中,系統從零開始逐漸學習了圍棋遊戲,並在短短幾天的時間裡積累了數千年的人類知識。另外,AlphaGo Zero 還發現了新的知識,可以開發一些非常規策略和創新之舉,甚至還超越了其在與李世乭和柯潔的比賽中所發揮的驚人之舉。

AlphaGo 發揮創意的那些時刻讓我們對這一未來頗具信心:人工智慧將成為創造力高於人類的存在,並幫助我們解決人類面臨的一些最重要的挑戰。

雖然仍處於上述願景的早期階段,但 AlphaGo Zero 是邁向這一目標的關鍵一步。如果可以將類似的技術應用於其他結構化問題,如蛋白質折疊、減少能源消耗或尋找革命性的新材料,這些突破在對社會產生積極影響上潛力巨大。

圖丨得益於硬體和演算法的雙重優化,AlphaGo 的效率已經得到了空前的提升

經過短短三天的自我訓練之後,AlphaGo Zero 就輕鬆擊敗了與李世乭對戰的那版 AlphaGo,而且是 100 場對決無一敗績。而經過 40 天的自我訓練之後,AlphaGo Zero 又變得更強了,擊敗了“Master”版本的 AlphaGo,而當時世界排名第一的柯潔就是敗給了 Master。

圖丨ELO等級分制度(Elo ratings),是當今對弈水準評估的公認的權威方法

而在 DeepMind 最新公佈的關於 AlphaGo Zero 的論文中,也對其技術原理和學習機制做了深入分析。以下是論文重點概述:

圖丨《不使用人類知識掌握圍棋》

人工智慧領域一個長期以來的目標就是一款可以在困難的領域中,從“一片空白”(Tabula Rasa)開始學習,直到實現超越人類能力的演算法。

去年,AlphaGo 成為了首個在圍棋上戰勝人類世界冠軍的軟體。AlphaGo 的樹搜索可以對局勢進行分析,並使用深神經網路選擇每一步的落子。這些神經網路是在人類專家的棋路上使用監督學習,以及在自我對弈中使用增強學習訓練出來的。我們在本論文中提出了一個純基於增強學習,不需要任何人類資料和説明,或者規則之外任何知識的演算法。AlphaGo 成為了它自己的老師:一個神經網路被訓練得可以預測 AlphaGo 自己的每一步、甚至每一局的勝利者。

這個神經網路可以提高樹搜索的強度,產生更高品質的落子選擇,以及下一局自我對弈中更強的棋手。從“一片空白”開始,我們的新程式——AlphaGo Zero 實現了超越人類的表現:在與之前發表的戰勝了人類冠軍的 AlphaGo 的對弈中實現了驚人的 100 比 0 的勝率。

原版的 AlphaGo 設計有兩個深度神經網路:一個計算每步落子的概率的策略網路,以及一個計算每步後的局勢的價值網路。這兩個神經網路被蒙特卡洛樹搜索(MCTS)結合在了一起:用策略網路將搜索範圍縮小為高概率的落子,用價值網路來判斷搜尋樹中的每個局勢。戰勝李世乭那個版本的 AlphaGo 正是這個設計。

圖丨AlphaGo 對戰李世乭

新版的 AlphaGo Zero 則與原版有著多個重要的區別。首先,它是從隨機落子狀態,完全通過自我對弈和增強學習訓練出來的。其次,它的輸入函數只有棋盤上的黑白子。再次,它只使用一個神經網路,而不是策略和價值這兩個神經網路。最終,它使用的樹搜索更簡單,只依靠這單個神經網路來判斷局勢和落子,而不會進行任何蒙特卡洛快速走子(Monte Carlo Rollout)。

簡單來說,AlphaGo Zero 的神經網路會先列出下一步棋的可能性,再通過執行蒙特卡洛樹搜索(MCTS)在這些可能性中選擇最優解。通過將神經網路計算結果與 MCTS 篩選出的結果進行對比,反向再對神經網路的參數進行調整優化,使得神經網路與 MCTS 間的誤差更小。在下一局自我對弈時,神經網路便會擁有一套升級版的參數。通過不停重複這個過程,在數百萬次優化後,最終打造出強大的 AlphaGo Zero。

AlphaGo 的自我對弈強化學習機制

DeepMind 團隊確定這套強化學習的技術原理後,將其應用在第二個版本的 AlphaGo Zero 上,這個版本擁有規模更大的神經網路和更長的訓練時間。從“毫無章法”的隨意走子開始,訓練僅僅持續了約 40 天。

在整個訓練過程中,AlphaGo Zero 共進行了 2900 萬次自我對弈,進行了 310 萬次參數升級。隨後,DeepMind 團隊現在內部對 AlphaGo Zero 進行了棋力評估,分別用戰勝樊麾和李世乭的 AlphaGo 版本,以及在 2017 年 1 月以 60:0 線上完勝最強人類棋手的 AlphaGo Master,來與 AlphaGo Zero 對弈。

在整個棋力評估過程中,各版本的 AlphaGo 們僅有 5 秒時間來“思考”下一步棋的走法。其中,AlphaGo Zero 和 AlphaGo Master 只配備了 4 個 TPU(張量處理單元),而此前戰勝樊麾和李世乭的 AlphaGo 則分別配備了 176 個和 48 個 TPU。

最終結果是,在最初的 AlphaGoZero 與 AlphaGo Master 持續兩小時的 100 局對戰中,前者以 89:11 完勝後者。

圖丨Elo 棋力排名顯示,AlphaGo 花了 3 天時間超越 AlphaGo 李世乭版本,21 天后超越 AlphaGo Master。

ELO 等級分制度(Elo ratings)是由匈牙利裔美國物理學家 Elo 創建的一個衡量衡量競爭性遊戲中玩家的相對技能水準的評分方法,是當今對弈水準評估的公認的權威方法,被廣泛應用於國際象棋、圍棋、足球等運動,以及很多網遊與電子競技產業。在 AlphaGo 的開發過程中,Elo 排名的變化直觀顯示了 AlphaGo 是如何迅速變強的。

在數以千萬計的 AlphaGo pk AlphaGo 的遊戲中,系統從零開始逐漸學習了圍棋遊戲,並在短短幾天的時間裡積累了數千年的人類知識。另外,AlphaGo Zero 還發現了新的知識,可以開發一些非常規策略和創新之舉,甚至還超越了其在與李世乭和柯潔的比賽中所發揮的驚人之舉。

AlphaGo 發揮創意的那些時刻讓我們對這一未來頗具信心:人工智慧將成為創造力高於人類的存在,並幫助我們解決人類面臨的一些最重要的挑戰。

雖然仍處於上述願景的早期階段,但 AlphaGo Zero 是邁向這一目標的關鍵一步。如果可以將類似的技術應用於其他結構化問題,如蛋白質折疊、減少能源消耗或尋找革命性的新材料,這些突破在對社會產生積極影響上潛力巨大。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示