AlphaGo Zero：從頭開始學習

人工智慧研究在語音辨識和圖像分類再到基因組學和藥物發現等各個領域都取得了快速進展。但在許多情況下，這些都是利用大量人力資源和龐大的資料支撐才完成的專業工作。

然而，對於某些問題，知識和資料的成本太高，太不可靠或者根本無法使用。因此， AI研究的長期目標是繞開這個困境，創造演算法，在沒有人工投入的情況下，挑戰最具挑戰性的領域實現超越人類的表現。在我們最近發表在Nature雜誌上的論文，我們展示了實現這一目標的一個小小的進步。

本文介紹了最新發展AlphaGo版本的AlphaGo zero， AlphaGo是第一個在圍棋的古代中國遊戲打敗世界冠軍的電腦程式。 AlphaGo是強大的，但是AlphaGo zero是更強大的，可以說是歷史上最強的圍棋玩家。

以前版本的AlphaGo最初是接受了數千業餘和專業人的遊戲訓練，學習如何玩圍棋。而AlphaGo Zero跳過這一步，整個學習過程是通過自己玩遊戲，從完全隨機的遊戲開始。這樣做的時候，它很快超過了人類的水準，而且還擊敗了以前發佈的冠軍版本的AlphaGo。

AlphaGo zero通過使用一種新穎的強化學習方法， AlphaGo Zero成為自己的老師。 AlphaGo zero從一個不知道圍棋遊戲的神經網路開始，然後，通過將這個神經網路與強大的搜索演算法相結合，

自身與自身進行遊戲。當它自己與自己下棋的過程中，神經網路被不斷的調整和更新，以預測下一手以及最終的贏家的佈局。

然後將這個更新完畢的神經網路與搜索演算法重組，創建一個新的、更強的AlphaGo版本的AlphaGo Zero，並且讓過程再次開始。在每次反覆運算中， AlphaGo zero系統的性能都會提高一小部分，自我遊戲的品質也提高了，這導致了越來越精確的神經網路和更強的AlphaGo Zero版本時代的出現。

這個版本的AlphaGo zero比以前版本的AlphaGo更強大，因為它不再受到人類知識的限制。相反，它還可以從世界上最強的玩家：AlphaGo那裡學習。

它也有不同於以前的版本在其他方面。

·AlphaGo Zero僅使用圍棋棋盤上的黑白石頭作為輸入，而AlphaGo的以前版本包含少量手工設計。

·它使用一個神經網路而不是兩個。 AlphaGo的早期版本使用“策略網路”來選擇下一手的落點以及一個“價值網路”來預測落在每個位置遊戲的獲勝的概率。這兩個網路被完美的結合在AlphaGo Zero中，這使其能夠進行更有效地進行訓練和評估。

·AlphaGo Zero不使用其他圍棋程式使用的快速隨機遊戲來預測玩家將子落在何處才能獲勝。相反，它依靠其高品質的神經網路來評估位置。

所有這些差異都有助於提高系統的性能並使其更為通用。而且，演算法的改變使得系統更加強大和高效。

經過短短三天的自我訓練， AlphaGo Zero就打敗了以前發佈的AlphaGo版本。經過40天的自我訓練， AlphaGo Zero變得更強大，超越稱為“大師”的AlphaGo版本， AlphaGo大師版本是擊敗了世界上最好的圍棋選手及世界排名第一的柯潔。

在數以百萬計的AlphaGo和AlphaGo對戰中，系統從零開始逐漸學習了圍棋遊戲，在短短幾天的時間裡積累了數千年的人類知識。同時，AlphaGo Zero還發現了新的知識，開發非常規的策略和創新了新舉措，它超越了在與李世石和柯潔的比賽中所發揮的新技術。

這些創造力的瞬間使我們相信，人工智慧將成為人類智慧，幫助我們與我們的使命，解決一些人類正面臨著最重要的挑戰。

雖然這些還在早期，但AlphaGo Zero是邁向這一目標的關鍵一步。如果可以將類似的技術應用於其他結構化問題，如蛋白質折疊，減少能源消耗或尋找革命性的新材料，這些突破將對社會產生積極的影響。

大衛·席爾瓦：AlphaGo專案首席研究員在接受採訪時所說：

AlphaGo Zero是世界上最強大的圍棋程式，勝過以往所有的AlphaGo版本。尤其值得一提的是，它擊敗了曾經戰勝世界圍棋冠軍李世石的AlphaGo版本，成績為100比0。過去所有版本的AlphaGo都從利用人類資料訓練開始，它們被告知人類高手在這地方怎麼下，在另一個地方怎麼下。AlphaGo Zero不使用任何人類資料，而是自我學習，完全從自我對弈中學習，憑藉自我學習取得比通過人類資料學習更好的成績是因為，首先AlphaGo的對手總是和它正好水準一致，所以它從非常基礎的水準開始，從非常隨機的招式開始。但是在學習的過程中每一步，它的對手或者可以叫陪練，都正好被校準為匹配其當前水準。一開始，這些對手非常弱，但是之後漸漸變得越來越強大，人們一般認為機器學習就是關於大資料和海量計算。但是，我們從AlphaGo Zero中發現，演算法比所謂計算和資料可用性更重要。事實上，我們在AlphaGo Zero上使用的計算比在過去AlphaGo版本上使用的少一個數量級，但是它的性能更強大，因為我們使用了更多原理和演算法，我可以代表我們的團隊說，我們對它的表現感到驚喜，它最終超過了我們的所有預期。它的勝率一直上升，直到過了40天左右，我們發現它擊敗了過去所有版本的AlphaGo，成為世界上最強大的圍棋程式。該全系統完全從零開始訓練，從隨機招式開始，建立於基本原理，來弄清怎樣從零學圍棋，AlphaGo Zero最重要的理念是它完全從零開始學習，它意味著它完全從一塊白板開始，僅僅依靠自我對弈來學習，不依賴於任何人類知識，人類資料，人類案例，人類特徵，或是人類的介入，。它完全通過基本原理去探索任何下圍棋，從零學對於DeepMind的目標和雄心而言是非常重要的，

因為如果你可以實現從零學習，你就擁有了可以從圍棋，移植到其他任何領域的媒介，你從所處的細分領域中解放出來，通過一個可以應用於在任何地方的普遍演算法。對於我們來說打造AlphaGo不是為了出來擊敗人類，而是為了探索研究科學的意義和讓一個程式能夠自我學習知識是什麼？所以我們開始發現，AlphaGo Zero不僅僅是重新發現，人類偏好的模式和開口以及人類在角落用固定模式，它還會審視這些並進行更多的自主探索，最終放棄那些偏好來自主做出人類還不知道或無法實現的變化，所以我們可以說真正發生的是在非常短的時間內，AlphaGo Zero理解了人類數千年積累的對圍棋的認知，它進行分析，開始審視這些知識，並自主探索出更多的東西，有時候它的選擇實際上超越並帶來的一些人類現階段尚未發現的東西，產生出在很多方面富有創造力的，新奇的知識，對於AlphaGo Zero已經達到的水準，我們非常激動，最讓我們激動的是看它能在現實世界裡走多遠，事實上我們已經看到一個程式可以在像圍棋這樣的，複雜並具有挑戰性的領域中達到很高水準，這意味著我們能夠開始著手為人類解決最困難的問題。

從零開始的訓練

DeepMind發表的論文中寫到，應用了強化學習的pipeline來訓練AlphaGo Zero，訓練從完全隨機的行為開始，並在沒有認為干預的情況下持續3天。

訓練過程中，生成了490萬盤自我博弈對局，每個MCTS使用1600次模擬，相當於每下一步思考0.4秒。下圖顯示了在自我對弈強化學習期間，AlphaGo Zero的表現。整個訓練過程中，沒有出現震盪或者災難性遺忘的困擾。

令人驚訝的是，AlphaGo Zero在訓練36小時後，表現就優於擊敗李世石的版本AlphaGo Lee。當年那個版本經過了數月的訓練。AlphaGo Zero使用了4個TPU，而擊敗李世乭的AlphaGo使用了48個TPU。

譯者認為：AlphaGo Zero這種完全不依賴於人類資料的創新是有其根本因素的，因為圍棋的下法是有一定的規則的，只要是在規則之內AlphaGo Zero自己可以和自己模擬，進行創造新的下法。舉例來說：一個學生學習了基礎知識之後，可以利用這些基礎知識解決一系列複雜的問題，但是這些複雜得多問題其實還是限制於這些基礎知識不斷組合上，一旦超出了基礎知識的界限，那麼學生就不會做題了。這就是當前版本的AlphaGo Zero的核心。但是，不得不承認的是，這種方式極大的釋放了人工智慧在圍棋領域的創造性，人類可以從中獲得更多。

AlphaGo Zero證明了純強化學習的方法是可行的，注意這裡的純強化學習其實強化的是基礎，這跟我們人類的思維是相通的。Deepmind團隊也稱，AlphaGo zero對結構化知識的領域更適用，其實與其說是結構化，不如說成是規則化。因為如果說結構化的話，那麼文本翻譯也屬於結構化，但是這個領域沒有標注化，它還是需要大量資料來支撐的。

論文的共同第一作者是David Silver、Julian Schrittwieser、Karen Simonyan。

關於這篇論文，可以直接從這個位址下載。

DeepMind還放出AlphaGo Zero的80局棋譜，下載地址在此。

本文由北郵@愛可哥-愛生活老師推薦，阿裡云云棲社區組織整理。

文章原標題：《AlphaGo Zero-learning-scratch》

作者：

譯者：虎說八道，小學生一枚。審校：主題曲哥哥。