Nature：超強版AlphaGo來了！可自學成才，將助力科研

AlphaGo，一款由穀歌旗下公司DeepMind基於深度學習原理而開發的人工智慧程式。之所以聲名大噪，是因為它自2016年以來曾先後擊敗多位世界圍棋冠軍，

包括韓國選手李世石、中國選手柯潔，是第一個擊敗人類職業圍棋選手的人工智慧。

現在， DeepMind又推出“超強版”——AlphaGo Zero，基於前所未有的學習模式從零自學成才，不再依賴於人類經驗！這一重要成果發表在最新一期《Nature》上，並附有相關評論。

這種不需要人工輸入的自我訓練能力讓我們離一個終極夢想——創造一個能夠解決所有任務的人工智慧，更進一步！而且， DeepMind首席執行官Demis Hassabis在新聞發佈會上表示，從中長遠角度出發，這一智慧將能夠用於包括蛋白質折疊、材料學等多個科研挑戰中。

AlphaGo Zero：從零自學成才

DeepMind開發的前幾款“圍棋程式”，都是在與有專家參與的超10萬次圍棋對弈中訓練而來的，且時間長達數月。現在，這一款最新的AlphaGo Zero則從零開始、自我學習。

經過40天訓練、3000萬次PK（包括自我對弈）， AlphaGo Zero可以打敗之前的AlphaGo版本。

AlphaGo Zero的原理是“強化學習”（reinforcement learning），能夠在更少的訓練時間、更強的計算能力下遠超“前輩”。 DeepMind參與AlphaGo開發的科學家David Silver認為：“對人工智慧使用純強化學習一直很困難。 ”他認為，該項目是第一個“真正穩定、強大的強化學習版本”。

一個“大腦”：40天遠超人類

AlphaGo Zero的前任們使用了兩個獨立的神經網路“大腦”：一個用來預測可能的最佳落子動作，另一個從中評估最有可能獲勝的動作。為了實現後者目標，他們使用“roll outs”策略——進行多個快速、隨機的預判，測試可能的結果。

現在， AlphaGo Zero則只擁有一個“大腦”——種由大腦結構激發的深度神經網路，它只學習抽象概念，即僅僅瞭解遊戲規則，通過反復訓練來學習，並通過每場對弈後的回饋資訊自我改進。

首先， AlphaGo Zero會學習人類選手，以初學者的身份貪婪地捕捉技巧。但是只需3天，它就可以掌握人類選手使用的複雜戰術。 Hassabis說：“它能夠重現人類幾千年的知識。 ”

40天后， AlphaGo Zero的水準遠超人類。

應用前景：造福科研

依賴於4個特殊的控制晶片， AlphaGo Zero可以在幾天內就完成自我訓練。這意味著，演算法比任何平臺或可用資料更重要。

DeepMind研發團隊已經開始嘗試將該技術應用於其他領域，例如解析蛋白質折疊的細節，從而為藥物研發提供工具。

他們認為，蛋白質折疊並沒有什麼資料可以參考，且依據氨基酸序列預測結構擁有太多的可能。這在一定程度上類似於圍棋，兩者都有眾所周知的規則，且有一個清晰的目標。

從長遠來看，這種演算法適用於量子化學、材料設計、機器人開發等類似任務中。

參考資料：