您的位置:首頁>體育>正文

Nature:超強版AlphaGo來了!可自學成才,將助力科研

AlphaGo, 一款由穀歌旗下公司DeepMind基於深度學習原理而開發的人工智慧程式。 之所以聲名大噪, 是因為它自2016年以來曾先後擊敗多位世界圍棋冠軍,

包括韓國選手李世石、中國選手柯潔, 是第一個擊敗人類職業圍棋選手的人工智慧。

現在, DeepMind又推出“超強版”——AlphaGo Zero, 基於前所未有的學習模式從零自學成才, 不再依賴於人類經驗!這一重要成果發表在最新一期《Nature》上, 並附有相關評論。

這種不需要人工輸入的自我訓練能力讓我們離一個終極夢想——創造一個能夠解決所有任務的人工智慧, 更進一步!而且, DeepMind首席執行官Demis Hassabis在新聞發佈會上表示, 從中長遠角度出發, 這一智慧將能夠用於包括蛋白質折疊、材料學等多個科研挑戰中。

AlphaGo Zero:從零自學成才

DeepMind開發的前幾款“圍棋程式”, 都是在與有專家參與的超10萬次圍棋對弈中訓練而來的, 且時間長達數月。 現在, 這一款最新的AlphaGo Zero則從零開始、自我學習。

經過40天訓練、3000萬次PK(包括自我對弈), AlphaGo Zero可以打敗之前的AlphaGo版本。

AlphaGo Zero的原理是“強化學習”(reinforcement learning), 能夠在更少的訓練時間、更強的計算能力下遠超“前輩”。 DeepMind參與AlphaGo開發的科學家David Silver認為:“對人工智慧使用純強化學習一直很困難。 ”他認為, 該項目是第一個“真正穩定、強大的強化學習版本”。

一個“大腦”:40天遠超人類

AlphaGo Zero的前任們使用了兩個獨立的神經網路“大腦”:一個用來預測可能的最佳落子動作, 另一個從中評估最有可能獲勝的動作。 為了實現後者目標, 他們使用“roll outs”策略——進行多個快速、隨機的預判, 測試可能的結果。

現在, AlphaGo Zero則只擁有一個“大腦”——種由大腦結構激發的深度神經網路, 它只學習抽象概念, 即僅僅瞭解遊戲規則, 通過反復訓練來學習, 並通過每場對弈後的回饋資訊自我改進。

首先, AlphaGo Zero會學習人類選手, 以初學者的身份貪婪地捕捉技巧。 但是只需3天, 它就可以掌握人類選手使用的複雜戰術。 Hassabis說:“它能夠重現人類幾千年的知識。 ”

40天后, AlphaGo Zero的水準遠超人類。

應用前景:造福科研

依賴於4個特殊的控制晶片, AlphaGo Zero可以在幾天內就完成自我訓練。 這意味著, 演算法比任何平臺或可用資料更重要。

DeepMind研發團隊已經開始嘗試將該技術應用於其他領域, 例如解析蛋白質折疊的細節, 從而為藥物研發提供工具。

他們認為, 蛋白質折疊並沒有什麼資料可以參考, 且依據氨基酸序列預測結構擁有太多的可能。 這在一定程度上類似於圍棋, 兩者都有眾所周知的規則, 且有一個清晰的目標。

從長遠來看, 這種演算法適用於量子化學、材料設計、機器人開發等類似任務中。

參考資料:

Next Article
喜欢就按个赞吧!!!
点击关闭提示