華文網

從大勝李世石到險勝柯潔,AlphaGo這一年經歷了什麼?

北京時間5月23日14:47分,經過4小時17分鐘的對弈,柯潔四分之一子惜敗。對手是AlphaGo。

世界排名第一的柯潔,曾認真研究了一年多AlphaGo喜歡的三三式;在這一年多,AlphaGo則從第18代反覆運算為第60代。這些表像背後,

人工智慧深度學習能力經歷了怎樣的演進?

今天上午10點半,備受全世界矚目的人機大戰第二季將全面打響。最終,人類圍棋界排名第一的中國棋手柯潔輸給了AI界排名第一的AlphaGo圍棋人工智慧程式。

一場科技層面註定失敗的比賽

這是一場業內同行普遍不看好結果的比賽。

儘管柯潔在大戰前悲壯地表示,“我會用所有的熱情去與它做最後的對決,不管面對再強大的對手——我也絕不會後退!”賽前的豪邁,依然改變不了失敗的結果。在專業棋手看來,輸四分之一子的柯潔雖敗猶榮。

對柯潔而言,這是一場註定艱難但必須爭勝的戰鬥。在此之前,柯潔專門研究了AlphaGo喜歡的三三式,並在比賽中應用。

而在這一年中,AlphaGo從對陣李世石時的第18代,

反覆運算為對陣柯潔時的第60代。快速反覆運算的背後,是AlphaGo全新的深度學習邏輯。這種經歷反覆運算的深度學習邏輯,其強大力讓人難以望其項背。

深度學習的兩次邏輯變更

2016年在AlphaGo以4:1大勝李世石後,人工智慧再次進入大眾的視野,而在這場世紀“人機大戰”後,Deepmind隨即宣佈“阿爾法狗”進入閉關狀態。

直到2016年12月29日,神秘的AlphaGo才化身為Master再次複出。隨後其在短短一周內,擊敗了包括目前中韓第一人柯潔和樸廷桓,以及古力、陳耀燁、範廷鈺、常昊等10多位中韓世界冠軍,豪取60連勝,就連原來信心滿滿的柯潔也對此也一改以往自信狂傲的口吻,聲稱自己很可能全輸給AlphaGo。

而前兩次人機對決的場景還歷歷在目,第三次人機大戰卻已悄然來臨,

但整個人類世界對於兩方選手的感情卻發生了顛覆性的變化,一邊倒的認為柯潔必輸。

那麼這一年時間裡AlphaGo身上究竟發生了什麼?居然讓輿論變化如此之大,這無疑源於人們對AlphaGo瞭解的加深。

與李世石對戰的AlphaGo 1.0版混合了三種演算法:蒙特卡洛樹搜索+監督學習+增強學習。其中,蒙特卡洛樹搜索是一種優化過的暴力計算,比1997年深藍的暴力計算更聰明。而這裡的監督學習,

是通過學習3000萬步人類棋譜,對六段以上職業棋手走棋規律進行模仿,也是AlphaGo獲得突破性進展的關鍵演算法。而增強學習作為輔助,是兩台AlphaGo從自我對戰眾中學習如何下棋,對棋力提升有限。

此次AlphaGo2.0的技術原理已有顛覆式改變。首先是放棄了監督學習,沒有再用人的3000萬局棋譜進行訓練。這本是AlphaGo最亮眼的演算法,也是今天主流機器學習不可避免的核心條件:依賴於優質的資料,在這個特定問題下就這麼被再次突破了。

其次,放棄了蒙特卡洛樹搜索,不再進行暴力計算。理論上,演算法越笨,就越需要暴力計算做補充。演算法越聰明,就可以大大減少暴力計算。從AlphaGo 2.0的“馬甲”Master的歷史行為看,走棋非常迅速,約在每10秒鐘就走棋一步,如此速度很可能是放棄了暴力的計算。

再次,極大地強化了增強學習的作用,之前敲邊鼓的演算法,正式成為扛把子主力。想想看有多勵志:兩台白癡機器,遵守走棋和獲勝規則,從隨機走棋開始日夜切磋,總結經驗,不斷批評和自我批評,一周後終成大器。

通俗地講,1.0版本的AlphaGo尚需借助人類棋譜來增長功力,而新版阿爾法狗2.0已正式摒棄人類棋譜,只靠電腦自身深度學習的方式成長——即探索“深度學習”方式的極限,臻至“圍棋之神”的境界。所以,它現在在圍棋方面儼然打通了任督二脈,人類根本找不到其脈搏。

而在今年 4 月,AlphaGo 之父哈薩比斯在英國劍橋大學進行了演講,專門提到為了幫助 AlphaGo 提升。他公開表示,之前 AlphaGo 提升一個版本需要 3 個月,現在只需要 1 周。AlphaGo 對陣李世石時的版本號是 V18,而當下的版本估計已經到了 V60,在邏輯上和棋局策略上已經今非昔比。

誠如哈薩比斯所說,AlphaGo證明了人類3000年來在圍棋上犯了一個大錯,其僅憑兩台機器自我對弈中學習和進化,最終不僅趕超了人類進化的速度,還發展出一套截然不同的下棋方法,並且更加接近完美的狀態,實現了對人類的碾壓,重演了一部圍棋的進化史,而且得出了與這兩千年來不同的進化結果。

如今,人工智慧已經上升為國家戰略,而在2017年業界的聲音也的確進入了該領域的下一個階段——更加強調人工智慧技術的落地。未來社會每個人身邊獨有一個人工智慧助手,人類將從簡單重複的勞動中解脫出來。

人工智慧產業風口已來

不過,柯潔輸給AlphaGo並不代表人類敗給了人工智慧,因為這種對抗從來不是技術與人關係的實質。人工智慧的出現從來不是作為人類的對手,而是作為人類的助手。

就好像現在多數人應該都覺得,讓人和汽車比誰跑得快,連娛樂價值都沒有了,而如何利用汽車、利用無人駕駛讓我們的生活更方便,才是更有價值的探索方向。這也是穀歌一直所追求的“如何讓機器更智慧,如何讓人的生活更好”,而且阿爾法狗後面站著的實際上就是人類本身。

而隨著阿爾法狗在深度學習領域的示範效應,深度學習有望進一步加速滲透至各個行業,垂直行業的資訊化公司有望充分利用深度學習提升行業智慧水準。目前,穀歌、微軟、 Facebook、百度等巨頭紛紛開源深度學習框架,大大降低開發深度學習系統應用門檻,加速滲透至各個行業,包括金融、醫療、服務機器人、法律、無人駕駛、教育、氣象、農業等,垂直行業的資訊化公司有望迎來發展良機。2017年被業內評價為人工智慧應用元年。

基於人工智慧巨大的發展空間,國內相關上市公司也將迎來發展契機。阿裡雲、騰訊、百度、科大訊飛等行業巨頭,大疆、華大基因、柔宇科技等創新企業正在人工智慧領域開始耕耘。

而相較于在原創性研究領域的薄弱,中國在AI應用方面具有獨特的優勢:一方面政府統一規劃使得國內在人工智慧方面的投入可能取得更好成果,另一方面國內巨大的市場需求,將促使人工智慧在產業應用的落地加快,最終產生一些在國外無法實現的應用模式。

在AlphaGo不斷反覆運算深度學習邏輯的同時,人類在不斷拓寬對人工智慧的應用。在這一場永不停歇的人機大戰中,誰是最終的贏家,結局已經註定。

– END –

在這個特定問題下就這麼被再次突破了。

其次,放棄了蒙特卡洛樹搜索,不再進行暴力計算。理論上,演算法越笨,就越需要暴力計算做補充。演算法越聰明,就可以大大減少暴力計算。從AlphaGo 2.0的“馬甲”Master的歷史行為看,走棋非常迅速,約在每10秒鐘就走棋一步,如此速度很可能是放棄了暴力的計算。

再次,極大地強化了增強學習的作用,之前敲邊鼓的演算法,正式成為扛把子主力。想想看有多勵志:兩台白癡機器,遵守走棋和獲勝規則,從隨機走棋開始日夜切磋,總結經驗,不斷批評和自我批評,一周後終成大器。

通俗地講,1.0版本的AlphaGo尚需借助人類棋譜來增長功力,而新版阿爾法狗2.0已正式摒棄人類棋譜,只靠電腦自身深度學習的方式成長——即探索“深度學習”方式的極限,臻至“圍棋之神”的境界。所以,它現在在圍棋方面儼然打通了任督二脈,人類根本找不到其脈搏。

而在今年 4 月,AlphaGo 之父哈薩比斯在英國劍橋大學進行了演講,專門提到為了幫助 AlphaGo 提升。他公開表示,之前 AlphaGo 提升一個版本需要 3 個月,現在只需要 1 周。AlphaGo 對陣李世石時的版本號是 V18,而當下的版本估計已經到了 V60,在邏輯上和棋局策略上已經今非昔比。

誠如哈薩比斯所說,AlphaGo證明了人類3000年來在圍棋上犯了一個大錯,其僅憑兩台機器自我對弈中學習和進化,最終不僅趕超了人類進化的速度,還發展出一套截然不同的下棋方法,並且更加接近完美的狀態,實現了對人類的碾壓,重演了一部圍棋的進化史,而且得出了與這兩千年來不同的進化結果。

如今,人工智慧已經上升為國家戰略,而在2017年業界的聲音也的確進入了該領域的下一個階段——更加強調人工智慧技術的落地。未來社會每個人身邊獨有一個人工智慧助手,人類將從簡單重複的勞動中解脫出來。

人工智慧產業風口已來

不過,柯潔輸給AlphaGo並不代表人類敗給了人工智慧,因為這種對抗從來不是技術與人關係的實質。人工智慧的出現從來不是作為人類的對手,而是作為人類的助手。

就好像現在多數人應該都覺得,讓人和汽車比誰跑得快,連娛樂價值都沒有了,而如何利用汽車、利用無人駕駛讓我們的生活更方便,才是更有價值的探索方向。這也是穀歌一直所追求的“如何讓機器更智慧,如何讓人的生活更好”,而且阿爾法狗後面站著的實際上就是人類本身。

而隨著阿爾法狗在深度學習領域的示範效應,深度學習有望進一步加速滲透至各個行業,垂直行業的資訊化公司有望充分利用深度學習提升行業智慧水準。目前,穀歌、微軟、 Facebook、百度等巨頭紛紛開源深度學習框架,大大降低開發深度學習系統應用門檻,加速滲透至各個行業,包括金融、醫療、服務機器人、法律、無人駕駛、教育、氣象、農業等,垂直行業的資訊化公司有望迎來發展良機。2017年被業內評價為人工智慧應用元年。

基於人工智慧巨大的發展空間,國內相關上市公司也將迎來發展契機。阿裡雲、騰訊、百度、科大訊飛等行業巨頭,大疆、華大基因、柔宇科技等創新企業正在人工智慧領域開始耕耘。

而相較于在原創性研究領域的薄弱,中國在AI應用方面具有獨特的優勢:一方面政府統一規劃使得國內在人工智慧方面的投入可能取得更好成果,另一方面國內巨大的市場需求,將促使人工智慧在產業應用的落地加快,最終產生一些在國外無法實現的應用模式。

在AlphaGo不斷反覆運算深度學習邏輯的同時,人類在不斷拓寬對人工智慧的應用。在這一場永不停歇的人機大戰中,誰是最終的贏家,結局已經註定。

– END –