在2016年3月份, 正當李世石與AlphaGo進行人機大戰的時候, 我曾經寫過一篇“人工智慧的里程碑:從深藍到AlphaGo”, 自從1997年深藍戰勝卡斯帕羅夫之後, 隨著電腦硬體水準的提高, 電腦象棋(包括國際象棋和中國象棋)水準有了很大的提高, 達到了可以戰勝人類最高棋手的水準。
但是, 長期以來, 在電腦圍棋上進展卻十分緩慢, 在2006年引入了蒙特卡洛樹搜索方法之後, 也只能達到業餘5段的水準。 所以AlphaGo戰勝韓國棋手李世石, 確實是人工智慧發展歷程上的一個里程碑式的事件。
人機再戰的意義可能不大了
從人工智慧研究的角度來說,
當年的深藍還是一個專用設備, IBM甚至為了提高計算速度, 而研製了專用的晶片(據說該晶片只能用於下國際象棋)。 但是萬事開頭難, 隨著電腦計算能力的提高, 今天即便在普通電腦上, 也可以達到甚至超過當年深藍的水準。 以至於在國際象棋比賽中, 出現過棋手借去廁所的機會, 讓電腦幫忙出招的醜聞, 在現在的國際象棋比賽中, 已經明確禁止利用各種計算設備,
深藍對卡斯帕羅夫的比賽現場
就在2016年即將過去的時候, 在網路上突然出現一個名為Master的電腦圍棋程式, 在網上快棋賽中, 連勝包括中日韓三國高手在內的人類棋手, 取得連勝60場的輝煌戰績。
為什麼AlphaGo會重出江湖呢?我想可以從AlphaGo與深藍的不同來考慮。
AlphaGo的成功是深度學習的勝利?錯了!
深藍採用的是α-β搜索框架, 加上大量的人類知識, 在技術上已經沒有什麼發展空間。 而AlphaGo採用的是蒙特卡洛樹搜索框架, 加上深度學習和深度強化學習。
在這樣一個框架下, 深度學習, 尤其是深度強化學習在電腦圍棋上的天花板究竟有多高?還是一個未知數, 從技術的角度來說, 還有很大的研究空間, 我想這是AlphaGo重出江湖的重要原因, 圍棋在這裡只是作為一個應用物件, 目的還是研究強化學習等方法。
順便在這裡說一下, 有人認為AlphaGo的成功是深度學習的勝利, 我認為這一看法是片面的。
具體來說, 蒙特卡洛樹搜索引入到電腦圍棋中,
因此, 在今天深度學習大熱的情況下, 不能忽視傳統方法的作用。 傳統方法與深度學習具有互補性, 應該加強這方面的研究, 而不是一窩蜂式的湧向深度學習。
韓國棋手李世石對戰AlphaGo
那麼這次的Master與去年3月份的AlphaGo有什麼不同呢(為了敘述方便, 下文中AlphaGo特指去年3月的版本, Master特指現在的版本)?
到目前為止, DeepMind公司還沒有透露出任何資訊, 只能從表面現象去分析、猜測。 我並不懂圍棋, 為了瞭解Master的特點, 在網上看了不少專業棋手對Master棋譜的分析, 一個突出的感受是, Master常常會走出一些超出職業棋手想像的驚人之步, 很多高手連呼看不懂, 但又找不出其破綻。
鑒於此,我曾經給出一個猜測:“AlphaGo訓練時用到了16萬人類棋譜,加上自己左右互搏產生的3000萬棋譜,以及人類總結的幾萬個模式。而這次的Master很可能是從0開始學習得到的結果(指沒有利用任何人類棋譜和知識,依靠基於強化學習的左右互搏進行學習),在蒙特卡洛搜尋樹的框架下,加上深度強化學習方法,是可以做得到的。這也是為什麼Master讓職業棋手感覺到被顛覆的原因,因為沒有任何人類的影響。
AlphaGo在去年3月時雖然驚人的走法,但好像沒有這次多,也沒有這次大膽,因為3月的AlphaGo利用了16萬的人類棋譜和數萬個人類總結的模式”。雖然事後DeepMind公司說Master還是用了人類棋譜,但是很可能更加加強了基於強化學習的左右互搏的成分,弱化了人類棋譜的作用。事實上,DeepMind公司也確實在試探從0學習的系統,雖然還沒有推出。
在我的“人工智慧導論”課上,學生要完成一個大作業,就是實現一個簡單的下棋程式,最初幾年,學生基本是採用α-β剪枝的方法,要自己總結很多模式出來,後來漸漸的採用蒙特卡洛樹搜索方法的同學逐年增加,到現在基本沒有同學用α-β剪枝方法了,也不再需要人為總結什麼模式了,基本都是從0開始,而且水準也是逐年提高,絕大多數同學都難於戰勝自己的程式。
當然,大作業的棋類比較簡單,遠遠無法跟圍棋比,但是越來越不依賴於人類棋譜、知識,應該是一個發展趨勢,圍棋也應該可以實現,可能還需要更強大的計算平臺的支持。關於大作業,我曾在2013年的博客中有過簡單的總結,表明過類似的看法,有興趣的讀者可以參見《由大作業想到的》這篇博客
http://blog.sina.com.cn/s/blog_73040b820101bwrl.html。
DeepMind讓AlphaGo成功的兩大因素
深藍、沃森和AlphaGo都可以算是人工智慧發展史上里程碑式的事件,那麼他們之間有哪些相同與不同呢?
關於相同點,我想可以總結為一句話:在一個特定領域,利用人類提供的資料或者知識,採用已有的技術,戰勝該領域最高水準的人類。
深藍是一個國際象棋程式,採用的是60年代就提出的α-β剪枝演算法,IBM公司聘請了若干個國際象棋特級大師總結下棋的模式和知識,用於對局面的評估。最終于1997年戰勝了連續10年國際象棋世界冠軍卡斯帕羅夫。
沃森是IBM為了紀念公司成立100周年研發的一個問答系統,其名稱是為了紀念IBM公司的創始人ThomasJ.Watson先生。2011年在美國最受歡迎的智力競猜電視節目《危險邊緣》中,沃森擊敗該節目歷史上兩位最成功的選手肯·詹寧斯和布拉德·魯特,成為《危險邊緣》節目新的王者。
在沃森系統中,共採用了100多項與自然語言處理、知識問答相關的技術,利用《危險邊緣》節目創始以來40多年的問題與答案進行訓練,存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數百萬份資料,在3秒內可以給出一個問題的答案。
沃森參加電視節目《危險邊緣》,中間是沃森,兩邊是肯·詹寧斯和布拉德·魯特
AlphaGo在蒙特卡洛樹搜索的框架下,利用深度學習和強化學習技術進行訓練和評估,其中用到了人類棋手以往的16萬盤棋譜,以及AlphaGo自己左右互搏產生的3000萬盤棋譜,並用到了人類總結的幾萬個模式,綜合運用這些技術,實現了高水準的圍棋程式,並於2016年3月以4:1的成績戰勝了韓國圍棋職業高手李世石。
這些技術也並不是新技術,但是DeepMind公司有所創新,主要包括兩個方面,一個是發展了強化學習技術,二是將傳統的搜索技術與深度學習在圍棋這個平臺上,很好地結合在一起,實現了理性與感性的良好融合。這可能是AlphaGo成功的關鍵所在。
這是他們共同的部分,那麼這三個系統有哪些不同呢?三個系統完全是三個不同的領域,不同點自然很多,下面只從技術是否通用,以及通用程度方面展開討論。
沃森比AlphaGo更具商用性,為何?
深藍採用的α-β剪枝演算法是專門用於雙人博弈問題的演算法,雖然也有人將該方法用於其他方面,比如故障診斷的測試點選擇,但應用面是非常有限的,是一個非常專用的演算法。也曾聽有人介紹說IBM會把相關方法用於風險投資,但事後也沒有聽到相關消息。這也可能是IBM不再繼續投入開展研究的原因吧?
AlphaGo則有很大的不同,深度學習是個通用方法,已經在很多領域得到很好的應用,強化學習也具有一定的通用性,並且DeepMind對其有所發展和創新,在圍棋這個平臺上可以繼續開展研究,也可以推廣到其他領域。
但是圍棋這類博弈遊戲有一個特點,其最終的勝負可以自動判斷,不需要人類標注,這就為系統自身的左右互搏、強化學習提供了很大的便利條件,如果在其他領域應用,需要定義合適的優化條件才可行。
在三個里程碑式的事件中,我認為最具通用性的是沃森,它採用了100多項與自然語言處理、知識問答相關的技術,這些技術可以在很多應用領域發揮作用,不僅僅是用於問答,IBM公司把相關技術稱之為認知計算。IBM公司以此為契機,成立了沃森集團,專注於認知計算的研究和應用,已經在醫療健康領域取得了很好的成果。
因此,從通用性和商用性的角度來說,三個系統中排名第一的是沃森,其系統只要結合相關領域的資料,可以很快進行商用轉化,提供服務;其次是AlphaGo,直接轉換到其他領域,提供商用服務的可能性不大,但其技術可以應用於其他領域;排在最後的就是深藍了,向其他領域轉化的可能性很小。
AlphaGo打敗了人類,圍棋就沒意義了?
AlphaGo(包括Master)的出現,對於圍棋有什麼影響呢?有人認為這會毀了圍棋,人類根本就戰勝不了機器,再學習圍棋還有什麼意義呢?我認為這種看法是不正確的。AlphaGo的出現,說明人類對圍棋的認識遠遠不夠,在電腦的輔助下研究圍棋,必將對圍棋有新的認識,就如同當年吳清源先生的出現一樣,即將開啟圍棋的新天地。
其實圍棋界也有類似的認識。職業棋手古力說,“我深深地感受到圍棋的神秘,似乎‘大師’(指Master)給我們打開一道圍棋的神秘之門。不論勝負,人類與人工智慧共同探索圍棋世界的大幕即將拉開,新一次的圍棋革命正在進行著”。
職業棋手排名第一的柯潔也提到,“人類數千年的實戰演練進化,電腦卻告訴我們人類全是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊。但我想說,從現在開始,我們棋手將結合電腦,邁進全新的領域、達到全新的境界。新的風暴即將來襲,我將盡我所有的智慧終極一戰!”
從科學發展史上來看,每次危機的出現,都預示著新的革命即將開始,比如數學上的幾次悖論的出現,都孕育出新的數學方法,極大地推進了數學的發展。我們期待著AlphaGo能開放出來,可以讓棋手們自由地與它對弈,甚至可以像圍棋複盤一樣,和電腦一起探索可能的走法,勝負已經不是關鍵,重要的是發展新的圍棋理論,讓圍棋走向一個新天地。
作者簡介:
馬少平老師,清華大學電腦系教授,博士生導師,中國人工智慧學會副理事長,中國中文資訊學會副理事長。主要研究方向為智慧資訊處理,包括文本資訊檢索、網路使用者行為分析、個性化推薦、社交媒體分析等。透露兩個事實,其一,著名的亞一爬,梁博,Penny,梁斌博士,就是馬老師的PhD!其二,馬老師還是我們奧森十公里的活躍成員,動不動就能以530配速跑十公里。有想上人工智慧博士的,好好和馬老師套套詞。
本文由馬老師授權轉發。
鑒於此,我曾經給出一個猜測:“AlphaGo訓練時用到了16萬人類棋譜,加上自己左右互搏產生的3000萬棋譜,以及人類總結的幾萬個模式。而這次的Master很可能是從0開始學習得到的結果(指沒有利用任何人類棋譜和知識,依靠基於強化學習的左右互搏進行學習),在蒙特卡洛搜尋樹的框架下,加上深度強化學習方法,是可以做得到的。這也是為什麼Master讓職業棋手感覺到被顛覆的原因,因為沒有任何人類的影響。
AlphaGo在去年3月時雖然驚人的走法,但好像沒有這次多,也沒有這次大膽,因為3月的AlphaGo利用了16萬的人類棋譜和數萬個人類總結的模式”。雖然事後DeepMind公司說Master還是用了人類棋譜,但是很可能更加加強了基於強化學習的左右互搏的成分,弱化了人類棋譜的作用。事實上,DeepMind公司也確實在試探從0學習的系統,雖然還沒有推出。
在我的“人工智慧導論”課上,學生要完成一個大作業,就是實現一個簡單的下棋程式,最初幾年,學生基本是採用α-β剪枝的方法,要自己總結很多模式出來,後來漸漸的採用蒙特卡洛樹搜索方法的同學逐年增加,到現在基本沒有同學用α-β剪枝方法了,也不再需要人為總結什麼模式了,基本都是從0開始,而且水準也是逐年提高,絕大多數同學都難於戰勝自己的程式。
當然,大作業的棋類比較簡單,遠遠無法跟圍棋比,但是越來越不依賴於人類棋譜、知識,應該是一個發展趨勢,圍棋也應該可以實現,可能還需要更強大的計算平臺的支持。關於大作業,我曾在2013年的博客中有過簡單的總結,表明過類似的看法,有興趣的讀者可以參見《由大作業想到的》這篇博客
http://blog.sina.com.cn/s/blog_73040b820101bwrl.html。
DeepMind讓AlphaGo成功的兩大因素
深藍、沃森和AlphaGo都可以算是人工智慧發展史上里程碑式的事件,那麼他們之間有哪些相同與不同呢?
關於相同點,我想可以總結為一句話:在一個特定領域,利用人類提供的資料或者知識,採用已有的技術,戰勝該領域最高水準的人類。
深藍是一個國際象棋程式,採用的是60年代就提出的α-β剪枝演算法,IBM公司聘請了若干個國際象棋特級大師總結下棋的模式和知識,用於對局面的評估。最終于1997年戰勝了連續10年國際象棋世界冠軍卡斯帕羅夫。
沃森是IBM為了紀念公司成立100周年研發的一個問答系統,其名稱是為了紀念IBM公司的創始人ThomasJ.Watson先生。2011年在美國最受歡迎的智力競猜電視節目《危險邊緣》中,沃森擊敗該節目歷史上兩位最成功的選手肯·詹寧斯和布拉德·魯特,成為《危險邊緣》節目新的王者。
在沃森系統中,共採用了100多項與自然語言處理、知識問答相關的技術,利用《危險邊緣》節目創始以來40多年的問題與答案進行訓練,存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數百萬份資料,在3秒內可以給出一個問題的答案。
沃森參加電視節目《危險邊緣》,中間是沃森,兩邊是肯·詹寧斯和布拉德·魯特
AlphaGo在蒙特卡洛樹搜索的框架下,利用深度學習和強化學習技術進行訓練和評估,其中用到了人類棋手以往的16萬盤棋譜,以及AlphaGo自己左右互搏產生的3000萬盤棋譜,並用到了人類總結的幾萬個模式,綜合運用這些技術,實現了高水準的圍棋程式,並於2016年3月以4:1的成績戰勝了韓國圍棋職業高手李世石。
這些技術也並不是新技術,但是DeepMind公司有所創新,主要包括兩個方面,一個是發展了強化學習技術,二是將傳統的搜索技術與深度學習在圍棋這個平臺上,很好地結合在一起,實現了理性與感性的良好融合。這可能是AlphaGo成功的關鍵所在。
這是他們共同的部分,那麼這三個系統有哪些不同呢?三個系統完全是三個不同的領域,不同點自然很多,下面只從技術是否通用,以及通用程度方面展開討論。
沃森比AlphaGo更具商用性,為何?
深藍採用的α-β剪枝演算法是專門用於雙人博弈問題的演算法,雖然也有人將該方法用於其他方面,比如故障診斷的測試點選擇,但應用面是非常有限的,是一個非常專用的演算法。也曾聽有人介紹說IBM會把相關方法用於風險投資,但事後也沒有聽到相關消息。這也可能是IBM不再繼續投入開展研究的原因吧?
AlphaGo則有很大的不同,深度學習是個通用方法,已經在很多領域得到很好的應用,強化學習也具有一定的通用性,並且DeepMind對其有所發展和創新,在圍棋這個平臺上可以繼續開展研究,也可以推廣到其他領域。
但是圍棋這類博弈遊戲有一個特點,其最終的勝負可以自動判斷,不需要人類標注,這就為系統自身的左右互搏、強化學習提供了很大的便利條件,如果在其他領域應用,需要定義合適的優化條件才可行。
在三個里程碑式的事件中,我認為最具通用性的是沃森,它採用了100多項與自然語言處理、知識問答相關的技術,這些技術可以在很多應用領域發揮作用,不僅僅是用於問答,IBM公司把相關技術稱之為認知計算。IBM公司以此為契機,成立了沃森集團,專注於認知計算的研究和應用,已經在醫療健康領域取得了很好的成果。
因此,從通用性和商用性的角度來說,三個系統中排名第一的是沃森,其系統只要結合相關領域的資料,可以很快進行商用轉化,提供服務;其次是AlphaGo,直接轉換到其他領域,提供商用服務的可能性不大,但其技術可以應用於其他領域;排在最後的就是深藍了,向其他領域轉化的可能性很小。
AlphaGo打敗了人類,圍棋就沒意義了?
AlphaGo(包括Master)的出現,對於圍棋有什麼影響呢?有人認為這會毀了圍棋,人類根本就戰勝不了機器,再學習圍棋還有什麼意義呢?我認為這種看法是不正確的。AlphaGo的出現,說明人類對圍棋的認識遠遠不夠,在電腦的輔助下研究圍棋,必將對圍棋有新的認識,就如同當年吳清源先生的出現一樣,即將開啟圍棋的新天地。
其實圍棋界也有類似的認識。職業棋手古力說,“我深深地感受到圍棋的神秘,似乎‘大師’(指Master)給我們打開一道圍棋的神秘之門。不論勝負,人類與人工智慧共同探索圍棋世界的大幕即將拉開,新一次的圍棋革命正在進行著”。
職業棋手排名第一的柯潔也提到,“人類數千年的實戰演練進化,電腦卻告訴我們人類全是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊。但我想說,從現在開始,我們棋手將結合電腦,邁進全新的領域、達到全新的境界。新的風暴即將來襲,我將盡我所有的智慧終極一戰!”
從科學發展史上來看,每次危機的出現,都預示著新的革命即將開始,比如數學上的幾次悖論的出現,都孕育出新的數學方法,極大地推進了數學的發展。我們期待著AlphaGo能開放出來,可以讓棋手們自由地與它對弈,甚至可以像圍棋複盤一樣,和電腦一起探索可能的走法,勝負已經不是關鍵,重要的是發展新的圍棋理論,讓圍棋走向一個新天地。
作者簡介:
馬少平老師,清華大學電腦系教授,博士生導師,中國人工智慧學會副理事長,中國中文資訊學會副理事長。主要研究方向為智慧資訊處理,包括文本資訊檢索、網路使用者行為分析、個性化推薦、社交媒體分析等。透露兩個事實,其一,著名的亞一爬,梁博,Penny,梁斌博士,就是馬老師的PhD!其二,馬老師還是我們奧森十公里的活躍成員,動不動就能以530配速跑十公里。有想上人工智慧博士的,好好和馬老師套套詞。
本文由馬老師授權轉發。