DeepMind:人工智慧究竟怎麼長“記性”?
通過給一個神經網路加上“記憶”,DeepMind成功地讓它連續對19個ATARI 2600遊戲進行學習。
作者|李賡
編輯|甲小姐
網址|www.xtecher.com
昨天,一段時間不冒頭,DeepMind又搞了個大新聞——給機器學習加上“記憶能力”。
今天早些時候,DeepMind在《美國國家科學院院刊(PNAS)》上發了一篇最新論文,內容是《神經網路中的“災難性忘卻(catastrophic forgetting)”已經開始著手解決》。
為了能夠加通俗易懂地將這項學術進展表達出來,Xtecher專門採訪了彩雲AI創始人&CEO袁行遠,並讓他從一名人工智慧從業者的角度談了下他的看法。
讓機器人有記憶,DeepMind究竟幹了啥?
首先,我們來解釋一下什麼是“災難性忘卻”(catastrophic forgetting)。
現有人工智慧技術的底層是機器學習技術,也就是利用很多層神經網路來對問題進行量化分析。最終得到一個相對靠譜的神經網路,
那麼我們假設現在有兩個需要學習的新生事物A和B,而我們先後用一套神經網路去學習,就會出現一個非常尷尬的局面:
讓人工智慧學習完A之後學習B,
那種想說一件事,但是因為被打斷突然忘掉了,有多鬱悶你肯定懂。
通俗點來說,雖然這套神經網路能夠同時學習A、B兩種事物,但他們從本質上來說卻不是一個神經網路,因為它並不能同時完成兩項事務。
這個特性就好比一堵“高牆”,
為了解決這個問題,DeepMind此次引入了一套全新的演算法體系EWC(彈性權重鞏固),原理並不複雜。
A、B兩個任務,以及分別對應的兩個神經網路
依舊是A、B兩個需要學習的事物,但在學習完A之後EWC演算法中多出來了一步:根據神經網路中每一個神經元與結果的關係強弱,
袁行遠特別指出:“這次DeepMind進展的關鍵,在於19個遊戲用的是同一個神經網路。”單從這個成績來看,DeepMind這次的實驗已經算成功了。
不得不說,這的確很像人腦的工作方式。因為人類大腦也會左右分工、大腦皮層的不同位置也會負責不同任務。處理具體問題的時候,大腦對應區域自然會運轉起來。而EWC的出現,就是去衡量這些無法同時工作的神經網路應該如何分別留存。
實際上,DeepMind這套演算法的參考物件就是人類和哺乳動物大腦,因為他們都有鞏固先前獲得技能和記憶的能力。根據神經科學目前的研究成果,大腦中主要有兩種鞏固知識的方式系統鞏固(systems consolidation )與突觸鞏固(synaptic consolidation)。
系統鞏固的過程中,人類大腦將快速學習部分獲得的記憶轉印進了緩慢學習的部分。這一轉印過程有有意識的回憶參與,也有無意識回憶的參與,人類做夢時就能完成這一轉印過程。而在突觸鞏固中,如果一種技能在此前的學習中非常重要,神經元之間連接就不會被覆蓋。
而這次DeepMind公佈的EWC演算法,實際就類比了突觸鞏固。但毫無疑問,即便裝備了EWC演算法,人工智慧目前的記憶複雜程度還遠遠比不上人類。
是騾子是馬?拉出來玩幾把遊戲再說
既然演算法有了,自然要測試一下。DeepMind選擇了一個自己熟悉的項目:19款ATARI 2600(一款1977年發佈的經典圖元遊戲主機,之上有數款最經典的遊戲)遊戲。
早在2015年,DeepMind就通過自行研發的神經網路Deep Q,在這些遊戲上得分超過了人類。
還是熟悉的項目,但DeepMind這回在Deep Q基礎上加上了EWC演算法。
同時為了驗證EWC演算法的有效性,他們添加了一個考核條件:每種遊戲只能學習2000萬次,然後就切換到下一個遊戲。當19個遊戲全部被學習一次之後,再從第一個遊戲重新開始學習。
最終他們得到了下面的結果:
注:SGD(藍色)為沒有加上EWC的學習結果,紅色是加上EWC演算法之後,single game(黑色)為持續對單個遊戲進行學習的結果。
需要額外解釋一下的是,這些圖表中橫向座標是學習次數,同時EWC並不是連續學習的結果。EWC每兩個峰穀之間實際上已經學習了另外18個遊戲。
對結果做一個簡單統計:在19個遊戲中,總共有11個EWC成績達到或者接近(以80%計算)single game的成績。
另外一方面,EWC與SGD成績對比也能顯現出很有趣的趨勢:在絕大多數遊戲中,兩者都會在“重新學習”之後發生較明顯的成績下滑,但是EWC的成績通常比SGD高,而且整體波動幅度會越來越小。而這恰恰證明,EWC的確記住了這個遊戲怎麼玩。
但與此同時,我們還能發現另外一些有趣的結果:
1、breakout、star gunner、Asterix這幾款遊戲中,資料的積累非常重要,single game也是在學習量積累到一定程度之後才找到其中的規律,而每個遊戲只能學習2000次的限制讓EWC、SGD都無法取得進展(即便我們繼續增加回合數,希望也很渺茫)。
2、在kangaroo這款遊戲中,不同的學習嘗試似乎反而促進了分數,EWC在數個回個之後曾取得多個超過single game的成績(這跟人類玩遊戲需要狀態、靈感有點類似)。
3、在demon attack、defender、space invaders這幾款遊戲中,EWC在幾個回合之後出現成績下滑。即便後面多個回合繼續研究也沒有起色。這可能是由於學習次數不夠,同時也有可能是因為EWC網路沒有正確選擇應該保留的神經網路元件的結果。
這次實驗證明了EWC的確能夠工作。但不同遊戲下表現差異比較大。如何選擇需要“記憶”的神經網路,每次學習的次數如何決定?這些硬性條件同樣需要演算法來平衡,我們甚至可以說現在的EWC演算法是殘缺的。
袁行遠對這部分實驗也指出了自己的幾個看法:
1、DeepMind選擇ATARI 2600遊戲作為測試樣本有其原因所在,雖然遊戲種類、玩法、成績不同,但輸入都是一致的,這在一定程度上保證了神經網路的通用性質。
2、這次記憶體系的構建並不會直接打通強人工智慧之路,這還是一個非常漫長的道路。
3、神經科學目前的積累基本已經被人工智慧所“掏空”,接下來人工智慧的進展還需要不斷靠嘗試推進。
記憶鋪路,讓強人工智慧早日來臨
正如上文所提到的那樣,引入“記憶”最終是為了前往人工智慧的終極目標——強人工智慧,這也是最理想的道路之一。
袁行遠就此分享了一下目前他所理解的兩條前往強人工智慧的道路——語言與記憶:“就比如AlphaGo,它現在的確很厲害,未來肯定能超過人類。但它目前還不能做到我最希望的一件事,把它下棋的經驗寫出來。這樣雖然它能下過人類,但是人類並不能理解它的思考,那就等於對人類沒有意義。”
那麼怎麼才能讓AlphaGo學會寫書呢?首先就是能夠將AlphaGo的下棋經驗記錄下來,也就是記憶;其次還需要將這些記憶變成人類所能理解的代碼、語言。
當然,此次DeepMind所嘗試的演算法還非常有限,並不能算作一個完整的記憶體系。究竟怎麼樣的記憶才是人工智慧最需要的?袁行遠表示:“記住東西是必須的,關鍵是要能夠變成一本一本的書,也就是能夠輸出一個外部可以接受的成果。這樣不同的人工智慧能夠交換知識,人類也可以進行學習。”
從時間長度來看,這些書本實際可以定義為一個個長期記憶,能夠永久保存、更新就最好了。
至於語言方面,彩雲AI最新產品“彩雲小譯”就是一款人工智慧驅動的翻譯產品。在之前接受Xtecher採訪的時候他也曾強調過:“我們目前在做的是人與人之間語言的翻譯,未來實際上同樣也可以作為機器與人溝通的橋樑。”
最後,我們邀請袁行遠給DeepMind的這次嘗試做了一個評價:“的確有一定啟迪,但是距離強人工智慧還有很遠很遠距離。我倒不擔心強人工智慧會給人類帶來威脅,畢竟他們同樣也可能給人類帶來巨大改變。”
人工智慧,是時候長點“記性”了。
因為人類大腦也會左右分工、大腦皮層的不同位置也會負責不同任務。處理具體問題的時候,大腦對應區域自然會運轉起來。而EWC的出現,就是去衡量這些無法同時工作的神經網路應該如何分別留存。實際上,DeepMind這套演算法的參考物件就是人類和哺乳動物大腦,因為他們都有鞏固先前獲得技能和記憶的能力。根據神經科學目前的研究成果,大腦中主要有兩種鞏固知識的方式系統鞏固(systems consolidation )與突觸鞏固(synaptic consolidation)。
系統鞏固的過程中,人類大腦將快速學習部分獲得的記憶轉印進了緩慢學習的部分。這一轉印過程有有意識的回憶參與,也有無意識回憶的參與,人類做夢時就能完成這一轉印過程。而在突觸鞏固中,如果一種技能在此前的學習中非常重要,神經元之間連接就不會被覆蓋。
而這次DeepMind公佈的EWC演算法,實際就類比了突觸鞏固。但毫無疑問,即便裝備了EWC演算法,人工智慧目前的記憶複雜程度還遠遠比不上人類。
是騾子是馬?拉出來玩幾把遊戲再說
既然演算法有了,自然要測試一下。DeepMind選擇了一個自己熟悉的項目:19款ATARI 2600(一款1977年發佈的經典圖元遊戲主機,之上有數款最經典的遊戲)遊戲。
早在2015年,DeepMind就通過自行研發的神經網路Deep Q,在這些遊戲上得分超過了人類。
還是熟悉的項目,但DeepMind這回在Deep Q基礎上加上了EWC演算法。
同時為了驗證EWC演算法的有效性,他們添加了一個考核條件:每種遊戲只能學習2000萬次,然後就切換到下一個遊戲。當19個遊戲全部被學習一次之後,再從第一個遊戲重新開始學習。
最終他們得到了下面的結果:
注:SGD(藍色)為沒有加上EWC的學習結果,紅色是加上EWC演算法之後,single game(黑色)為持續對單個遊戲進行學習的結果。
需要額外解釋一下的是,這些圖表中橫向座標是學習次數,同時EWC並不是連續學習的結果。EWC每兩個峰穀之間實際上已經學習了另外18個遊戲。
對結果做一個簡單統計:在19個遊戲中,總共有11個EWC成績達到或者接近(以80%計算)single game的成績。
另外一方面,EWC與SGD成績對比也能顯現出很有趣的趨勢:在絕大多數遊戲中,兩者都會在“重新學習”之後發生較明顯的成績下滑,但是EWC的成績通常比SGD高,而且整體波動幅度會越來越小。而這恰恰證明,EWC的確記住了這個遊戲怎麼玩。
但與此同時,我們還能發現另外一些有趣的結果:
1、breakout、star gunner、Asterix這幾款遊戲中,資料的積累非常重要,single game也是在學習量積累到一定程度之後才找到其中的規律,而每個遊戲只能學習2000次的限制讓EWC、SGD都無法取得進展(即便我們繼續增加回合數,希望也很渺茫)。
2、在kangaroo這款遊戲中,不同的學習嘗試似乎反而促進了分數,EWC在數個回個之後曾取得多個超過single game的成績(這跟人類玩遊戲需要狀態、靈感有點類似)。
3、在demon attack、defender、space invaders這幾款遊戲中,EWC在幾個回合之後出現成績下滑。即便後面多個回合繼續研究也沒有起色。這可能是由於學習次數不夠,同時也有可能是因為EWC網路沒有正確選擇應該保留的神經網路元件的結果。
這次實驗證明了EWC的確能夠工作。但不同遊戲下表現差異比較大。如何選擇需要“記憶”的神經網路,每次學習的次數如何決定?這些硬性條件同樣需要演算法來平衡,我們甚至可以說現在的EWC演算法是殘缺的。
袁行遠對這部分實驗也指出了自己的幾個看法:
1、DeepMind選擇ATARI 2600遊戲作為測試樣本有其原因所在,雖然遊戲種類、玩法、成績不同,但輸入都是一致的,這在一定程度上保證了神經網路的通用性質。
2、這次記憶體系的構建並不會直接打通強人工智慧之路,這還是一個非常漫長的道路。
3、神經科學目前的積累基本已經被人工智慧所“掏空”,接下來人工智慧的進展還需要不斷靠嘗試推進。
記憶鋪路,讓強人工智慧早日來臨
正如上文所提到的那樣,引入“記憶”最終是為了前往人工智慧的終極目標——強人工智慧,這也是最理想的道路之一。
袁行遠就此分享了一下目前他所理解的兩條前往強人工智慧的道路——語言與記憶:“就比如AlphaGo,它現在的確很厲害,未來肯定能超過人類。但它目前還不能做到我最希望的一件事,把它下棋的經驗寫出來。這樣雖然它能下過人類,但是人類並不能理解它的思考,那就等於對人類沒有意義。”
那麼怎麼才能讓AlphaGo學會寫書呢?首先就是能夠將AlphaGo的下棋經驗記錄下來,也就是記憶;其次還需要將這些記憶變成人類所能理解的代碼、語言。
當然,此次DeepMind所嘗試的演算法還非常有限,並不能算作一個完整的記憶體系。究竟怎麼樣的記憶才是人工智慧最需要的?袁行遠表示:“記住東西是必須的,關鍵是要能夠變成一本一本的書,也就是能夠輸出一個外部可以接受的成果。這樣不同的人工智慧能夠交換知識,人類也可以進行學習。”
從時間長度來看,這些書本實際可以定義為一個個長期記憶,能夠永久保存、更新就最好了。
至於語言方面,彩雲AI最新產品“彩雲小譯”就是一款人工智慧驅動的翻譯產品。在之前接受Xtecher採訪的時候他也曾強調過:“我們目前在做的是人與人之間語言的翻譯,未來實際上同樣也可以作為機器與人溝通的橋樑。”
最後,我們邀請袁行遠給DeepMind的這次嘗試做了一個評價:“的確有一定啟迪,但是距離強人工智慧還有很遠很遠距離。我倒不擔心強人工智慧會給人類帶來威脅,畢竟他們同樣也可能給人類帶來巨大改變。”
人工智慧,是時候長點“記性”了。