穀歌DeepMind最新:讓機器保留學習記憶,向類人智慧邁進
大資料文摘作品,轉載要求見文末
翻譯 | 姜范波,Aileen
---------------
導讀:和人腦不同,
電腦程式學習執行一項任務後,
神經科學家已經發現,
一個神經網路由多個連接組成,其連接方式與大腦的神經元之間的連接方式相同。某個學習任務完成後,我們計算每個連接對該任務的重要性。當我們學習下一個新的任務時,按照每個連接對舊任務的重要性的比例,保護它們免受修改。因此,可以學習新任務而不重寫在先前任務中已經學習的內容,並且不會引起顯著的計算成本增加。用數學術語來說,
為了測試我們的演算法,我們讓程式依次學習一個Atari遊戲。當DeepMind在2014年突破性地教它的機器學習系統如何玩Atari遊戲時,
“以前,我們有一個系統,可以學習玩任何遊戲,但它只能學會玩一個遊戲,”James Kirkpatrick,DeepMind的研究科學家,並且其新研究論文的主要作者告訴WIRED。 “在這裡我們展示一個可以學習玩很多個遊戲的系統”。
“我們只允許它們在遊戲之間的變化非常緩慢,”他說。 “這種方式有學習新任務的空間,但我們應用的更改不會覆蓋我們以前學習的演算法”。
為了測試演算法,DeepMind使用深層神經網路,稱為Deep Q-Network (DQN),它以前曾用來征服Atari遊戲。然而,這次使用EWC演算法來“增強”DQN。它測試了演算法和神經網路上隨機選擇的十個Atari遊戲,這是AI已經證明可以像一個人類玩家一樣好。每個遊戲播放2000萬次之前系統自動移動到下一個Atari遊戲。
使用EWC演算法的深層神經網路能夠學習玩一個遊戲,然後轉移它學到的玩一個全新的遊戲。
然而,系統絕不完美。 雖然它能夠從以前的經驗中學習並保留最有用的資訊,但是它不能像只完成一個遊戲的神經網路那樣表現得好。“目前,我們已經展示了順序學習,但我們還沒有證明它是對學習效率的改進,”Kirkpatrick說。 “我們的下一步將嘗試和利用順序學習嘗試和改進現實世界的學習”。
連續學習任務而不忘記的能力是生物和人工智慧的核心組成部分。今天,電腦程式還不能自我調整地、即時地從資料學習。然而,DeepMind已經證明災難性地遺忘並不是神經網路的不可逾越的挑戰。這項研究也推進了我們對固化過程在人類大腦中如何發生的理解。事實上,我們的工作所基於的神經科學理論主要在非常簡單的例子中得到證實。通過將這個理論應用在更現實和複雜的機器學習環境中,我們希望進一步加強對突觸固化在記憶保留中的作用及其機制的研究。
“以前,我們有一個系統,可以學習玩任何遊戲,但它只能學會玩一個遊戲,”James Kirkpatrick,DeepMind的研究科學家,並且其新研究論文的主要作者告訴WIRED。 “在這裡我們展示一個可以學習玩很多個遊戲的系統”。
“我們只允許它們在遊戲之間的變化非常緩慢,”他說。 “這種方式有學習新任務的空間,但我們應用的更改不會覆蓋我們以前學習的演算法”。
為了測試演算法,DeepMind使用深層神經網路,稱為Deep Q-Network (DQN),它以前曾用來征服Atari遊戲。然而,這次使用EWC演算法來“增強”DQN。它測試了演算法和神經網路上隨機選擇的十個Atari遊戲,這是AI已經證明可以像一個人類玩家一樣好。每個遊戲播放2000萬次之前系統自動移動到下一個Atari遊戲。
使用EWC演算法的深層神經網路能夠學習玩一個遊戲,然後轉移它學到的玩一個全新的遊戲。
然而,系統絕不完美。 雖然它能夠從以前的經驗中學習並保留最有用的資訊,但是它不能像只完成一個遊戲的神經網路那樣表現得好。“目前,我們已經展示了順序學習,但我們還沒有證明它是對學習效率的改進,”Kirkpatrick說。 “我們的下一步將嘗試和利用順序學習嘗試和改進現實世界的學習”。
連續學習任務而不忘記的能力是生物和人工智慧的核心組成部分。今天,電腦程式還不能自我調整地、即時地從資料學習。然而,DeepMind已經證明災難性地遺忘並不是神經網路的不可逾越的挑戰。這項研究也推進了我們對固化過程在人類大腦中如何發生的理解。事實上,我們的工作所基於的神經科學理論主要在非常簡單的例子中得到證實。通過將這個理論應用在更現實和複雜的機器學習環境中,我們希望進一步加強對突觸固化在記憶保留中的作用及其機制的研究。