穀歌DeepMind最新：讓機器保留學習記憶，向類人智慧邁進

分類＼科技
時間＼2017-03-15

大資料文摘作品，轉載要求見文末

翻譯 | 姜范波，Aileen

---------------

導讀：和人腦不同，

電腦程式學習執行一項任務後，通常也會很快地忘記它們。而DeepMind這項最新研究通過修改學習規則，程式在學習一個新任務時，還能記得起老任務。這樣的程式，能夠持續地、自我調整地學習，無疑這是程式邁向更加智慧化的重要一步。

電腦程式學習執行一項任務後，

通常也會很快地忘記它們。相比之下，我們的大腦以非常不同的方式工作。我們能夠逐步學習，一次獲得一個技能，並在學習新任務時運用我們以前的知識。作為起點，DeepMind在最近的PNAS文章裡，提出一種方法來克服神經網路中的災難性遺忘。靈感源自神經科學關於哺乳動物和人類大腦鞏固化既往獲得的技能和記憶的理論。

神經科學家已經發現，

在大腦中有兩種固化方法：系統固化和突觸固化。系統固化是指將我們大腦的快速學習過程獲取的記憶印記到緩慢學習過程。這種印記由有意識的和無意識的回憶所介導的—例如，這可能在夢中發生。第二種機制突觸固化，則是指那些在既往學習任務中扮演重要角色的神經元之間的連接，不太可能被重寫。我們的演算法，就是從這種機制中得到靈感，來解決災難性忘記的問題。

一個神經網路由多個連接組成，其連接方式與大腦的神經元之間的連接方式相同。某個學習任務完成後，我們計算每個連接對該任務的重要性。當我們學習下一個新的任務時，按照每個連接對舊任務的重要性的比例，保護它們免受修改。因此，可以學習新任務而不重寫在先前任務中已經學習的內容，並且不會引起顯著的計算成本增加。用數學術語來說，

我們可以認為在一個新任務中每個連接所附加的保護比作彈簧，彈簧的強度與其連接的重要性成比例。為此，我們稱之為“彈性權重固化”（ Elastic Weight Consolidation ， EWC）。

為了測試我們的演算法，我們讓程式依次學習一個Atari遊戲。當DeepMind在2014年突破性地教它的機器學習系統如何玩Atari遊戲時，

系統可以學會擊敗遊戲，並且得分高於人類，但不記得它是如何做到的。單單從得分來學習一個遊戲是一項具有挑戰性的任務，但是依次學習多個遊戲更具挑戰性，因為每個遊戲需要單獨的策略。如下圖所示，如果沒有EWC，程式會在每個遊戲停止後（藍色）會快速忘記它。這意味著，平均來說，它幾乎沒有學會任何遊戲。然而，如果我們使用EWC（棕色和紅色），程式不會輕易忘記，並可以一個接一個地學會玩好幾個遊戲。

“以前，我們有一個系統，可以學習玩任何遊戲，但它只能學會玩一個遊戲，”James Kirkpatrick，DeepMind的研究科學家，並且其新研究論文的主要作者告訴WIRED。 “在這裡我們展示一個可以學習玩很多個遊戲的系統”。

“我們只允許它們在遊戲之間的變化非常緩慢，”他說。 “這種方式有學習新任務的空間，但我們應用的更改不會覆蓋我們以前學習的演算法”。

為了測試演算法，DeepMind使用深層神經網路，稱為Deep Q-Network (DQN)，它以前曾用來征服Atari遊戲。然而，這次使用EWC演算法來“增強”DQN。它測試了演算法和神經網路上隨機選擇的十個Atari遊戲，這是AI已經證明可以像一個人類玩家一樣好。每個遊戲播放2000萬次之前系統自動移動到下一個Atari遊戲。

使用EWC演算法的深層神經網路能夠學習玩一個遊戲，然後轉移它學到的玩一個全新的遊戲。

然而，系統絕不完美。雖然它能夠從以前的經驗中學習並保留最有用的資訊，但是它不能像只完成一個遊戲的神經網路那樣表現得好。“目前，我們已經展示了順序學習，但我們還沒有證明它是對學習效率的改進，”Kirkpatrick說。 “我們的下一步將嘗試和利用順序學習嘗試和改進現實世界的學習”。

連續學習任務而不忘記的能力是生物和人工智慧的核心組成部分。今天，電腦程式還不能自我調整地、即時地從資料學習。然而，DeepMind已經證明災難性地遺忘並不是神經網路的不可逾越的挑戰。這項研究也推進了我們對固化過程在人類大腦中如何發生的理解。事實上，我們的工作所基於的神經科學理論主要在非常簡單的例子中得到證實。通過將這個理論應用在更現實和複雜的機器學習環境中，我們希望進一步加強對突觸固化在記憶保留中的作用及其機制的研究。

“我們只允許它們在遊戲之間的變化非常緩慢，”他說。 “這種方式有學習新任務的空間，但我們應用的更改不會覆蓋我們以前學習的演算法”。

使用EWC演算法的深層神經網路能夠學習玩一個遊戲，然後轉移它學到的玩一個全新的遊戲。