您的位置:首頁>科技>正文

深度神經進化大有可為?Uber詳解如何用它優化強化學習|5篇論文

作者 Kenneth O. Stanley & Jeff Clune

夏乙 編譯自 Uber Engineering Blog

量子位 出品 | 公眾號 QbitAI

在深度學習領域, 目前訓練有很多層和數百萬連接的深度神經網路(DNN)的常規方法, 是隨機梯度下降(SGD)。

很多人認為, SGD有效計算梯度的能力至關重要。

然而, 我們要發佈5篇系列論文, 支援一種正在興起的認識:通過用進化演算法來優化神經網路的神經進化(neuroevolution)也是為強化學習(RL)訓練深度神經網路的一種有效方法。

遺傳演算法是訓練深度神經網路的一種有效替代方法

我們發明了一項新技術來有效地演化DNN, 發現一個極度簡單的遺傳演算法(GA)可以用來訓練有400多萬個參數的深度卷積網路來靠輸入圖元玩雅達利遊戲, 在很多遊戲上勝過了現代的深度強化學習演算法, 比如DQN、A3C、和進化策略(ES), 也因為並行性更好而實現了更快的速度。

這樣的結果會讓人驚訝, 既是因為沒想到不基於梯度的GA能很好地適應這麼大的參數空間,

也是因為沒想到把GA用到RL上能夠實現媲美或超越最先進的技術。

我們進一步表明, GA的新穎性搜索等增強提高了它的能力, 也適用於DNN的規模, 可以促進探索, 解決DQN、A3C、ES、GA等獎勵最大化演算法容易遇到的局部最優等欺騙性問題。

左:GA策略在Frostbite遊戲中得到了10500分,

DQN、A3C、ES等得分不足1000。

右:GA策略玩行星遊戲玩得不錯, 平均分超過了DQN和ES, 但不及A3C。

通過梯度計算實現安全變異

在另一篇論文中, 我們展示了梯度可以與神經進化結合起來, 提高演化迴圈神經網路和非常深的深度神經網路的能力, 實現100層以上DNN的演化, 遠超過以前神經進化可能達到的水準。

我們通過計算網路輸出相對于權重的梯度來實現這一點, 不同于傳統深度學習中的誤差梯度。 這讓我們能校準隨機變異, 來更驚喜地處理最敏感的參數, 也就解決了大型網路隨機突變的主要問題。

△ 兩個動畫分別顯示了一個走迷宮(從左下角到左上角)的網路中的一組變異, 普通變體大多不能到達終點, 而安全變體基本上保留了這種能力, 同時還產生了多樣性, 這說明安全變異具有顯著優勢。

ES和SGD的關係

我們有一篇論文對OpenAI首先提出的一個發現做了補充, 這個發現是:神經元進化策略的變體可以在深度RL任務上對深度神經網路進行有競爭力的優化。 然而到目前為止, 這個結果仍然隱含著大量猜測。

為了給基於ES的進一步探索奠定基礎, 我們進行了全面的研究, 檢測了在MNIST上, ES梯度近似與SGD為每個mini-batch計算出的最佳梯度有多接近, 以及這個近似值要有多接近才能表現良好。 通過這些研究, 我們更深入地探索了ES與SGD的關係。

研究顯示, 如果有足夠的計算力來優化梯度近似, ES在MNIST上可以達到99%的準確率, 這也暗示出了ES在深度強化學習中為什麼越來越具有競爭力:隨著計算力的增加, 沒有哪種方法能獲得完美的梯度資訊。

ES不只是傳統有限差分

還有一項研究, 在經驗上證實了ES在有足夠大的擾動參數時, 行為與SGD不同, 因為它為由概率分佈描述的預期獎勵而優化, 而SGD為一個單獨的策略而優化獎勵, 前者是搜索空間中的一個暈, 而後者是搜索空間中的一個點。

這種不同,讓ES會訪問搜索空間中的不同區域,無論好壞。對一群參數擾動進行整體優化的另一個結果是,ES獲得了SGD所不具備的獎狀性特徵。

強調ES對一群參數進行優化同樣也凸顯了ES和貝葉斯方法之間的聯繫。

△ 傳統有限差分(梯度下降)不能跨越低適應性的窄溝,而ES能夠輕鬆跨越它,到右側尋找更高的適應性。

△ 當高適應性路徑收窄時,ES遲疑了;而傳統的有限差分(梯度下降)沒有任何問題地穿過了相同的路徑。這與上面的視頻一起顯示出了兩種方法的差異和取捨。

增強ES中的探索

深度神經進化的研究帶來了一個非常exciting的結果:為神經進化而開發的那些工具,現在成了加強深度神經網路訓練的備選方法。

為抓住這個領域的機會,我們提出了一種新演算法,將ES的優化能力和可擴展性,與專門用於神經進化的方法——激勵一群agent用不同的方式行動來探索強化學習域兩者結合起來。

後面這種基於群體的探索,與包括深度強化學習最新探索在內的傳統單一agent強化學習方法不同。我們的實驗表明,增加這種新型的探索,能在很多需要通過探索來避開欺騙性局部最優化的領域提高ES的性能,包括一些Atari遊戲和Mujoco模擬器中的人形機器人動作任務。

△ ES(左)和增加了探索方法的ES(右)

用我們的超參數設置,圖左展示的ES會快速收斂到局部最優,agent不會暫時放棄獎勵、上浮獲取氧氣。而加上探索方法之後,agent學會了浮到水面上獲取氧氣,從而在未來獲取更多獎勵。

△ 訓練過程中的獎勵

在沒有探索方法的情況下,ES會無限期地卡在某個局部最優裡面。

結論

對想走近深度神經網路的神經進化研究者來說,有這幾項重要的事情需要考慮:

首先,這類實驗比過去所需要的計算力更高,上文所提及新論文中的實驗,每次運行都同時用到了上百個、甚至上千個CPU。然而,這種對更多CPU或GPU的需求不應該被視作一種負擔,從長遠來看,將進化策略用到大規模平行計算中心所帶來的簡單程度,意味著神經進化可能是未來世界的最佳選擇。

新結果和之前在低維神經進化中觀察到的截然不同,它們有效地推翻了多年以來的直覺,特別是高維搜索的影響。

正如在深度學習中所發現的那樣,在某種複雜性的門檻之上,高維上的搜索其實越來越容易,因為它不易受局部最優的影響。這種在深度學習領域廣為人知的思考方式,正在神經進化領域開始慢慢被消化和理解。

神經進化的再度出現,也是舊演算法和現代計算力良好結合的一個例子,神經進化的可行性很有意思,因為神經進化的研究群體已經開發出來的很多技術可以立即在DNN上規模化使用,每一種技術都為解決挑戰性問題提供了不同的工具。

另外,正如我們在上述論文中提到的,神經進化的搜索方法與SGD不同,因此為機器學習提供了一種有趣的替代性工具。

我們想知道深度神經進化是否會像深度學習一樣復興,如果是這樣,2017年可能就標誌著這個時代的開端,我們也激動於看到今後還會發生什麼。

今天我們發佈的論文共有5篇,以下是它們的下載地址:

Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

http://eng.uber.com/wp-content/uploads/2017/12/deep-ga-arxiv.pdf

Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients

http://eng.uber.com/wp-content/uploads/2017/12/arxiv-sm.pdf

On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent

http://eng.uber.com/wp-content/uploads/2017/12/ES_SGD.pdf

ES Is More Than Just a Traditional Finite Difference Approximator

http://eng.uber.com/wp-content/uploads/2017/12/arxiv-fd.pdf

Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

http://eng.uber.com/wp-content/uploads/2017/12/improving-es-arxiv.pdf

博客原文:

https://eng.uber.com/deep-neuroevolution/

— 完 —

誠摯招聘

而後者是搜索空間中的一個點。

這種不同,讓ES會訪問搜索空間中的不同區域,無論好壞。對一群參數擾動進行整體優化的另一個結果是,ES獲得了SGD所不具備的獎狀性特徵。

強調ES對一群參數進行優化同樣也凸顯了ES和貝葉斯方法之間的聯繫。

△ 傳統有限差分(梯度下降)不能跨越低適應性的窄溝,而ES能夠輕鬆跨越它,到右側尋找更高的適應性。

△ 當高適應性路徑收窄時,ES遲疑了;而傳統的有限差分(梯度下降)沒有任何問題地穿過了相同的路徑。這與上面的視頻一起顯示出了兩種方法的差異和取捨。

增強ES中的探索

深度神經進化的研究帶來了一個非常exciting的結果:為神經進化而開發的那些工具,現在成了加強深度神經網路訓練的備選方法。

為抓住這個領域的機會,我們提出了一種新演算法,將ES的優化能力和可擴展性,與專門用於神經進化的方法——激勵一群agent用不同的方式行動來探索強化學習域兩者結合起來。

後面這種基於群體的探索,與包括深度強化學習最新探索在內的傳統單一agent強化學習方法不同。我們的實驗表明,增加這種新型的探索,能在很多需要通過探索來避開欺騙性局部最優化的領域提高ES的性能,包括一些Atari遊戲和Mujoco模擬器中的人形機器人動作任務。

△ ES(左)和增加了探索方法的ES(右)

用我們的超參數設置,圖左展示的ES會快速收斂到局部最優,agent不會暫時放棄獎勵、上浮獲取氧氣。而加上探索方法之後,agent學會了浮到水面上獲取氧氣,從而在未來獲取更多獎勵。

△ 訓練過程中的獎勵

在沒有探索方法的情況下,ES會無限期地卡在某個局部最優裡面。

結論

對想走近深度神經網路的神經進化研究者來說,有這幾項重要的事情需要考慮:

首先,這類實驗比過去所需要的計算力更高,上文所提及新論文中的實驗,每次運行都同時用到了上百個、甚至上千個CPU。然而,這種對更多CPU或GPU的需求不應該被視作一種負擔,從長遠來看,將進化策略用到大規模平行計算中心所帶來的簡單程度,意味著神經進化可能是未來世界的最佳選擇。

新結果和之前在低維神經進化中觀察到的截然不同,它們有效地推翻了多年以來的直覺,特別是高維搜索的影響。

正如在深度學習中所發現的那樣,在某種複雜性的門檻之上,高維上的搜索其實越來越容易,因為它不易受局部最優的影響。這種在深度學習領域廣為人知的思考方式,正在神經進化領域開始慢慢被消化和理解。

神經進化的再度出現,也是舊演算法和現代計算力良好結合的一個例子,神經進化的可行性很有意思,因為神經進化的研究群體已經開發出來的很多技術可以立即在DNN上規模化使用,每一種技術都為解決挑戰性問題提供了不同的工具。

另外,正如我們在上述論文中提到的,神經進化的搜索方法與SGD不同,因此為機器學習提供了一種有趣的替代性工具。

我們想知道深度神經進化是否會像深度學習一樣復興,如果是這樣,2017年可能就標誌著這個時代的開端,我們也激動於看到今後還會發生什麼。

今天我們發佈的論文共有5篇,以下是它們的下載地址:

Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

http://eng.uber.com/wp-content/uploads/2017/12/deep-ga-arxiv.pdf

Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients

http://eng.uber.com/wp-content/uploads/2017/12/arxiv-sm.pdf

On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent

http://eng.uber.com/wp-content/uploads/2017/12/ES_SGD.pdf

ES Is More Than Just a Traditional Finite Difference Approximator

http://eng.uber.com/wp-content/uploads/2017/12/arxiv-fd.pdf

Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

http://eng.uber.com/wp-content/uploads/2017/12/improving-es-arxiv.pdf

博客原文:

https://eng.uber.com/deep-neuroevolution/

— 完 —

誠摯招聘

Next Article
喜欢就按个赞吧!!!
点击关闭提示