如何讓強化學習採樣變得更簡單？劍橋大學聯合穀歌伯克利提出 Q-Prop

雷鋒網AI科技評論按：ICLR 2017 於4月24-26日在法國土倫舉行，雷鋒網AI科技評論的編輯們近期也在法國帶來一線報導。期間，雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導，敬請期待。

無模型深度增強學習方法在很多模擬領域取得了成功，但將它應用于現實世界的障礙是巨大的採樣複雜度。批策略梯度方法具有穩定性的優勢，但會帶來高方差，需要巨大的批資料。而off-policy的方法如actor-critic和Q-learning雖然採樣效率高，但又帶來偏差。在ICLR 2017會議上，來自劍橋大學的顧世翔（Shixiang Gu）和其他來自穀歌和伯克利的研究者們提出了Q-Prop的方法，

將on-policy和off-policy的優點結合起來，大大降低了強化學習方法的採樣複雜度。並發表論文《Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC》。文中介紹了Q-Prop方法，並通過實驗將其與TRPO， DDPG進行比較。實驗結果顯示Q-Prop具有較高的穩定性和採樣效率。這篇論文獲得了oral paper，並於現場進行了演講展示。

論文摘要

在解決高獎勵信號和無監督的目標導向序列決策問題時，無模型強化學習被認為是一種前途光明的方法。最近它已被用於大規模神經網路策略和價值函數，並且在解決很多複雜問題時取得了成功(Mnih et al., 2015; Schulman et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Gu et al., 2016b; Mnih et al., 2016)。參數化的深度神經網路將人工作業和策略設計的過程最小化。它能夠將多維輸入，比如圖像，端到端地映射成為具體行為輸出。但是即使如此強大的參數化設計仍然引入了一些實際的問題。

深度強化學習對超參數的設定比較敏感，通常需要通過對超參數進行擴展搜索才能找到合適的值。超參數的缺乏將導致學習結果不穩定或者無法收斂。深度強化學習演算法的高採樣複雜性使它很難在實際的物理系統上運行。不過最近的一些技術發展減輕了這方面的問題 (Hasselt, 2010; Mnih et al., 2015; Schulman et al., 2015; 2016)。這些方法在提高穩定性和減少採樣複雜度上提供了一些解決方案。

無模型強化學習包括on-policy和off-policy兩種方法。蒙特卡洛（Monte Carlo）梯度演算法(Peters & Schaal, 2006; Schulman et al., 2015)是一種流行的on-policy方法。它可以提供無偏差的（或近似無偏差）梯度估計，但同時會導致高的方差。為了解決高方差的梯度估計，研究人員提出了一些方法，然而這些方法都需要大量的採樣來解決多維神經網路策略中梯度估計產生高方差的問題。

問題癥結在於這樣的梯度方法只能使用on-plolicy的樣本，這就意味著在每次策略更新參數之後需要採集大量的on-policy樣本。這就對採集樣本的強度提出了非常高的要求。而像Q-learning (Watkins & Dayan, 1992; Sutton et al., 1999; Mnih et al., 2015; Gu et al., 2016b)和actor-critic(Lever, 2014; Lillicrap et al., 2016)等off-policy方法則可以用off-policy的樣本來替代。它們可以使用其他學習過程產生的樣本。這樣的方法大大提高了採樣的效率。不過並不能保證非線性函數逼近能夠收斂。實際上收斂和穩定性有賴於廣泛的超參數調優所能夠達到的最好結果。

為了使強化學習能夠成為在現實世界中能解決實際問題的工具，研究人員必須開發出一種既高效又穩定的方法。研究人員提出的Q-Prop方法就是結合了on-policy梯度方法的優點和off-policy學習高效特點的方法。

與之前的要麼引入偏差(Sutton et al., 1999; Silver et al., 2014) 要麼增加方差(Precup, 2000; Levine & Koltun, 2013; Munos et al., 2016)的off-policy方法不同， Q-Prop能夠在不增加偏差的情況下，降低梯度估計的方差。同時它也與之前需要配合on-policy值函數，基於評價的能降低方差的方法(Schulman et al., 2016)不同， Q-Prop使用off-policy動作值函數（action-value function）。其核心思想是使用一階泰勒展開作為控制變數，這就使解析梯度項用於評價過程，以及包含殘差蒙特卡洛梯度項。這個方法將策略梯度和actor-critc方法結合起來。它既可以被看做使用off-policy的評價過程來減小策略梯度方法帶來的方差，又被看作使用on-policy蒙特卡洛方法來修正評價梯度方法帶來的偏差。研究人員進一步對控制變數進行理論分析，得出Q-Prop另外兩個變體。這種方法可以很容易地用於策略梯度演算法。研究人員展示了Q-Prop在使用GAE（generalized advantage estimation ，

廣義優勢估計）的TRPO（trust region policy optimization ，信賴區域策略優化演算法）過程中帶來的採樣效率的提升，以及在整個連續控制任務中深度確定策略梯度演算法上穩定性的提高。

論文結果展示

圖1：OpenAI Gym MuJoCo域(Brockman et al., 2016; Duan et al., 2016): (a) Ant, (b) HalfCheetah, (c) Hopper, (d) Humanoid, (e) Reacher, (f) Swimmer, (g) Walker

如圖1所示，研究人員使用MuJoCo模擬器，在OpenAI Gym連續控制環境下對Q-Prop和它的變體進行了評估。

圖2a 標準 Q-Prop域各變體的比較；圖2b 在不同批大小情況下，保守Q-Prop與TRPO比較

在Q-Prop各變體和TRPO的比較中可以看出，哪種Q-Prop的變體更加值得信賴。在這一部分，研究人員分析了標準Q-Prop和兩種自我調整變體， c-Q-Prop（保守Q-Prop）和a-Q-Prop（積極Q-Prop），並展示了在不同批大小情況下，它們的穩定性。圖2a展示了在HalfCheetah-v1域下Q-Prop和其變體與TRPO超參數的比較結果。其結果與理論一致：保守Q-Prop相對於標準Q-Prop和積極Q-Prop，具有更好的穩定性。同時所有的Q-Prop變體相對於TRPO都具有更高的採樣效率。比如保守Q-Prop達到4000平均獎勵的片段數差不多只有TRPO的十分之一。

圖2b則展示了在不同批大小情況下保守Q-Prop和TRPO的性能差別。由於梯度估計的高方差，TRPO通常需要很大的批容量，比如為了有良好的表現，需要25000步或每次更新25個片段。而使用Q-Prop的方法，研究人員只需要每次更新1個片段，從而使用小的批容量，大大提高採樣的效率。實驗結果顯示，與之前方法相比，Q-Prop顯著減小了方差。正如前面提到的，穩定性是深度強化學習方法的一大難關，它決定了深度強化學習方法是否能在現實世界使用。

圖3a HalfCheetah-v1域下各演算法的比較；圖3b Humanoid-v1域下各演算法的比較

接下來研究人員評估了兩個版本的保守Q-Prop方法（使用普通策略梯度的v-c-Q-Prop和使用信賴區域的TR-c-Q-Prop）與其他無模型演算法在HalfCheetah-v1域下進行比較。圖3a展示了c-Q-Prop方法相比TRPO和VPG明顯具有優勢。得益於方差的降低，使用普通策略的Q-Prop與TRPO也能取得相近的結果。另一方面，DDPG則顯示了不一致的性能。使用了恰當獎勵標準的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的結果。這顯示出DDPG對超參數設置的敏感性。與DDPG相比，Q-Prop顯示了這方面的穩定性。

表1：Q-Prop，TRPO，DDPG實驗結果對比

最後，研究人員將Q-Prop與TRPO，DDPG在跨域條件下進行了評估。當環境趨於運動時，研究人員希望能取得與Lillicrap et al. (2016)相近的實驗結果。表1總結了實驗結果，包括最好的平均獎勵和收斂需要的片段數。在採樣複雜度上Q-Prop始終優於TRPO。有時，在複雜的域中取得的獎勵甚至超過DDPG。在圖3b中一個值得注意的現象是，在Humanoid-v1域中，Q-Prop相比於TRPO可以持續提升採樣效率，而這時DDPG無法找到好的結果。在複雜域中的良好表現顯示了穩定的深度強化學習演算法的重要性：那些需要大量處理超參數的演算法在處理簡單問題時可能取得較好的結果，但遇到複雜的問題它的不穩定性就會使這種演算法毫無用處。

結論

研究人員展示了Q-Prop，一種結合了可靠性，一致性的策略梯度演算法。它使用控制變數提高了off-policy評價的採樣效率，並且可能使on-policy梯度演算法具有無偏差的特性。相比於TRPO等策略梯度演算法，這種方法大大提高了採樣效率。另一方面，相比於actor-critic演算法，在比如處理人形機器人運動方面，它更具優勢。研究人員希望這種結合了on-policy蒙特卡洛梯度估計演算法和高採樣效率的off-policy評價演算法的方法可以使強化學習更加穩定和高效，並能更好地用於處理現實世界中的複雜任務。

ICLR評論ICLR委員會最終決定

評價：這篇論文對強化學習演算法做出了學術貢獻。它找到了高方差（低偏差）的梯度估計的策略優化方法和低方差（高偏差）的梯度估計off-policy actor-critic方法，比如DDPG之間的結合點。它的基本思想（根據我的理解，與下面一位評論者相似），我們可以基於off-policy學習，使用控制依賴基線來降低梯度的方差，認為我們在進行梯度計算時對它進行了修正。試驗清楚地顯示出這種方法的優勢。它很好地結合了兩種增強學習的趨勢（首要目標就是降低採樣複雜度，在這裡尤為顯著）。我相信這項成果絕對值得我們接受。作者同時積極答覆評論者，並對大家感興趣的問題在手稿中做了調整。

支持：

使用新穎並且吸引人的演算法，對off-policy和on-policy方法很好的貢獻。

在各種控制任務中進行很好的評估。

反對：

有些不好理解，有的地方寫的有些繁雜。

決定：接受（Oral）

很好的主意，但不是一篇研究論文

打分：7分：很好的論文，接受

評論：基於以下的討論，我提出的第二個問題並不正確，我將分數從3分改到7分

這篇文章做出了一個迷人的嘗試：將控制依賴基線（控制變數）引入強化學習，雖然帶來了偏差，但又使用修正項將偏差消除。由於強化學習更新和控制依賴基線使修正項的方差很小，所以結果還不錯。

很有趣的嘗試，使用控制變數提高深度強化學習控制的穩定性

打分：7分：很好的論文，接受

評論：這篇論文將一階泰勒展開作為策略梯度演算法的控制變數。根據理論結果這個演算法可以帶來無偏差和低方差，根據世界結果動態控制任務顯示這個演算法降低了採樣複雜度。

控制變數的使用至關重要，這篇論文是在這個方向上有趣的嘗試。我對這種嘗試不完全肯定，因為這其中有太多的可能性，而理論分析有賴於方差的逼近而不是具體的計算。這就使這樣的嘗試少了一些吸引力。但是，這篇論文實在正確的方向上邁出的一步，值得接受。

使用評估的高效策略梯度演算法

打分：8分：在全部入選論文中排名Top 50%，確定接收

評論：這篇文章展示了一種用於強化學習的無模型策略梯度演算法，它結合了on-policy和off-policy評估。希望連續控制能使用這種高效採樣的方法。這種方法在模擬環境中可以實現低維的連續控制任務。

這篇論文寫得很好，容易讀懂。文中提供了充足的試驗環境幫助讀者領會它提出的觀點。雖然評論者並不是這方面的專家，但文中提出的方法仍然很新穎。 Q-Prop估算器看起來是一種通用並且有效的策略學習方法。試驗結果也充分支持它所聲明的對採樣效率的提高。而補充材料中引出的細節也非常有用。

我喜歡這篇文章，對它也沒有更多的評論。不過，我想在以下兩方面進行討論也許可以增加文章的深度：

1）比較各種方法所產生的計算代價，來代替完成收斂需要的片段數。

2）討論這種技術的局限性：是否在某些情況下難以收斂。

via openreview

同時所有的Q-Prop變體相對於TRPO都具有更高的採樣效率。比如保守Q-Prop達到4000平均獎勵的片段數差不多只有TRPO的十分之一。

圖3a HalfCheetah-v1域下各演算法的比較；圖3b Humanoid-v1域下各演算法的比較

表1：Q-Prop，TRPO，DDPG實驗結果對比

結論

ICLR評論ICLR委員會最終決定

支持：

使用新穎並且吸引人的演算法，對off-policy和on-policy方法很好的貢獻。

在各種控制任務中進行很好的評估。

反對：

有些不好理解，有的地方寫的有些繁雜。

決定：接受（Oral）

很好的主意，但不是一篇研究論文

打分：7分：很好的論文，接受

評論：基於以下的討論，我提出的第二個問題並不正確，我將分數從3分改到7分

很有趣的嘗試，使用控制變數提高深度強化學習控制的穩定性

打分：7分：很好的論文，接受

使用評估的高效策略梯度演算法

打分：8分：在全部入選論文中排名Top 50%，確定接收

我喜歡這篇文章，對它也沒有更多的評論。不過，我想在以下兩方面進行討論也許可以增加文章的深度：

1）比較各種方法所產生的計算代價，來代替完成收斂需要的片段數。

2）討論這種技術的局限性：是否在某些情況下難以收斂。

via openreview

如何讓強化學習採樣變得更簡單？劍橋大學聯合穀歌伯克利提出 Q-Prop | ICLR 2017