雷鋒網AI科技評論按:ICLR 2017 於4月24-26日在法國土倫舉行, 雷鋒網AI科技評論的編輯們近期也在法國帶來一線報導。 期間, 雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導, 敬請期待。
無模型深度增強學習方法在很多模擬領域取得了成功, 但將它應用于現實世界的障礙是巨大的採樣複雜度。 批策略梯度方法具有穩定性的優勢, 但會帶來高方差, 需要巨大的批資料。 而off-policy的方法如actor-critic和Q-learning雖然採樣效率高, 但又帶來偏差。 在ICLR 2017會議上, 來自劍橋大學的顧世翔(Shixiang Gu)和其他來自穀歌和伯克利的研究者們提出了Q-Prop的方法,
論文摘要
在解決高獎勵信號和無監督的目標導向序列決策問題時, 無模型強化學習被認為是一種前途光明的方法。 最近它已被用於大規模神經網路策略和價值函數, 並且在解決很多複雜問題時取得了成功(Mnih et al., 2015; Schulman et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Gu et al., 2016b; Mnih et al., 2016)。 參數化的深度神經網路將人工作業和策略設計的過程最小化。 它能夠將多維輸入, 比如圖像, 端到端地映射成為具體行為輸出。 但是即使如此強大的參數化設計仍然引入了一些實際的問題。
無模型強化學習包括on-policy和off-policy兩種方法。 蒙特卡洛(Monte Carlo)梯度演算法(Peters & Schaal, 2006; Schulman et al., 2015)是一種流行的on-policy方法。 它可以提供無偏差的(或近似無偏差)梯度估計, 但同時會導致高的方差。 為了解決高方差的梯度估計, 研究人員提出了一些方法, 然而這些方法都需要大量的採樣來解決多維神經網路策略中梯度估計產生高方差的問題。
為了使強化學習能夠成為在現實世界中能解決實際問題的工具, 研究人員必須開發出一種既高效又穩定的方法。 研究人員提出的Q-Prop方法就是結合了on-policy梯度方法的優點和off-policy學習高效特點的方法。
論文結果展示
圖1:OpenAI Gym MuJoCo域(Brockman et al., 2016; Duan et al., 2016): (a) Ant, (b) HalfCheetah, (c) Hopper, (d) Humanoid, (e) Reacher, (f) Swimmer, (g) Walker
如圖1所示, 研究人員使用MuJoCo模擬器, 在OpenAI Gym連續控制環境下對Q-Prop和它的變體進行了評估。
圖2a 標準 Q-Prop域各變體的比較;圖2b 在不同批大小情況下, 保守Q-Prop與TRPO比較
在Q-Prop各變體和TRPO的比較中可以看出, 哪種Q-Prop的變體更加值得信賴。 在這一部分, 研究人員分析了標準Q-Prop和兩種自我調整變體, c-Q-Prop(保守Q-Prop)和a-Q-Prop(積極Q-Prop), 並展示了在不同批大小情況下, 它們的穩定性。 圖2a展示了在HalfCheetah-v1域下Q-Prop和其變體與TRPO超參數的比較結果。 其結果與理論一致:保守Q-Prop相對於標準Q-Prop和積極Q-Prop, 具有更好的穩定性。 同時所有的Q-Prop變體相對於TRPO都具有更高的採樣效率。比如保守Q-Prop達到4000平均獎勵的片段數差不多只有TRPO的十分之一。
圖2b則展示了在不同批大小情況下保守Q-Prop和TRPO的性能差別。由於梯度估計的高方差,TRPO通常需要很大的批容量,比如為了有良好的表現,需要25000步或每次更新25個片段。而使用Q-Prop的方法,研究人員只需要每次更新1個片段,從而使用小的批容量,大大提高採樣的效率。實驗結果顯示,與之前方法相比,Q-Prop顯著減小了方差。正如前面提到的,穩定性是深度強化學習方法的一大難關,它決定了深度強化學習方法是否能在現實世界使用。
圖3a HalfCheetah-v1域下各演算法的比較;圖3b Humanoid-v1域下各演算法的比較
接下來研究人員評估了兩個版本的保守Q-Prop方法(使用普通策略梯度的v-c-Q-Prop和使用信賴區域的TR-c-Q-Prop)與其他無模型演算法在HalfCheetah-v1域下進行比較。圖3a展示了c-Q-Prop方法相比TRPO和VPG明顯具有優勢。得益於方差的降低,使用普通策略的Q-Prop與TRPO也能取得相近的結果。另一方面,DDPG則顯示了不一致的性能。使用了恰當獎勵標準的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的結果。這顯示出DDPG對超參數設置的敏感性。與DDPG相比,Q-Prop顯示了這方面的穩定性。
表1:Q-Prop,TRPO,DDPG實驗結果對比
最後,研究人員將Q-Prop與TRPO,DDPG在跨域條件下進行了評估。當環境趨於運動時,研究人員希望能取得與Lillicrap et al. (2016)相近的實驗結果。表1總結了實驗結果,包括最好的平均獎勵和收斂需要的片段數。在採樣複雜度上Q-Prop始終優於TRPO。有時,在複雜的域中取得的獎勵甚至超過DDPG。在圖3b中一個值得注意的現象是,在Humanoid-v1域中,Q-Prop相比於TRPO可以持續提升採樣效率,而這時DDPG無法找到好的結果。在複雜域中的良好表現顯示了穩定的深度強化學習演算法的重要性:那些需要大量處理超參數的演算法在處理簡單問題時可能取得較好的結果,但遇到複雜的問題它的不穩定性就會使這種演算法毫無用處。
結論
研究人員展示了Q-Prop,一種結合了可靠性,一致性的策略梯度演算法。它使用控制變數提高了off-policy評價的採樣效率,並且可能使on-policy梯度演算法具有無偏差的特性。相比於TRPO等策略梯度演算法,這種方法大大提高了採樣效率。另一方面,相比於actor-critic演算法,在比如處理人形機器人運動方面,它更具優勢。研究人員希望這種結合了on-policy蒙特卡洛梯度估計演算法和高採樣效率的off-policy評價演算法的方法可以使強化學習更加穩定和高效,並能更好地用於處理現實世界中的複雜任務。
ICLR評論ICLR委員會最終決定
評價: 這篇論文對強化學習演算法做出了學術貢獻。它找到了高方差(低偏差)的梯度估計的策略優化方法和低方差(高偏差)的梯度估計off-policy actor-critic方法,比如DDPG之間的結合點。它的基本思想(根據我的理解,與下面一位評論者相似),我們可以基於off-policy學習,使用控制依賴基線來降低梯度的方差,認為我們在進行梯度計算時對它進行了修正。試驗清楚地顯示出這種方法的優勢。它很好地結合了兩種增強學習的趨勢(首要目標就是降低採樣複雜度,在這裡尤為顯著)。我相信這項成果絕對值得我們接受。作者同時積極答覆評論者,並對大家感興趣的問題在手稿中做了調整。
支持:
使用新穎並且吸引人的演算法,對off-policy和on-policy方法很好的貢獻。
在各種控制任務中進行很好的評估。
反對:
有些不好理解,有的地方寫的有些繁雜。
決定:接受(Oral)
很好的主意,但不是一篇研究論文
打分:7分:很好的論文,接受
評論:基於以下的討論,我提出的第二個問題並不正確,我將分數從3分改到7分
這篇文章做出了一個迷人的嘗試:將控制依賴基線(控制變數)引入強化學習,雖然帶來了偏差,但又使用修正項將偏差消除。由於強化學習更新和控制依賴基線使修正項的方差很小,所以結果還不錯。
很有趣的嘗試,使用控制變數提高深度強化學習控制的穩定性
打分:7分:很好的論文,接受
評論:這篇論文將一階泰勒展開作為策略梯度演算法的控制變數。根據理論結果這個演算法可以帶來無偏差和低方差,根據世界結果動態控制任務顯示這個演算法降低了採樣複雜度。
控制變數的使用至關重要,這篇論文是在這個方向上有趣的嘗試。我對這種嘗試不完全肯定,因為這其中有太多的可能性,而理論分析有賴於方差的逼近而不是具體的計算。這就使這樣的嘗試少了一些吸引力。但是,這篇論文實在正確的方向上邁出的一步,值得接受。
使用評估的高效策略梯度演算法
打分:8分:在全部入選論文中排名Top 50%,確定接收
評論:這篇文章展示了一種用於強化學習的無模型策略梯度演算法,它結合了on-policy和off-policy評估。希望連續控制能使用這種高效採樣的方法。這種方法在模擬環境中可以實現低維的連續控制任務。
這篇論文寫得很好,容易讀懂。文中提供了充足的試驗環境幫助讀者領會它提出的觀點。雖然評論者並不是這方面的專家,但文中提出的方法仍然很新穎。 Q-Prop估算器看起來是一種通用並且有效的策略學習方法。試驗結果也充分支持它所聲明的對採樣效率的提高。而補充材料中引出的細節也非常有用。
我喜歡這篇文章,對它也沒有更多的評論。不過,我想在以下兩方面進行討論也許可以增加文章的深度:
1)比較各種方法所產生的計算代價,來代替完成收斂需要的片段數。
2)討論這種技術的局限性:是否在某些情況下難以收斂。
via openreview
同時所有的Q-Prop變體相對於TRPO都具有更高的採樣效率。比如保守Q-Prop達到4000平均獎勵的片段數差不多只有TRPO的十分之一。圖2b則展示了在不同批大小情況下保守Q-Prop和TRPO的性能差別。由於梯度估計的高方差,TRPO通常需要很大的批容量,比如為了有良好的表現,需要25000步或每次更新25個片段。而使用Q-Prop的方法,研究人員只需要每次更新1個片段,從而使用小的批容量,大大提高採樣的效率。實驗結果顯示,與之前方法相比,Q-Prop顯著減小了方差。正如前面提到的,穩定性是深度強化學習方法的一大難關,它決定了深度強化學習方法是否能在現實世界使用。
圖3a HalfCheetah-v1域下各演算法的比較;圖3b Humanoid-v1域下各演算法的比較
接下來研究人員評估了兩個版本的保守Q-Prop方法(使用普通策略梯度的v-c-Q-Prop和使用信賴區域的TR-c-Q-Prop)與其他無模型演算法在HalfCheetah-v1域下進行比較。圖3a展示了c-Q-Prop方法相比TRPO和VPG明顯具有優勢。得益於方差的降低,使用普通策略的Q-Prop與TRPO也能取得相近的結果。另一方面,DDPG則顯示了不一致的性能。使用了恰當獎勵標準的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的結果。這顯示出DDPG對超參數設置的敏感性。與DDPG相比,Q-Prop顯示了這方面的穩定性。
表1:Q-Prop,TRPO,DDPG實驗結果對比
最後,研究人員將Q-Prop與TRPO,DDPG在跨域條件下進行了評估。當環境趨於運動時,研究人員希望能取得與Lillicrap et al. (2016)相近的實驗結果。表1總結了實驗結果,包括最好的平均獎勵和收斂需要的片段數。在採樣複雜度上Q-Prop始終優於TRPO。有時,在複雜的域中取得的獎勵甚至超過DDPG。在圖3b中一個值得注意的現象是,在Humanoid-v1域中,Q-Prop相比於TRPO可以持續提升採樣效率,而這時DDPG無法找到好的結果。在複雜域中的良好表現顯示了穩定的深度強化學習演算法的重要性:那些需要大量處理超參數的演算法在處理簡單問題時可能取得較好的結果,但遇到複雜的問題它的不穩定性就會使這種演算法毫無用處。
結論
研究人員展示了Q-Prop,一種結合了可靠性,一致性的策略梯度演算法。它使用控制變數提高了off-policy評價的採樣效率,並且可能使on-policy梯度演算法具有無偏差的特性。相比於TRPO等策略梯度演算法,這種方法大大提高了採樣效率。另一方面,相比於actor-critic演算法,在比如處理人形機器人運動方面,它更具優勢。研究人員希望這種結合了on-policy蒙特卡洛梯度估計演算法和高採樣效率的off-policy評價演算法的方法可以使強化學習更加穩定和高效,並能更好地用於處理現實世界中的複雜任務。
ICLR評論ICLR委員會最終決定
評價: 這篇論文對強化學習演算法做出了學術貢獻。它找到了高方差(低偏差)的梯度估計的策略優化方法和低方差(高偏差)的梯度估計off-policy actor-critic方法,比如DDPG之間的結合點。它的基本思想(根據我的理解,與下面一位評論者相似),我們可以基於off-policy學習,使用控制依賴基線來降低梯度的方差,認為我們在進行梯度計算時對它進行了修正。試驗清楚地顯示出這種方法的優勢。它很好地結合了兩種增強學習的趨勢(首要目標就是降低採樣複雜度,在這裡尤為顯著)。我相信這項成果絕對值得我們接受。作者同時積極答覆評論者,並對大家感興趣的問題在手稿中做了調整。
支持:
使用新穎並且吸引人的演算法,對off-policy和on-policy方法很好的貢獻。
在各種控制任務中進行很好的評估。
反對:
有些不好理解,有的地方寫的有些繁雜。
決定:接受(Oral)
很好的主意,但不是一篇研究論文
打分:7分:很好的論文,接受
評論:基於以下的討論,我提出的第二個問題並不正確,我將分數從3分改到7分
這篇文章做出了一個迷人的嘗試:將控制依賴基線(控制變數)引入強化學習,雖然帶來了偏差,但又使用修正項將偏差消除。由於強化學習更新和控制依賴基線使修正項的方差很小,所以結果還不錯。
很有趣的嘗試,使用控制變數提高深度強化學習控制的穩定性
打分:7分:很好的論文,接受
評論:這篇論文將一階泰勒展開作為策略梯度演算法的控制變數。根據理論結果這個演算法可以帶來無偏差和低方差,根據世界結果動態控制任務顯示這個演算法降低了採樣複雜度。
控制變數的使用至關重要,這篇論文是在這個方向上有趣的嘗試。我對這種嘗試不完全肯定,因為這其中有太多的可能性,而理論分析有賴於方差的逼近而不是具體的計算。這就使這樣的嘗試少了一些吸引力。但是,這篇論文實在正確的方向上邁出的一步,值得接受。
使用評估的高效策略梯度演算法
打分:8分:在全部入選論文中排名Top 50%,確定接收
評論:這篇文章展示了一種用於強化學習的無模型策略梯度演算法,它結合了on-policy和off-policy評估。希望連續控制能使用這種高效採樣的方法。這種方法在模擬環境中可以實現低維的連續控制任務。
這篇論文寫得很好,容易讀懂。文中提供了充足的試驗環境幫助讀者領會它提出的觀點。雖然評論者並不是這方面的專家,但文中提出的方法仍然很新穎。 Q-Prop估算器看起來是一種通用並且有效的策略學習方法。試驗結果也充分支持它所聲明的對採樣效率的提高。而補充材料中引出的細節也非常有用。
我喜歡這篇文章,對它也沒有更多的評論。不過,我想在以下兩方面進行討論也許可以增加文章的深度:
1)比較各種方法所產生的計算代價,來代替完成收斂需要的片段數。
2)討論這種技術的局限性:是否在某些情況下難以收斂。
via openreview