Neurons字幕組｜2分鐘看強化學習如何優雅地解決地形穿越問題

時間＼2017-10-13

時間軸 | 韓振峰翻譯 | 數據醬

校對 | 雲舟後期 | Halo

專案管理 | 大力

Neurons字幕組

第5期作品震撼來襲！

Neurons字幕組源自英文單詞Neuron，一個個獨立的神經元，彙聚千萬，成就了四通八達，傳遞最in最酷炫資訊的神經網路。

來吧，和Neurons一起，玩點不一樣的AI！

隨著2016年3月AlphaGo與李世乭驚天人機大戰的謝幕，深度學習逐漸走入了大眾的視野，在這背後，則是AI基於與環境互動的目標導向的強化學習。作為一種機器學習演算法，它不僅可以讓電腦學習如何玩遊戲，甚至學習其它一切具有時間序列性的行為，

並在與我們生活息息相關的各種領域中都能有很好的應用。今天的Neurons小視頻，就以可愛的虛擬狗狗為切入點，帶大家看一下強化學習在地形穿越問題中的應用。

關注大資料文摘公眾號，並在後臺回復“神經元”，可直接下載本期論文。

▼ 請在WiFi下觀看小視頻，暫時無法觀看的讀者可以先收藏，或者下拉直接查看文字版要點，土豪請隨意~

強化學習演算法的側重點並不在於分辨出我們在圖像中看到的具體內容，

因為具體答案並不重要，我們關心的是具有時間先後性的一系列動作。我們稱強化學習的輸入為狀態，也就是我們目前所處的狀態，還有我們周圍的環境的狀態。強化學習的輸出我們稱之為最佳後續動作，我們以一個虛擬狗狗的跑步動作為例子，在跑動過程中跳起來並跳到障礙物上，這一系列動作都由我們的演算法來完成。

這個任務很難，因為狗身上有很多部位需要控制得當，動作才顯得協調。這個演算法需要決定很多事情，包括如何控制腿部的力量脊柱的彎度，還有肩膀、肘部、臀部還有膝部的角度。

狗狗的控制參數，從上往下分別是：前腿力、後腿力、脊柱彎度、肩膀角度、肘部角度、臀部角度、膝部角度、後蹄角度

當然，這個演算法最厲害的地方，在於如果演算法運用得當，它最後所得出的所有的動作，都會跟我們所想像的動物的動作完全相同。其實強化學習的本質就是：做得好，被獎勵；做得不好，

被懲罰；獎罰分明。而且用評分量化，分數增長，則代表演算法的選擇不錯。學習過程就是自省的過程。通過分析最後的幾步動作，來找出哪一些動作可以得到獎勵。

我們舉個可以拿到獎勵的例子，比如這只狗可以在不摔倒的情況下跑多遠。同時，我們還需要注意，如何用最少的代價來實現這個目標。簡而言之，強化學習模仿了現實生活中的動物，甚至人類學習的方法，如果你這次做得不夠好，嘗試新的動作；如果你做到了，記住你是如何做到的，然後繼續這樣做下去。我們在這裡只是用狗狗作為一個例子來解釋這個演算法，但是其實同樣的原理也適用於人類。

強化學習被應用於很多控制領域，這些領域的難題很難用其它技術來解，比如，如何控制一個無人機。很高興能看到這項技術所帶來的成果，尤其是，在這項技術在某些領域其實還沒有被很廣泛的應用的情況下，比如說電腦圖形學領域為什麼會這樣呢？是因為並沒有太多的圖像任務要求處理具有時間序列的動作？還是因為我們需要改變我們的思維方式來接受新的想法。從不同的角度來看待問題，然後才能用這個強大的演算法來解決它，毫無疑問，這個改變將會是值得的。

很多人說，強化學習被認為是真正的人工智慧的希望。看了今天的小視頻，對於強化學習有沒有想更深入的瞭解呢？

如果你這次做得不夠好，嘗試新的動作；如果你做到了，記住你是如何做到的，然後繼續這樣做下去。我們在這裡只是用狗狗作為一個例子來解釋這個演算法，但是其實同樣的原理也適用於人類。

很多人說，強化學習被認為是真正的人工智慧的希望。看了今天的小視頻，對於強化學習有沒有想更深入的瞭解呢？