在開始強化學習前，你所需要瞭解的知識

更多騰訊海量技術文章，請關注雲加社區：https://cloud.tencent.com/developer

譯者：Waitingalone

本譯文自JOSHGREAVES發表在https://joshgreaves.com/ 的Everything You Need to Know to Get Started in Reinforcement Learning。文中版權、圖像代碼等資料均歸作者所有。為了本土化，翻譯內容略作修改。

在這個由兩部分組成的系列文章的最後，您將會瞭解理解強化學習演算法如何工作所需的所有基本理論。

在兩篇文章中，我將分享約85頁強化學習教科書中最重要的內容。 RL是任何機器學習從業人員工具包中非常有用的工具，這些帖子被設計為強化學習的基礎，以便儘快實現最新的模型。當然，為了更徹底地處理這個問題，我建議你拿起Sutton和Barto的“強化學習：介紹”這本教科書，

但是這篇文章會試圖給強化學習背後的理論提供一個快速，直觀的基礎。

監督與評估學習

對於許多感興趣的問題，監督式學習的範式並不能帶給我們所需要的靈活性。監督學習與強化學習的主要區別在於所收到的回饋是評價性還是指導性的。教學回饋告訴你如何實現你的目標，而評估回饋告訴你如何你達到了你的目標。監督學習基於指導回饋解決問題，強化學習基於評估回饋解決問題。圖像分類是帶有指導性回饋的監督問題的例子; 當演算法試圖分類某一段資料時，會告訴它真正的類是什麼。另一方面，評價回饋僅僅告訴你你在實現目標方面做得如何。如果您使用評估性回饋訓練分類器，

您的分類器可能會說“我認為這是一隻倉鼠”，作為回報，它將得到50分。沒有更多的背景，我們真的不知道50分是什麼意思。我們需要做其他的分類和探索找出我們的50分是否意味著我們是否準確。也許10,000是一個更可敬的分數，但我們只是不知道，直到我們試圖分類一些其他的資料點。

兩個金色的星星和一個笑臉猜測倉鼠。如果你猜沙鼠，你可以擁有一顆銀星，半個豎起大拇指

在許多感興趣的問題中，評估回饋的想法更加直觀和易於理解。例如，設想一個控制資料中心溫度的系統。有指導意義的回饋在這裡似乎沒有什麼意義，你怎麼告訴你的演算法每個元件在任何給定時間步的正確設置？評估回饋更有意義。

您可以輕鬆地回饋資料，例如某個時間段內使用了多少電量，或平均溫度是多少，甚至有多少台機器過熱。這實際上是穀歌如何解決這個問題，強化學習。所以讓我們直接跳到它。

瑪律可夫決策過程

一個狀態s 據說是瑪律可夫，如果來自該狀態的未來在條件上獨立於過去，那麼我們知道 s。這意味著 s 描述直到當前狀態的所有過去的狀態。如果這樣做沒有多大意義，通過實例來看就容易多了。考慮一個飛行在空中的球。如果它的狀態是它的位置和速度，那麼足以描述它已經存在的位置和將要到達的位置（給定一個物理模型，並且沒有外部影響）。因此，國家有瑪律可夫財產。但是，如果我們只知道球的位置而不知道它的速度，

那麼它的狀態就不再是瑪律可夫了。目前的狀態並不總結所有過去的狀態，我們需要從上一個時間步驟的資訊開始建立一個合適的球的模型。

強化學習通常被建模為瑪律可夫決策過程（MDP）。 MDP是一個有向圖，它的節點和邊描述了瑪律可夫狀態之間的轉換。這是一個簡單的例子：

用於學習MDP的簡單MDP

這個MDP顯示了學習MDP的過程。起初你在國家不明白。從那裡，你有兩個可能的行動，學習或不學習。如果你選擇不學習，那麼你有100％的機會回到不瞭解狀態。但是，如果你學習，那麼你有20％的機會最終回到你開始的地方，但有80％的機會結束了理解狀態。

真的，我相信有一個轉換到理解狀態的概率高於80％的概率， MDP的核心是非常簡單的。

從一個州有一套你可以採取的行動。在你採取行動之後，你可以轉換到什麼狀態。就像“ 不要研究” 行動一樣，過渡也可能是確定性的。

強化學習的目標是學習如何在更有價值的狀態上花費更多的時間。為了有一個有價值的狀態，我們需要更多的資訊在我們的MDP。

你不需要一個MDP教你不吃東西會使你餓死。不過，強化學習代理可能會。

這MDP有另外的增加獎勵。每次你進入一個狀態，你都會得到獎勵。在這個例子中，你會因饑餓而獲得負面報酬，並會因為饑餓而獲得巨大的負面報酬。如果你滿了，你會得到一個積極的回報。現在我們的MDP已經完全形成了，我們就可以開始思考如何使行動獲得最大的回報！

由於這個MDP非常簡單，很容易看到，留在更高獎勵區域的方式是每當我們饑餓的時候吃東西。我們沒有太多的選擇，當我們滿足這個模式時，我們將不得不再次餓肚子，可以立即選擇吃飯。與強化學習有關的問題有更多更複雜的MDP，而且我們往往不瞭解它們，而是需要從探索中學習。

形式化強化學習問題

現在我們有很多我們需要的構件，我們應該看看RL中使用的術語。最重要的組成部分是代理人和環境。代理存在於間接控制的某個環境中。通過回顧我們的MDP，代理人可以選擇在給定狀態下採取哪種行動，這對其所看到的狀態具有顯著的影響。然而，代理並不完全控制環境的動態。環境在收到這些行動後，將返回新的狀態和獎勵。

薩頓與巴托的形象 - 強化學習：引言

從薩頓和巴托的“強化學習：介紹”（強烈推薦）這本書中，我們可以很好地解釋這種情況。在某個時間步驟t，代理處於狀態st，並採取行動。環境然後以新的狀態st + 1和獎勵rt + 1作出回應。獎勵是在t + 1的原因是因為它是隨著t + 1狀態的環境而返回的，所以把它們保持在一起是有意義的（如圖中所示）。

結論

我們現在有一個強化學習問題的框架，並準備開始考慮如何最大化我們的獎勵。在下一篇文章中，我們將學習狀態值函數和動作值函數，以及為解決強化學習問題的演算法奠定基礎的Bellman方程。我們還將探索一些簡單而有效的動態程式設計解決方案。如果你想聽到不同的解釋，或想深入探討這個問題，我建議David Silver的Youtube系列強化學習系列，以及Sutton和Barto的“強化學習：一個介紹”一書。謝謝閱讀！在這裡查看第二部分。

原文連結：https://joshgreaves.com/reinforcement-learning/introduction-to-reinforcement-learning/

原文作者：JOSHGREAVES

很容易看到，留在更高獎勵區域的方式是每當我們饑餓的時候吃東西。我們沒有太多的選擇，當我們滿足這個模式時，我們將不得不再次餓肚子，可以立即選擇吃飯。與強化學習有關的問題有更多更複雜的MDP，而且我們往往不瞭解它們，而是需要從探索中學習。

形式化強化學習問題

薩頓與巴托的形象 - 強化學習：引言

結論

原文連結：https://joshgreaves.com/reinforcement-learning/introduction-to-reinforcement-learning/

原文作者：JOSHGREAVES