您的位置:首頁>設計>正文

在開始強化學習前,你所需要瞭解的知識

更多騰訊海量技術文章, 請關注雲加社區:https://cloud.tencent.com/developer

譯者:Waitingalone

本譯文自JOSHGREAVES發表在https://joshgreaves.com/ 的Everything You Need to Know to Get Started in Reinforcement Learning。 文中版權、圖像代碼等資料均歸作者所有。 為了本土化, 翻譯內容略作修改。

在這個由兩部分組成的系列文章的最後, 您將會瞭解理解強化學習演算法如何工作所需的所有基本理論。

在兩篇文章中, 我將分享約85頁強化學習教科書中最重要的內容。 RL是任何機器學習從業人員工具包中非常有用的工具, 這些帖子被設計為強化學習的基礎, 以便儘快實現最新的模型。 當然, 為了更徹底地處理這個問題, 我建議你拿起Sutton和Barto的“強化學習:介紹”這本教科書,

但是這篇文章會試圖給強化學習背後的理論提供一個快速, 直觀的基礎。

監督與評估學習

對於許多感興趣的問題, 監督式學習的範式並不能帶給我們所需要的靈活性。 監督學習與強化學習的主要區別在於所收到的回饋是 評價性還是 指導性的。 教學回饋告訴你 如何實現你的目標, 而評估回饋告訴你如何你達到了你的目標。 監督學習基於指導回饋解決問題, 強化學習基於評估回饋解決問題。 圖像分類是帶有指導性回饋的監督問題的例子; 當演算法試圖分類某一段資料時, 會告訴它真正的類是什麼。 另一方面, 評價回饋僅僅告訴你你在實現目標方面做得如何。 如果您使用評估性回饋訓練分類器,

您的分類器可能會說“我認為這是一隻倉鼠”, 作為回報, 它將得到50分。 沒有更多的背景, 我們真的不知道50分是什麼意思。 我們需要做其他的分類和探索 找出我們的50分是否意味著我們是否準確。 也許10,000是一個更可敬的分數, 但我們只是不知道, 直到我們試圖分類一些其他的資料點。

兩個金色的星星和一個笑臉猜測倉鼠。 如果你猜沙鼠, 你可以擁有一顆銀星, 半個豎起大拇指

在許多感興趣的問題中, 評估回饋的想法更加直觀和易於理解。 例如, 設想一個控制資料中心溫度的系統。 有指導意義的回饋在這裡似乎沒有什麼意義, 你怎麼告訴你的演算法每個元件在任何給定時間步的正確設置?評估回饋更有意義。

您可以輕鬆地回饋資料, 例如某個時間段內使用了多少電量, 或平均溫度是多少, 甚至有多少台機器過熱。 這實際上是穀歌如何解決這個問題, 強化學習。 所以讓我們直接跳到它。

瑪律可夫決策過程

一個狀態s 據說是瑪律可夫, 如果來自該狀態的未來在條件上獨立於過去, 那麼我們知道 s。 這意味著 s 描述直到當前狀態的所有過去的狀態。 如果這樣做沒有多大意義, 通過實例來看就容易多了。 考慮一個飛行在空中的球。 如果它的狀態是它的位置和速度, 那麼足以描述它已經存在的位置和將要到達的位置(給定一個物理模型, 並且沒有外部影響)。 因此, 國家有瑪律可夫財產。 但是, 如果我們只知道球的位置而不知道它的速度,

那麼它的狀態就不再是瑪律可夫了。 目前的狀態並不總結所有過去的狀態, 我們需要從上一個時間步驟的資訊開始建立一個合適的球的模型。

強化學習通常被建模為瑪律可夫決策過程(MDP)。 MDP是一個有向圖, 它的節點和邊描述了瑪律可夫狀態之間的轉換。 這是一個簡單的例子:

用於學習MDP的簡單MDP

這個MDP顯示了學習MDP的過程。 起初你在國家 不明白。 從那裡, 你有兩個可能的行動, 學習 或 不學習。 如果你選擇不學習, 那麼你有100%的機會回到 不瞭解 狀態。 但是, 如果你學習, 那麼你有20%的機會最終回到你開始的地方, 但有80%的機會結束了 理解 狀態。

真的, 我相信有一個轉換到理解狀態的概率高於80%的概率, MDP的核心是非常簡單的。

從一個州有一套你可以採取的行動。 在你採取行動之後, 你可以轉換到什麼狀態。 就像“ 不要研究” 行動一樣, 過渡也可能是確定性的。

強化學習的目標是學習如何在更有價值的狀態上花費更多的時間。 為了有一個有價值的狀態, 我們需要更多的資訊在我們的MDP。

你不需要一個MDP教你不吃東西會使你餓死。 不過, 強化學習代理可能會。

這MDP有另外的 增加獎勵。 每次你進入一個狀態, 你都會得到獎勵。 在這個例子中, 你會因饑餓而獲得負面報酬, 並會因為饑餓而獲得巨大的負面報酬。 如果你滿了, 你會得到一個積極的回報。 現在我們的MDP已經完全形成了, 我們就可以開始思考如何使行動獲得最大的回報!

由於這個MDP非常簡單, 很容易看到,留在更高獎勵區域的方式是每當我們饑餓的時候吃東西。我們沒有太多的選擇,當我們滿足這個模式時,我們將不得不再次餓肚子,可以立即選擇吃飯。與強化學習有關的問題有更多更複雜的MDP,而且我們往往不瞭解它們,而是需要從探索中學習 。

形式化強化學習問題

現在我們有很多我們需要的構件,我們應該看看RL中使用的術語。最重要的組成部分是 代理人和 環境。代理存在於間接控制的某個環境中。通過回顧我們的MDP,代理人可以選擇在給定狀態下採取哪種行動,這對其所看到的狀態具有顯著的影響。然而,代理並不完全控制環境的動態。環境在收到這些行動後,將返回新的狀態和獎勵。

薩頓與巴托的形象 - 強化學習:引言

從薩頓和巴托的“強化學習:介紹”(強烈推薦)這本書中,我們可以很好地解釋這種情況。 在某個時間步驟t,代理處於狀態st,並採取行動。 環境然後以新的狀態st + 1和獎勵rt + 1作出回應。 獎勵是在t + 1的原因是因為它是隨著t + 1狀態的環境而返回的,所以把它們保持在一起是有意義的(如圖中所示)。

結論

我們現在有一個強化學習問題的框架,並準備開始考慮如何最大化我們的獎勵。在下一篇文章中,我們將學習狀態值函數和動作值函數,以及為解決強化學習問題的演算法奠定基礎的Bellman方程。我們還將探索一些簡單而有效的動態程式設計解決方案。如果你想聽到不同的解釋,或想深入探討這個問題,我建議David Silver的Youtube系列強化學習系列,以及Sutton和Barto的“強化學習:一個介紹”一書。謝謝閱讀!在這裡查看第二部分。

原文連結:https://joshgreaves.com/reinforcement-learning/introduction-to-reinforcement-learning/

原文作者:JOSHGREAVES

很容易看到,留在更高獎勵區域的方式是每當我們饑餓的時候吃東西。我們沒有太多的選擇,當我們滿足這個模式時,我們將不得不再次餓肚子,可以立即選擇吃飯。與強化學習有關的問題有更多更複雜的MDP,而且我們往往不瞭解它們,而是需要從探索中學習 。

形式化強化學習問題

現在我們有很多我們需要的構件,我們應該看看RL中使用的術語。最重要的組成部分是 代理人和 環境。代理存在於間接控制的某個環境中。通過回顧我們的MDP,代理人可以選擇在給定狀態下採取哪種行動,這對其所看到的狀態具有顯著的影響。然而,代理並不完全控制環境的動態。環境在收到這些行動後,將返回新的狀態和獎勵。

薩頓與巴托的形象 - 強化學習:引言

從薩頓和巴托的“強化學習:介紹”(強烈推薦)這本書中,我們可以很好地解釋這種情況。 在某個時間步驟t,代理處於狀態st,並採取行動。 環境然後以新的狀態st + 1和獎勵rt + 1作出回應。 獎勵是在t + 1的原因是因為它是隨著t + 1狀態的環境而返回的,所以把它們保持在一起是有意義的(如圖中所示)。

結論

我們現在有一個強化學習問題的框架,並準備開始考慮如何最大化我們的獎勵。在下一篇文章中,我們將學習狀態值函數和動作值函數,以及為解決強化學習問題的演算法奠定基礎的Bellman方程。我們還將探索一些簡單而有效的動態程式設計解決方案。如果你想聽到不同的解釋,或想深入探討這個問題,我建議David Silver的Youtube系列強化學習系列,以及Sutton和Barto的“強化學習:一個介紹”一書。謝謝閱讀!在這裡查看第二部分。

原文連結:https://joshgreaves.com/reinforcement-learning/introduction-to-reinforcement-learning/

原文作者:JOSHGREAVES

Next Article
喜欢就按个赞吧!!!
点击关闭提示