ICLR 2018｜論文：視覺模仿系統GSP，僅觀察演示就學會執行任務

ICLR 2018將於今晚正式開始，機器之心帶你搶先一睹這篇來自UC Berkeley的Oral論文。目前模仿學習依賴于專家監督來學習模仿什麼以及如何模仿。作者尋求可替代的範式，其中智慧體只需知道要模仿什麼，然後自主學習如何模仿。該方法是 zero-shot 的，因為在訓練或者推理任務演示的時候，智慧體從未接觸專家如何執行任務的資訊。

研究者在兩個實際環境中測試了該 zero-shot 方法：分別是使用 Baxter 機器人的複雜繩索操作和使用 TurtleBot 機器人的陌生環境室內導航。在 VizDoom 環境模仿的進一步實驗中，給出了這樣的證據：更好的探索機制可以導致更強大的策略，

策略反過來又進一步提升最終的任務性能。

Baxter 機器人操作繩索。

TurtleBot 機器人室內導航。

演示及代碼連結：https://pathak22.github.io/zeroshot-imitation/

簡介

模仿專家演示是從原始感知觀察中學習執行任務的強大機制。從演示中學習（learning from demonstration， LfD）(Argall et al., 2009; Ng & Russell, 2000; Pomerleau, 1989; Schaal, 1999) 目前的主要範式要麼需要專家手動移動機器人的機械臂（也就是運動覺訓練），要麼需要專家遠端操縱機器人來執行期望的任務。在訓練時，專家通常會為一個任務提供多次演示，這樣就會在智慧體的視角以觀察-行動（observation-action）對的形式生成資料。然後智慧體為執行感興趣的任務而從這些資料中提取出策略。

這種嚴格監督的方法對人類專家而言是難以置信的乏味，必須通過控制機器人來提供演示。此外，對每個需要機器人來執行的新任務而言，專家必須提供一套新的演示。

除了傳達如何通過觀察-行動對來執行任務，一個更加泛化的形式是讓專家通過一段視頻或者一個稀疏的圖像序列提供對期望世界狀態的觀察，僅傳達需要做什麼。這樣，智慧體需要自己推理如何執行任務（也就是行動）。在心理學中，這被稱為基於觀察的學習 (Bandura & Walters, 1977)。儘管這是一個相對困難的學習任務，但是它更加有趣，因為專家可以快速容易地演示多個任務。

對於一個沒有任何先驗知識的智慧體而言，除了在最簡單的例子中之外，僅通過簡單地觀看視覺演示來模仿一個任務是極其困難的。

所以，本質問題是：為了模仿，智慧體必須具備哪些先驗知識？有大量的工作尋求通過從觀察中手動預定義必須從觀察推理的狀態來捕捉先驗知識 (Breazeal & Scassellati, 2002; Dillmann, 2004; Ikeuchi & Suehiro, 1994; Kuniyoshi et al., 1989; 1994; Yang et al., 2015)。然後智慧體通過這些狀態來推理如何執行任務（也就是規劃模仿）。不幸的是，電腦視覺系統通常無法準確地估計狀態變數，而且對於下行規劃系統而言對這種誤差的魯棒性被證明是很重要的。

圖 1：目標制約的技能策略（GSP）以當前和目標觀察為輸入，輸出能夠實現目標的行動序列。我們比較了以下幾個 GSP 模型的性能：（a）簡單的逆模型；（b）具有之前動作歷史的多步 GSP；（c）具有之前動作歷史和前向模型作為正則項的多步 GSP；（d）本文提出的具有前向一致性損失的多步 GSP。

在本論文中，研究者沿著 (Agrawal et al., 2016; Levine et al., 2016; Pinto & Gupta, 2016) 的方向來尋求一個可替代的范式，智慧體在沒有任何專家監督的情況下將這些探索資料提取為目標指引的技能。這些技能可以被用來模仿由專家提供的視覺演示 (Nair et al., 2017)。這裡所說的技能指的是能夠預測出相關動作序列的功能，這個動作序列能夠將智慧體由當前的觀察狀態帶到目標狀態。這個功能被稱為 GSP（目標制約的技能策略）。GSP 通過自監督的方式習得，與 (Agrawal et al., 2016; Andrychowicz et al., 2017) 類似，通過將智慧體在探索環境時遇到的狀態重新標記為目標，以及將智慧體執行的動作重新標記為預測目標來完成。在推理過程中，在給定一次演示中的目標觀察時，GSP 可以從目前的觀察中反過來推理如何達到這些目標，因此就可以逐步模仿。

學習 GSP 時的一個關鍵挑戰是：通常，從一個狀態到達另一個狀態存在多種可能的方式，狀態之間的軌跡分散式多模態的。研究者用原創的基於直覺的前向一致性損失解決了這個問題，這個直覺就是：對絕大多數任務而言，達到目標要比如何達到目標更重要。為了讓它運轉起來，首先需要學習一個能夠在給定一個行動（action）和當前觀察（observation）時可以預測下一個狀態的前向模型。研究者使用用於 GSP 選擇的動作的前向模型的輸出和真實的下一個狀態之間的差別來訓練 GSP。這個損失在不需要準確匹配動作本身時就可以讓 GSP 預測的動作和真實的下一個動作保持一致，因此會保證預測得到的與真實動作不同的動作—但是會導致同樣的下一個狀態—不會在不經意間受到懲罰。為了說明達到不同目標所需的不同的步驟數目，研究者使用目標識別器來聯合優化 GSP，目標識別器可以判定當前的目標是否已經被滿足了。圖 1 是對 GSP 結構的簡單描述。

這個方法稱為是 zero-shot 的，因為智慧體從不需要獲取專家的動作，無論是在訓練 GSP 的過程還是推理階段的任務演示過程。相反，絕大多數關於 one-shot 模仿學習的最近工作都需要關於動作的完全知識，以及在訓練過程中對專家演示的充分瞭解 (Duan et al., 2017; Finn et al., 2017)。總之，該方法具有以下特點：（1）在學習過程中不需要任何外在激勵或者專家監督，（2）僅僅在推理階段需要演示，（3）僅僅將演示限制在視覺觀察上，而不是所有的狀態動作。這裡的智慧體是學習模仿，而不是通過模仿來學習。

研究者在真實機器人上測試了該 zero-shot 模仿器，這些機器人使用 Baxter 進行繩索操作或者使用 TurtleBot 來進行室內導航。前向一致損失能夠在複雜的打結任務中提升性能，將準確率從 36% 提升至 60%。在室內導航試驗中，通過指引一個簡單的有輪子的機器人在部分可觀察的室內環境中行走，結果表明學習到的 GSP 可以泛化到陌生的環境中。進一步，在 VizDoom 環境中使用導航的實驗，表明利用好奇心驅動的探索 (Oudeyer et al., 2007; Pathak et al., 2017; Schmidhuber, 1991) 學到的 GSP 可以比使用隨機探索資料學到的 GSP 更準確地遵循演示。總之，實驗表明前向一致的 GSP 可以在沒有特定環境或者特定任務假設時被用來模仿很多工。

圖 2：使用 Baxter 機器人的繩索操作任務的定性演示。（a）機器人系統設置。（b）打結任務的推理階段由人類提供的人類演示圖像序列（頂行），在模仿已有的演示時機器人達到的狀態的觀察圖像序列（底行）。（c）在將繩子扭成「S」形的任務中，人類演示的圖像序列和機器人達到的狀態的圖像序列，智慧體可以成功地模仿這個演示。

圖 4：從初始圖像（左上）到達靶心圖表像（右圖）的過程中 TurtleBot 軌跡的演示。由於初始圖像和靶心圖表像沒有重疊，所以機器人首先通過原地打轉來進行探索。一旦它檢測到了當前圖像和靶心圖表像之間的重疊，它就會朝著靶心圖表像移動（也就是第 42 步的圖像）。需要注意的是，其中沒有顯式地訓練機器人來探索，而且這種探索行為是自監督學習過程中自然發生的。

表 1：導航任務中，在陌生環境中使用單幅圖像作為目標時，不同方法的定量測評。每一列代表對應一個不同的初始/靶心圖表像時的不同運行。完全的 GSP 模型在成功運行時達到目標所花的平均時間更長，但是具有更高的成功率。

圖 5：在跟隨一個給定的圖像序列（頂行）的視覺演示時 TurtleBot 的性能。TurtleBot 以這樣的方式被放置：演示中的第一張圖像跟目前的觀察沒有重疊。即使如此，機器人還是能夠朝著靠近第一張演示圖像靠近（如 Robot WayPoint-1 所示），然後遵循給定的演示，直到結束。這也是經典方法的典型失敗案例；在 WayPoint-1 和 WayPoint-2 之間沒有可能的關鍵點匹配，甚至初始的觀察是遠離 WayPoint-1 的。

表 2：在迷宮和環路兩個場景中跟隨視覺演示時 TurtleBot 的性能的定量測評。這裡給出了兩次不同演示下各自三次運行到達地標的百分比。結果表明本文的方法要比基準更優。需要注意的是，研究者在環路情景的光照顯著不同的情況下進行了額外的三次實驗，結果沒有模型成功。具體結果在補充材料中可以看到。

表 3：本文提出的 GSP 方法和基線模型在 VizDoom 3D 導航中跟隨視覺演示的性能定量測評。對於每個環境類型中超過 50 個種子和 5 條人類路徑的演示完成和效率，給出了中位數和 95% 置信區間。

論文：Zero-Shot Visual Imitation（Zero-Shot 視覺模仿）

論文連結：https://pathak22.github.io/zeroshot-imitation/resources/iclr18.pdf

目前模仿學習的主要范式依賴于較強的專家監督來學習模仿什麼以及如何模仿，我們尋求一個可替代的範式，其中智慧體首先在沒有任何專家監督的情況下探索環境，然後以一種新型的前向一致損失將它的經驗抽取為目標制約的技能策略（GSP）。在我們的框架中，專家的作用僅僅是在推理過程中傳達目標（即：要模仿什麼）。然後，在觀察了一個期望任務的演示圖像序列之後，學習到的策略被用來模仿專家（即：如何模仿）。我們的方法是 zero-shot 的，因為在訓練或者推理任務演示的時候，智慧體從未接觸過專家的行動。我們在兩個實際環境中測試了我們的 zero-shot 方法：分別是使用 Baxter 機器人的複雜繩索操作和使用 TurtleBot 機器人的陌生環境室內導航。在 VizDoom 環境模仿的進一步實驗中，我們給出了這樣的證據：更好的探索機制可以導致更強大的策略，策略反過來又進一步提升最終的任務性能。

這個動作序列能夠將智慧體由當前的觀察狀態帶到目標狀態。這個功能被稱為 GSP（目標制約的技能策略）。GSP 通過自監督的方式習得，與 (Agrawal et al., 2016; Andrychowicz et al., 2017) 類似，通過將智慧體在探索環境時遇到的狀態重新標記為目標，以及將智慧體執行的動作重新標記為預測目標來完成。在推理過程中，在給定一次演示中的目標觀察時，GSP 可以從目前的觀察中反過來推理如何達到這些目標，因此就可以逐步模仿。

論文：Zero-Shot Visual Imitation（Zero-Shot 視覺模仿）

論文連結：https://pathak22.github.io/zeroshot-imitation/resources/iclr18.pdf