AI重大突破:DeepMind 構建心智理論神經網路讓機器互相理解
新智元編譯
編譯:Marvin
【新智元導讀】DeepMind近日發表的最新研究提出“機器心智理論”(Machine Theory of Mind),
心智理論(ToM; Premack&Woodruff,1978)泛指人類能夠理解自己以及他人的心理狀態的能力,
目前,
讓我們停下來問問:對於一個agent來說,“理解”另一個agent究竟意味著什麼?作為人類,
對其他agent的“理解”有一個顯著特點是,它們對agent的真正的底層結構幾乎沒有任何參考。
在這篇論文中,我們從人的心智理論中獲得靈感,試圖構建一個學習對其他智慧體進行建模的系統。我們將其描述為“機器心智理論”(Machine Theory of Mind)。我們的目標不是要提出一種智慧體行為的生成模型和反轉它的演算法。相反,我們關注的是觀察者如何自主學習使用有限的資料為其他agent建模。這使我們的工作與以前的研究不同,以前的相關研究依賴人工的智慧體模型,例如使用反向RL,貝葉斯推斷,貝葉斯心智理論或博弈論。相反,我們學習智慧體模型,以及如何通過 meta-learning從頭開始對它們進行推理。
構建一個豐富、靈活並且高性能的機器心智理論對AI來說是一個巨大的挑戰。本文的一個主要觀點是,構建ToM的多數初始的挑戰可能會被視為簡單的學習問題,因為它們是用公式表示的。我們在這裡的工作是對這些簡單公式進行計算的練習。
這項工作有許多潛在的應用。學習他者的豐富模型將改進許多複雜的多智慧體任務的決策制定(decision-making),特別是在需要基於模型的規劃和想像的情況下。這些模型對於價值調整和靈活合作也很重要,而且很可能是未來機器道德決策的一個組成部分。它們對傳播和教育學也非常重要,可能在人機交互中扮演關鍵角色。探索這種能力產生的條件也可以揭示人類能力的起源。最後,這些模型可能會成為人類理解人工智慧的重要媒介。
最後,我們的強烈動機是使人工智慧可以為人類所解釋。我們在這裡嘗試一種新的方法:試圖構建仲介系統,以減少行為空間的維度,並以更易理解的形式表現它們,而不是修改agent的結構以使其內部狀態暴露於人類可解釋的形式。在這個角度上,對機器ToM的追求是建立機器與人類期望之間缺失的介面(missing interface)。
研究方法:元學習任務實驗我們考慮將構建心智理論作為一個meta-learning問題。在測試時,我們希望能夠遇到一個我們以前從未見過的新的agent,並且它們已經有強大而且豐富的關於它們行為先驗知識。此外,當我們看到這個agent在它的世界行動時,我們希望能夠收集關於它的潛在特徵和心理狀態的資料(即形成後驗),這將使我們能夠改進對它們未來行為的預測。
為此,我們制定了一個meta-learning任務。我們構建了一個觀察者(observer),它在每個episode中都可以看到agent的一組新的行為痕跡。觀察者的目標是預測agent未來的行為。在訓練過程中,觀察者應該從有限的資料中快速形成有關新agent的預測。這種關於新agent的“學習”就是我們所說的meta-learning。通過這個過程,觀察者還應該學習agent行為的有效先驗,這些知識隱含地捕捉了訓練群體中agent之間的共性。
我們引入兩個概念來描述這個觀察者網路的組成部分及其功能角色。我們區分了一般心智理論——網路的學習權重,它包含關於訓練集中所有agent共同行為的預測,以及特定於agent的心智理論——在測試時通過觀察形成的“agent embedding”,它包含了是什麼使得agent的特徵和心理狀態與其他agent不同。這些對應于agent行為的先驗和後驗。
這篇論文的結構是一系列實驗,這些實驗針對該“機器心智理論”的網路(ToMnet)逐漸增加複雜度。這些實驗展示了ToMnet的思想,以及它學習其他agent豐富模型的能力,這些模型融合了人類心智理論的典型特徵,例如對錯誤信念的認識。
研究貢獻:ToMnet學會預測和解釋信念本研究的貢獻如下:
在3.1節,我們展示了對於簡單的隨機智慧體,ToMnet學會了基於智慧體特性的近似貝葉斯最優等級推斷。
在3.2節,我們展示ToMnet學會了推斷algorithmic agents的目標(有效執行 few-shot逆向強化學習),以及它們如何平衡成本和回報。
在3.3節,我們展示ToMnet學會表徵不同種類的深層強化學習智慧體,捕捉整個群體變異的關鍵因素,並形成這些智慧體的抽象嵌入。我們還表明,ToMnet可以發現關於行為空間的新抽象。
在3.4節,我們表明,當ToMnet被訓練於POMDPs中行動的深度RL智慧體時,它隱含地知道這些agent可能持有關於世界的錯誤信念。這是人類心智理論的核心組成部分。
在3.5節,我們證明ToMnet可以被訓練來預測agent的信念狀態,並且明確地揭示了agent的錯誤信念。我們還表明,ToMnet可以僅從它們的行為推斷出不同agent能夠看到的內容,以及它們基於此傾向於相信的內容。
圖1. ToMnet的架構
圖2.隨機智慧體行為的網格世界示例
圖3. 在隨機智能體上訓練的ToMnet
圖13. 有監督的信念預測
更多細節請查閱原論文:https://arxiv.org/pdf/1802.07740.pdf
【加入社群】
新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_1 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。
此外,新智元 AI 技術 + 產業領域社群 (智慧汽車、機器學習、深度學習、神經網路等) 正在面向正在從事相關領域的工程師及研究人員進行招募。
加入新智元技術社群 共用 AI + 開放平臺
在這篇論文中,我們從人的心智理論中獲得靈感,試圖構建一個學習對其他智慧體進行建模的系統。我們將其描述為“機器心智理論”(Machine Theory of Mind)。我們的目標不是要提出一種智慧體行為的生成模型和反轉它的演算法。相反,我們關注的是觀察者如何自主學習使用有限的資料為其他agent建模。這使我們的工作與以前的研究不同,以前的相關研究依賴人工的智慧體模型,例如使用反向RL,貝葉斯推斷,貝葉斯心智理論或博弈論。相反,我們學習智慧體模型,以及如何通過 meta-learning從頭開始對它們進行推理。
構建一個豐富、靈活並且高性能的機器心智理論對AI來說是一個巨大的挑戰。本文的一個主要觀點是,構建ToM的多數初始的挑戰可能會被視為簡單的學習問題,因為它們是用公式表示的。我們在這裡的工作是對這些簡單公式進行計算的練習。
這項工作有許多潛在的應用。學習他者的豐富模型將改進許多複雜的多智慧體任務的決策制定(decision-making),特別是在需要基於模型的規劃和想像的情況下。這些模型對於價值調整和靈活合作也很重要,而且很可能是未來機器道德決策的一個組成部分。它們對傳播和教育學也非常重要,可能在人機交互中扮演關鍵角色。探索這種能力產生的條件也可以揭示人類能力的起源。最後,這些模型可能會成為人類理解人工智慧的重要媒介。
最後,我們的強烈動機是使人工智慧可以為人類所解釋。我們在這裡嘗試一種新的方法:試圖構建仲介系統,以減少行為空間的維度,並以更易理解的形式表現它們,而不是修改agent的結構以使其內部狀態暴露於人類可解釋的形式。在這個角度上,對機器ToM的追求是建立機器與人類期望之間缺失的介面(missing interface)。
研究方法:元學習任務實驗我們考慮將構建心智理論作為一個meta-learning問題。在測試時,我們希望能夠遇到一個我們以前從未見過的新的agent,並且它們已經有強大而且豐富的關於它們行為先驗知識。此外,當我們看到這個agent在它的世界行動時,我們希望能夠收集關於它的潛在特徵和心理狀態的資料(即形成後驗),這將使我們能夠改進對它們未來行為的預測。
為此,我們制定了一個meta-learning任務。我們構建了一個觀察者(observer),它在每個episode中都可以看到agent的一組新的行為痕跡。觀察者的目標是預測agent未來的行為。在訓練過程中,觀察者應該從有限的資料中快速形成有關新agent的預測。這種關於新agent的“學習”就是我們所說的meta-learning。通過這個過程,觀察者還應該學習agent行為的有效先驗,這些知識隱含地捕捉了訓練群體中agent之間的共性。
我們引入兩個概念來描述這個觀察者網路的組成部分及其功能角色。我們區分了一般心智理論——網路的學習權重,它包含關於訓練集中所有agent共同行為的預測,以及特定於agent的心智理論——在測試時通過觀察形成的“agent embedding”,它包含了是什麼使得agent的特徵和心理狀態與其他agent不同。這些對應于agent行為的先驗和後驗。
這篇論文的結構是一系列實驗,這些實驗針對該“機器心智理論”的網路(ToMnet)逐漸增加複雜度。這些實驗展示了ToMnet的思想,以及它學習其他agent豐富模型的能力,這些模型融合了人類心智理論的典型特徵,例如對錯誤信念的認識。
研究貢獻:ToMnet學會預測和解釋信念本研究的貢獻如下:
在3.1節,我們展示了對於簡單的隨機智慧體,ToMnet學會了基於智慧體特性的近似貝葉斯最優等級推斷。
在3.2節,我們展示ToMnet學會了推斷algorithmic agents的目標(有效執行 few-shot逆向強化學習),以及它們如何平衡成本和回報。
在3.3節,我們展示ToMnet學會表徵不同種類的深層強化學習智慧體,捕捉整個群體變異的關鍵因素,並形成這些智慧體的抽象嵌入。我們還表明,ToMnet可以發現關於行為空間的新抽象。
在3.4節,我們表明,當ToMnet被訓練於POMDPs中行動的深度RL智慧體時,它隱含地知道這些agent可能持有關於世界的錯誤信念。這是人類心智理論的核心組成部分。
在3.5節,我們證明ToMnet可以被訓練來預測agent的信念狀態,並且明確地揭示了agent的錯誤信念。我們還表明,ToMnet可以僅從它們的行為推斷出不同agent能夠看到的內容,以及它們基於此傾向於相信的內容。
圖1. ToMnet的架構
圖2.隨機智慧體行為的網格世界示例
圖3. 在隨機智能體上訓練的ToMnet
圖13. 有監督的信念預測
更多細節請查閱原論文:https://arxiv.org/pdf/1802.07740.pdf
【加入社群】
新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_1 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。
此外,新智元 AI 技術 + 產業領域社群 (智慧汽車、機器學習、深度學習、神經網路等) 正在面向正在從事相關領域的工程師及研究人員進行招募。
加入新智元技術社群 共用 AI + 開放平臺