華文網

使用認知心理學解釋深度神經網路:DeepMind新研究破解AI黑箱問題

選自DeepMind

機器之心編譯

近日,DeepMind在其官方博客上發表了一篇題為《Interpreting Deep Neural Networks using Cognitive Psychology》的文章,試圖通過認知心理學來解決深度神經網路中的「黑箱問題」,隨著神經網路被廣泛應用於實際事例,這一問題正變得越發重要;並且在已被ICML收錄的DeepMind最新論文《Cognitive Psychology for Deep Neural Networks: A Shape Bias Case Study》中,

其證明了認知心理學工具能夠揭示DNN背後隱藏的計算特性,同時也為人類學習語言提供了一種計算模型。機器之心對博客文章和論文摘要進行了編譯。原文連結見文中。

深度神經網路已經學會去處理一些令人感到驚奇的任務——從圖像識別和推理物體,到在 Atari 遊戲和圍棋上超越人類。由於這些任務和網路結構正在變得更複雜,

神經網路學習的解決方案也會變得更加難以理解。

這就是「黑箱」問題,而且它正在變得越發重要,因為神經網路正在被應用於越來越多的實際應用當中。

在 DeepMind,我們正在努力去擴展用於理解和解釋這些系統的工具包。在我們最新的論文中(最近被 ICML 收錄),提出了一種解決此種問題的新方法,即利用認知心理學的方法去理解深度神經網路。認知心理學通過判斷行為表現來推斷認知層面的機理,

並且涵蓋大量的詳述這些機理的資料和實驗論證。由於我們的神經網路在一些特定任務中可以接近人類的水準,因此認知心理學方法與黑箱問題之間的關係也正在變得越來越緊密。

「黑箱」

為了說明這一點,我們的論文闡述了一個案例研究,

我們使用設計好的實驗來說明人類認知對於深度神經網路如何解決一個圖像分類任務的理解。

我們的結果顯示,認知心理學家觀察到的人類行為也可以被這些深度網路展示出來。而且,這些結果也揭露了有關網路如何解決分類任務的見解,這些見解不僅有用而且令人驚奇。

在一次性詞語學習模型中衡量形狀偏好

在我們的案例研究中,

我們考慮了兒童是怎樣識別和標注物體的——這是發展認知心理學的一個豐富的研究領域。兒童具備根據單一例子對詞語含義進行猜測的能力——叫做「一次性詞語學習(One-shot Word Learning models)」——我們很容易地會認為這是一個簡單的過程。然而,一個來自心理學家 Willard Van Orman Quine 的經典思維實驗說明了這一過程的的複雜性:

一個實地語言學家走訪了一個語言完全不同於我們的地區。這位語言學家嘗試去和當地的土著學習一些詞彙,

恰巧此時一隻兔子匆匆路過。這位土著說了一聲「gavagai」,而這位在他身邊的語言學家也推斷出了這個新詞彙的含義。實際上這位語言學家面對的是大量的合理推斷,這個「gavagai」可能泛指兔子,動物,白色的東西,也可能就是指這只特定的兔子或者「兔子中獨立的一個種類」。其實他是可能做出無限個合理推斷的。而人們又是怎樣去選擇其中的正確選項呢?

「Gavagai」

五十年後,當我們面對關於可以做一次性☆禁☆學習的深度神經網路的相同問題時。去考慮匹配網路,這是 DeepMind 研發的一種神經網路。這一模型使用了有關注意力和記憶力(attention and memory)研究的最新成果,可以在僅使用一種類別中的單一示例的情況下,把 ImageNet 圖像進行分類,這種方法的性能表現絕對是一流的。然而,我們並不知道為了把這些圖片進行分類網路都做了哪些假設。

為了使這一問題更加透明,我們借鑒了發展心理學家(developmental psychologists)(1)的工作,他已經發現了關於兒童通過利用歸納偏移來消除很多不正確推斷,從而找到正確推斷的證據。這些偏好包括:

全物體偏好,兒童通過參考完整物體(而非某部位元)設想某個詞彙(消除 Quine 對未觀察到的兔子部分的憂慮)。

分類學偏好,兒童通過參考基礎類別分類來設想某個詞彙(緩解 Quine 把所有的動物都選擇為的兔子的恐懼)

形狀偏好,兒童基於物體形狀設想一個詞彙的含義,而非顏色或紋理(解除 Quine 把所有的白物體都認定為「兔子」的焦慮)。

我們選擇測量神經網路的形狀偏好,因為在人類偏好上有大量的研究工作。

認知心理學刺激物樣本,我們用它來測量深度網路中的形狀偏好。這些圖像由印第安那大學認知發展實驗室的 Linda Smith 提供。

我們採用的經典形狀偏好實驗如下:我們給深度神經網路提供了三種物體圖像,即探測物體、形狀匹配物體(與探測目標形狀相同,顏色不同)和顏色匹配物體(與探測物體形狀不同,顏色相同)。然後我們度量了偏好,即將探測圖像的標籤分配為形狀匹配圖像的標籤而不是顏色匹配圖像標籤所出現的比率。

我們使用的物體圖片是印第安那大學認知發展實驗室提供的。

帶有匹配網路(atching Networks)的認知心理學實驗示意圖。匹配網路將左側的探測物體匹配到「A」圖或「B」圖。匹配網路的輸出取決於其形狀偏好的強度。

我們嘗試使用深度神經網路(即匹配網路和 Inception 基準模型)進行這次實驗,實驗發現神經網路像人類一樣更傾向於物體形體而不是顏色或紋理,所以它們有著「形狀偏好」。

這表明匹配網路和 Inception 分類器為形狀使用一個歸納性的偏好(inductive bias)而消除不正確的假設,因此我們更加清楚了神經網路到底是如何解決一次性詞語學習問題。

觀察形狀偏好並不是我們唯一有意思的發現:

我們觀察到形狀偏移是在早期神經網路的訓練過程中逐步出現的。這也許會聯想到讓人類的形狀偏好到底是如何出現的:心理學家發現,較小兒童的形狀偏好要比青少年小,並且成年人的形狀偏好相對其他階段是最大的。

我們發現使用不同的隨機種子進行初始化和訓練會得到不同程度偏移的神經網路。這就說明在深度學習系統進行實驗時,我們必須使用大量已訓練的模型來得出有效的結論,這正像心理學家不會根據單個主題得出一個結論一樣。

我們發現神經網路即使在形狀偏好十分不同時,它都可以實現相同的一次性☆禁☆學習性能。因此這證明了不同的神經網路能發現複雜問題多種等價高效的解決方案。

這一在標準神經網路架構中未被認識到的偏好發現表明,使用人工認知心理學解釋神經網路解決方案的潛力巨大。在其他領域中,來自 episodic 記憶文獻的洞見可用於理解 episodic 記憶架構,來自語義認知文獻的技術可被用於理解形成概念的模型。這些以及其他領域豐富的心理學文獻,賦予了我們一個極為強大的工具來解決神經網路黑箱問題,更深入地理解神經網路的行為。

論文: Cognitive Psychology for Deep Neural Networks: A Shape Bias Case Study

論文地址:https://arxiv.org/abs/1706.08606

摘要:深度神經網路(DNN)在多種複雜任務中具有優勢,可以達到超出人類能力的表現。雖然過去的大量研究都旨在增進對於模型本身的理解,但卻少有研究將其用於人類認知心理學中問題解釋、理論和試驗方法。為了探索這些工具的潛在價值,我們在發展心理學中選擇了一個完善的分析方法來解釋人類兒童如何學習事物的語言標籤,同時將這種分析應用到 DNN 中。

通過使用受到原始認知心理學啟發的資料集進行實驗,我們找到了在 ImageNet 上迄今為止表現最佳的一次性☆禁☆學習模型,它展示了與人類相似的偏見:偏向於以形狀而不是顏色對物體進行分類。這種對形狀偏好的量級不僅出現在整體識別中,也出現在子模型裡,甚至會在訓練時在子模型中產生波動。這些結果證明了認知心理學工具能夠揭示 DNN 背後隱藏的計算特性,它同時也為人類學習語言提供了一種計算模型。

圖 1:認知心理學資料集中的示例圖像。該資料集由認知心理學家 Linda Smith 提供,其設計初衷是控制物體大小和背景。

圖 2:帶有不同隨機初始化種子的模型及其形狀偏好,這些模型在訓練計算中使用的是 CogPsyc 資料集。

圖 4:該散點圖展示匹配網路(Matching Network/MN)形狀偏好和 Inception 形狀偏好的線性相關性。

圖 5:帶有不同隨機初始化種子的模型及其形狀偏好,這些模型在訓練計算中使用的是真實世界(real-world)資料集。

最後,在本研究工作中,我們展示了如何利用認知心理學技術來幫助我們更好地瞭解 DNN。作為一個案例研究,我們使用了兩種十分強大但又不甚瞭解的深度神經網路(Inception 和匹配網路)測度量形狀偏好。我們的分析在一定程度上揭示了這些模型的未知屬性。更廣泛地說,我們的研究工作為使用認知心理學技術探索深度神經網路提供了新的途徑。

參考文獻

Markman, Ellen M. Constraints children place on word meanings. Cognitive Science, 14(1):57–77, 1990.

Markman, Ellen M and Hutchinson, Jean E. Children’s sensitivity to constraints on word meaning: Taxonomic versus thematic relations.Cognitive Psychology, 16(1):1–27, 1984.

Markman, Ellen M and Wachtel, Gwyn F. Children’s use of mutual exclusivity to constrain the meanings of words. Cognitive Psychology, 20(2):121–157, 1988.

Landau, Barbara, Smith, Linda B, and Jones, Susan S. The importance of shape in early lexical learning. Cognitive Development, 3(3):299–321, 1988.

「Gavagai」

五十年後,當我們面對關於可以做一次性☆禁☆學習的深度神經網路的相同問題時。去考慮匹配網路,這是 DeepMind 研發的一種神經網路。這一模型使用了有關注意力和記憶力(attention and memory)研究的最新成果,可以在僅使用一種類別中的單一示例的情況下,把 ImageNet 圖像進行分類,這種方法的性能表現絕對是一流的。然而,我們並不知道為了把這些圖片進行分類網路都做了哪些假設。

為了使這一問題更加透明,我們借鑒了發展心理學家(developmental psychologists)(1)的工作,他已經發現了關於兒童通過利用歸納偏移來消除很多不正確推斷,從而找到正確推斷的證據。這些偏好包括:

全物體偏好,兒童通過參考完整物體(而非某部位元)設想某個詞彙(消除 Quine 對未觀察到的兔子部分的憂慮)。

分類學偏好,兒童通過參考基礎類別分類來設想某個詞彙(緩解 Quine 把所有的動物都選擇為的兔子的恐懼)

形狀偏好,兒童基於物體形狀設想一個詞彙的含義,而非顏色或紋理(解除 Quine 把所有的白物體都認定為「兔子」的焦慮)。

我們選擇測量神經網路的形狀偏好,因為在人類偏好上有大量的研究工作。

認知心理學刺激物樣本,我們用它來測量深度網路中的形狀偏好。這些圖像由印第安那大學認知發展實驗室的 Linda Smith 提供。

我們採用的經典形狀偏好實驗如下:我們給深度神經網路提供了三種物體圖像,即探測物體、形狀匹配物體(與探測目標形狀相同,顏色不同)和顏色匹配物體(與探測物體形狀不同,顏色相同)。然後我們度量了偏好,即將探測圖像的標籤分配為形狀匹配圖像的標籤而不是顏色匹配圖像標籤所出現的比率。

我們使用的物體圖片是印第安那大學認知發展實驗室提供的。

帶有匹配網路(atching Networks)的認知心理學實驗示意圖。匹配網路將左側的探測物體匹配到「A」圖或「B」圖。匹配網路的輸出取決於其形狀偏好的強度。

我們嘗試使用深度神經網路(即匹配網路和 Inception 基準模型)進行這次實驗,實驗發現神經網路像人類一樣更傾向於物體形體而不是顏色或紋理,所以它們有著「形狀偏好」。

這表明匹配網路和 Inception 分類器為形狀使用一個歸納性的偏好(inductive bias)而消除不正確的假設,因此我們更加清楚了神經網路到底是如何解決一次性詞語學習問題。

觀察形狀偏好並不是我們唯一有意思的發現:

我們觀察到形狀偏移是在早期神經網路的訓練過程中逐步出現的。這也許會聯想到讓人類的形狀偏好到底是如何出現的:心理學家發現,較小兒童的形狀偏好要比青少年小,並且成年人的形狀偏好相對其他階段是最大的。

我們發現使用不同的隨機種子進行初始化和訓練會得到不同程度偏移的神經網路。這就說明在深度學習系統進行實驗時,我們必須使用大量已訓練的模型來得出有效的結論,這正像心理學家不會根據單個主題得出一個結論一樣。

我們發現神經網路即使在形狀偏好十分不同時,它都可以實現相同的一次性☆禁☆學習性能。因此這證明了不同的神經網路能發現複雜問題多種等價高效的解決方案。

這一在標準神經網路架構中未被認識到的偏好發現表明,使用人工認知心理學解釋神經網路解決方案的潛力巨大。在其他領域中,來自 episodic 記憶文獻的洞見可用於理解 episodic 記憶架構,來自語義認知文獻的技術可被用於理解形成概念的模型。這些以及其他領域豐富的心理學文獻,賦予了我們一個極為強大的工具來解決神經網路黑箱問題,更深入地理解神經網路的行為。

論文: Cognitive Psychology for Deep Neural Networks: A Shape Bias Case Study

論文地址:https://arxiv.org/abs/1706.08606

摘要:深度神經網路(DNN)在多種複雜任務中具有優勢,可以達到超出人類能力的表現。雖然過去的大量研究都旨在增進對於模型本身的理解,但卻少有研究將其用於人類認知心理學中問題解釋、理論和試驗方法。為了探索這些工具的潛在價值,我們在發展心理學中選擇了一個完善的分析方法來解釋人類兒童如何學習事物的語言標籤,同時將這種分析應用到 DNN 中。

通過使用受到原始認知心理學啟發的資料集進行實驗,我們找到了在 ImageNet 上迄今為止表現最佳的一次性☆禁☆學習模型,它展示了與人類相似的偏見:偏向於以形狀而不是顏色對物體進行分類。這種對形狀偏好的量級不僅出現在整體識別中,也出現在子模型裡,甚至會在訓練時在子模型中產生波動。這些結果證明了認知心理學工具能夠揭示 DNN 背後隱藏的計算特性,它同時也為人類學習語言提供了一種計算模型。

圖 1:認知心理學資料集中的示例圖像。該資料集由認知心理學家 Linda Smith 提供,其設計初衷是控制物體大小和背景。

圖 2:帶有不同隨機初始化種子的模型及其形狀偏好,這些模型在訓練計算中使用的是 CogPsyc 資料集。

圖 4:該散點圖展示匹配網路(Matching Network/MN)形狀偏好和 Inception 形狀偏好的線性相關性。

圖 5:帶有不同隨機初始化種子的模型及其形狀偏好,這些模型在訓練計算中使用的是真實世界(real-world)資料集。

最後,在本研究工作中,我們展示了如何利用認知心理學技術來幫助我們更好地瞭解 DNN。作為一個案例研究,我們使用了兩種十分強大但又不甚瞭解的深度神經網路(Inception 和匹配網路)測度量形狀偏好。我們的分析在一定程度上揭示了這些模型的未知屬性。更廣泛地說,我們的研究工作為使用認知心理學技術探索深度神經網路提供了新的途徑。

參考文獻

Markman, Ellen M. Constraints children place on word meanings. Cognitive Science, 14(1):57–77, 1990.

Markman, Ellen M and Hutchinson, Jean E. Children’s sensitivity to constraints on word meaning: Taxonomic versus thematic relations.Cognitive Psychology, 16(1):1–27, 1984.

Markman, Ellen M and Wachtel, Gwyn F. Children’s use of mutual exclusivity to constrain the meanings of words. Cognitive Psychology, 20(2):121–157, 1988.

Landau, Barbara, Smith, Linda B, and Jones, Susan S. The importance of shape in early lexical learning. Cognitive Development, 3(3):299–321, 1988.