DeepMind 關係推理網路大揭秘（附論文）

時間＼2017-09-12

論文>>https://arxiv.org/pdf/1706.01427.pdf

什麼是關係推理（Relational Reasoning）？

用最簡單的話來解釋，關係推理可以學習並理解不同事物（概念）之間的聯繫。

這可以看做是智慧的本質特徵之一。下面是作者給出的示意圖解釋了關係推理的內涵：

模型通過觀察不同主體的外形、大小、顏色後，可以回答主體之間不同關係的問題。

一些之前的文章，對於理解這個網路有很大的説明：

Inferring and Executing Programs for Visual Reasoning

https://arxiv.org/abs/1705.03633

Simple Baseline for Visual Question Answering

https://arxiv.org/abs/1512.02167

Neural Module Networks

https://arxiv.org/abs/1511.02799

以及視覺資料集CLEVR

http://cs.stanford.edu/people/jcjohns/clevr/

關係網絡（Relational Networks）

在這篇文章中，作者呈現出了一種可以用於提取事物間關係性的神經網路（就像卷積神經網路可以用來提取圖像特徵一樣）：

等式1. 關係網絡的定義

相關解釋：

關係網絡對於O（是一系列你希望學習他們相關性的主體）來說是一個函數fɸ；

gθ 是用於計算兩個物體之間相關性的函數；

Σ i, j 計算所有可能的物體對之間的關係並相加。

神經網路和函數

在我們學習神經網路、bp演算法等時候經常會忘記神經網路的本質其實就是一個簡單的數學函數。我們上面解釋的函數其實描述的就是神經網路，更準確的說，其中包含兩個神經網路：

gθ 用於計算物體之間的關係；

fɸ 用於計算所有物體關係的和，並最終計算模型的輸出；

在最簡單的情況下gθ ，fɸ可以是多層感知機。

關係神經網路十分靈活

論文的作者將關係神經網路看做是一個模組。

它可以接收編碼過的物體並學習物體之間的關係，更重要的是它可以作為模組插入到卷積神經網路CNN和長短時記憶網路LSTM中去。

CNN可以用圖像進行學習，這使得這項技術應用更為廣泛。畢竟利用圖像進行推理比利用一系列定義好的物體進行推理更為方便和實用。

同樣LSTM可以用來理解輸入序列的含義。那麼使用這種技術可以使得LSTM可以直接接收自然語言的句子而不是一系列編碼過的序列。

作者為我們提供了一些示例來演示如何將關係網絡與卷積神經網路以及長短時記憶網路結合起來，建立能學習物體間相互關係的端到端神經網路。

圖2.0 端到端的關係推理網路

相關解釋

首先利用標準的卷積神經網路從圖像中抽取特徵。

得到了每一個物體用一個特徵向量表示，如上圖中的黃色向量所示。

同時利用LSTM來處理問題，並生成問題的特徵向量，得到了問題的基本內涵。

這時我們需要稍微修改一下先前的公式，並在其中加入了一項新的q。

在LSTM條件下的相關性網路。

其中而外加入的q代表LSTM輸出的最終狀態，現在的相關性變成了q條件下的相關性了。

隨後CNN中提取出特徵的“物體”與LSTM提取出的向量被用於訓練相關性網路。每一個物體和對應的LSTM向量成對的輸入到神經網路中用於訓練gθ。

最後將gθ加起來作為fɸ的輸入，來訓練用於最終回答問題的神經網路。

Benchmarks

作者在論文中展示了了這一模型在多個資料集上的有效性。其中CLEVR資料集包含了很多個不同形狀、大小和顏色的物體。對模型的提問類似於這樣：

“圖中圓柱和立方體是同一種材料嗎？”

作者在論文中表示這一模型的精度要遠高於其他的模型，這主要是由於這一模型就是為採集物體間相關性而設計的。這一模型達到了>96%的準確率，而利用注意力模型的僅僅只有75%的準確率。

結論

關係網絡十分適用於學習不同主體間相關性。它不僅表現在資料的有效性上，更表現在可以廣泛用於CNN和LSTMs等網路中的靈活性上。希望這篇文章能為各位呈現深度學習最新的發展狀況。

-END-

歡迎加入將門技術社群！

現已涵蓋CV、機器人、NLP、ML、IoT等多個當下火熱的技術話題。我們每週邀請來自產學研的優秀技術人進行線上分享，目前群裡已彙聚數千位上述領域的技術從業者。

入群方式>>關注“將門創投”（id:thejiangmen）微信公眾號，在後臺回復關鍵字“技術社群”，提交入群申請表。通過審核後，我們會在第一時間發出邀請。

點擊右上角，把文章朋友圈

將門創投

讓創新獲得認可！

微信：thejiangmen

service@thejiangmen.com

每一個物體和對應的LSTM向量成對的輸入到神經網路中用於訓練gθ。