您的位置:首頁>科技>正文

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發

雷鋒網 AI 科技評論按:Facebook AI 研究院(FAIR)日前撰寫了一篇長文章, 介紹了自己在基於圖像的自然語言對話系統方面的研究方向以及現有的研究成果。

圖像理解和自然語言對話系統都是當前的熱門研究領域, 兩者結合的領域更是又迷人、又讓人頭疼。 下面我們來一起看看Facebook AI 研究院對這一問題有何見解、他們又做出了哪些成果。 雷鋒網 AI 科技評論編譯此文如下。

人們對視覺對話(Visual Dialog)的研究抱有一個遠大的目標, 就是教會機器用自然語言與人類討論視覺內容。 這個正在快速增長的研究領域集合了電腦視覺、自然語言處理以及對話系統研究三個方向的成果。

總的來說, 對話系統的功能可以在一個範圍內變化。 這個範圍一個極端是任務驅動的對話機器人, 人們可以和它對話來完成一些具體的任務, 比如訂一張機票;另一個極端是閒聊機器人, 你們可以聊任何話題,

但是聊天的時候並不為了達成什麼目的。 視覺對話大概在這兩個極端中間的一個位置上, 這確實是一種不限定形式的聊天, 但是對話內容需要限定在給定圖像的內容範圍之內。

未來的視覺對話應用:一個能利用視覺能力和自然語言介面説明人類的智慧助手

雖然目前的視覺對話系統還處在很早期的階段,

但這類技術未來有很多的應用潛力。 比如, 能回答一系列問題的智慧助手就可以説明視覺障礙人群理解網上照片中的內容, 或者看他現拍的照片幫他瞭解他所處的周圍環境;還可以幫助醫療人員更好地解讀醫學成像照片。 在AR/VR應用中也能派得上用場, 用戶跟一個虛擬的同伴身處同一個視覺環境中, 然後可以用自然語言跟他聊環境中的東西。

未來的視覺對話應用:基於同一視覺環境的虛擬夥伴

要造出類似這樣的系統, 目前還有不少基礎研究方面的困難。 Facebook的研究人員們近期就沿著兩個研究方向做出了自己的努力:1, 對視覺內容做顯式的推理;2, 模仿人類的視覺對話。

視覺內容的顯式推理

連接到視覺資料的一個核心語言介面就是問一個自然語言的問題, 比如:“圖中有什麼動物?”或者“有多少人坐在長椅上?”每個問題中需要解決的都是不同的任務, 然而目前具有頂尖表現的系統裡多數都還運用的是整體性的方法,

用同一個計算圖或者計算網路給出所有問題的答案。 然而, 這些模型只有有限的解釋能力, 而且對於更複雜一些的推理任務就很容變得無能為力, 比如:“有多少東西和球的大小一樣?”如下圖

用模組化的結構表徵問題就給符合性的、可解釋的推理帶來了可能

為了解決這樣的問題, UC伯克利的研究員們在一篇CVPR2016的論文中提出了“神經模組網路”,它吧計算過程拆分成了幾個顯式的模組。在上面的例子中,一個模組“尋找”或者說定位了這個球,然後另一個模組“重定位”或者說找到相同大小的物體,最後一個模型就可以數出來“有多少”。這個過程中重要的是,對於不同的照片或者問題,模型可以反復使用,比如“尋找球”的這個模組對於另一張圖像來說就可以回答“圖中的球體比立方體多嗎”這個問題。就像和上面的圖中一樣,這樣讓人們可以通過“注意力地圖”的方式檢驗中間的可解釋的輸出,可以看到模型在關注圖中的哪些區域。

最初的這項工作基於的是一個不可微的自然語言分析器,後來2篇ICCV2017的論文就展現出了如何端到端地訓練一個類似這樣的系統。如果想要解答CVPR2017上Facebook AI研究院和斯坦福大學共同發佈的CLEVR資料集中困難得多的組合問題,作者們認為這樣的系統應當至關重要。

論文「Learning to Reason: End-to-End Module Networks for Visual Question Answering」(學習推理:用於視覺問題回答的端到端模組網路)首先用一個帶有編碼器和解碼器的迴圈神經網路(RNN)根據問題建立一個策略或者一個程式,然後它就會構建出一個模組化的網路,用這個網路對圖像進行操作、回答問題。

不過,這兩篇論文提出了不同的架構。第一篇由Facebook AI研究院和斯坦福大學合作完成的論文「Inferring and Executing Programs for Visual Reasoning」(用於視覺推理的推斷和處理常式)中,不同的模組中有不同的參數,但網路結構是一樣的。第二篇由UC伯克利大學、波士頓大學和Facebook AI研究院協作完成的「Learning to Reason: End-to-End Module Networks for Visual Question Answering」中,依靠不同的模組完成不同的計算任務,模組之間可以共用問題表述的嵌入的參數。

雖然兩篇論文中方法的架構不同,但兩項研究中都發現有必要借助標準答案對程式的預測結果進行監督,以便得到更好的結果,不過一小批訓練樣本也就足夠了。“Inferring and Executing Programs”論文中就表現出強化學習的使用可以讓網路學到最好的端到端程式,這比直接學習標準答案的程式帶來了顯著的提升,而且可以對新問題和新答案做出細微調整。

近期新提出的RelationNet和FiLM兩種網路架構也不需要在訓練中用到任何標準答案程式就可以達到與整體式網路相當或更好的表現;這也意味著它們失去了顯式的、可解釋的推理結構。在“Inferring and Executing Programs”論文中除了基於CLEVR綜合生成的問題之外也收集了真實人類提出的問題。不過,所有提到的這些研究都不具有好的泛化性。與此相似的是,如果在帶有真實圖像和問題的VQA資料集上測試,“Learning to Reason”論文的程式預測只帶來的非常有限的表現提升,很可能是因為VQA資料集的問題需要的推理複雜度比CLEVR資料集低得多。

總的來說,Facebook的研究人員們對繼續探索新的點子、構建真正具有複合性解釋性、能夠處理真實世界情境中的新設置和新程式帶來的麻煩的模型還抱著飽滿的熱情。

模仿人類的視覺對話

這篇介紹文章由三位Facebook AI研究院的研究員Dhruv Batra、Devi Parikh、Marcus Rohrbach三人共同撰寫,前兩者同時也是佐治亞理工大學的助理教授。兩人以及他們在佐治亞理工大學和卡耐基梅隆大學的學生們共同研究著針對圖像的自然語言對話問題。他們開發了一個新的雙人對話資料收集程式,從而構建了一個大規模的視覺對話資料集VisDial,其中包含了十二萬張圖像,每張圖像帶有10對問答句子,一共一百二十萬個對話問答對。

視覺對話智慧體的示意圖。使用者上傳一張圖像,智慧體就會首先開口給圖像配上一句說明比如“一棟大樓,它中間有一個塔樓”,然後它還可以回答用戶的一系列問題。

由於這個研究處於多個領域的交叉口上,它也就帶動著不同領域的研究人員們攜起手來解決共同的問題。為了給這個研究前線帶來更大的貢獻,他們也把VisDial資料集和相關代碼開放出來,便於其它的對話系統研究者們為自己的問題創建定制化的資料集。

對於對話系統,一個可能有點反直覺的研究角度是,把對話看作一個固定的監督學習問題,而不是一個交互性的智慧體學習問題。根本上來說,監督學習的每一輪 t 中,對話模型都被人為地“插入”到兩個人類的對話中,然後要求它回答一個問題。但機器的回答又會被拋棄,因為在下一輪 t+1 中,人們會給模型輸入“標準答案”的人和人之間的對話,這其中包含了人類的應答而不包含機器的應答。這樣一來,人類從來都不會把引導聊天走向的機會交給機器,因為這樣就會讓對話內容超出資料集之外,變得無法評估。

為了改善這個問題,佐治亞理工、卡內基梅隆和Facebook AI研究院共同在論文「Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning」(用深度強化學習學習合作性的視覺對話智慧體)中提出了首個目標驅動的訓練方式,用來訓練視覺問題回答以及視覺對話智慧體。他們提出了一個兩個之間智慧體合作完成的“猜圖片”小遊戲GuessWhich,其中一個“提問者”Q-BOT和一個“回答者”A-BOT要用自然語言對話交流。在遊戲開始前會先給A-BOT指定一張圖像,Q-BOT看不到圖像;然後兩個BOT都會收到一條關於這張圖像的自然語言的描述。在遊戲接下來的每一輪中,Q-BOT都要生成一個問題,A-BOT要回答它,然後兩個BOT的狀態都得到更新。在10論問答結束後,Q-BOT就要開始猜剛才的圖像是一組圖像中的哪一張。研究人員們發現,這些強化學習的方式訓練得到的智慧體要比傳統監督學習訓練的智能體強得多。最有意思的是,雖然有監督訓練的Q-BOT會模仿人類如何問問題,強化學習訓練的Q-BOT會變化策略,問一些A-BOT更善於回答的問題,最終在對話中包含了更多的信息量,組成了更好的團隊。

目標驅動的學習有一種替代方案,就是選用一個對抗性損失或者感知損失,用來區分真實人類的和智慧體生成的回答。在馬上要到來的NIPS 2017中就收錄了一篇介紹這個點子的論文,「Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model」(雙料冠軍:從對抗性學習轉移知識到生成式視覺對話模型),來自Facebook AI研究院和佐治亞理工大學。還有一篇相關的論文來自普朗克資訊學研究所、UC伯克利、Facebook AI研究院的共同合作,「Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training」(講一樣的話:通過對抗性訓練把機器匹配到人類描述上),這篇論文中表明,相比給定一張圖像以後一次只讓模型生成一條描述,一次生成多條描述可以讓模型生成更加多變、更像人類的圖像描述。

開放的多學科協作一直必不可少

作為人類,大腦相關功能中很大的一部分是通過視覺處理和自然語言處理與別人進行溝通交流。構建能夠把視覺和語言連接起來的AI不僅令人激動,而且也非常具有挑戰性。在這篇文章中,Facebook的研究人員們就介紹了這一空間中的兩個研究方向:顯式的視覺推理和模仿人類的視覺對話。雖然大大小小的研究進展不斷湧現,但未來還有許多難題等待解決。如果想要繼續進步,Facebook AI研究院、學術界,以及整個AI生態之間都需要繼續保持開放、長期、基礎的多學科研究協作體系。

參考文獻

VQA: Visual Question Answering,https://arxiv.org/abs/1505.00468(ICCV 2015)

Neural module networks,https://arxiv.org/abs/1511.02799(CVPR 2016)

Visual Dialog,https://arxiv.org/abs/1611.08669(CVPR 2017)

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning,https://arxiv.org/abs/1611.08669(ICCV 2017)

Inferring and Executing Programs for Visual Reasoning,https://arxiv.org/abs/1705.03633(ICCV 2017)

Learning to Reason: End-to-End Module Networks for Visual Question Answering,https://arxiv.org/abs/1704.05526(ICCV 2017)

Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training,https://arxiv.org/abs/1703.10476(ICCV 2017)

CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning,https://arxiv.org/abs/1612.06890(CVPR 2017)

Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model,https://arxiv.org/abs/1706.01554(NIPS 2017)

A simple neural network module for relational reasoning,https://arxiv.org/abs/1706.01427(NIPS 2017)

FiLM: Visual Reasoning with a General Conditioning Layer,https://arxiv.org/abs/1709.07871

via FAIR,雷鋒網 AI 科技評論編譯

UC伯克利的研究員們在一篇CVPR2016的論文中提出了“神經模組網路”,它吧計算過程拆分成了幾個顯式的模組。在上面的例子中,一個模組“尋找”或者說定位了這個球,然後另一個模組“重定位”或者說找到相同大小的物體,最後一個模型就可以數出來“有多少”。這個過程中重要的是,對於不同的照片或者問題,模型可以反復使用,比如“尋找球”的這個模組對於另一張圖像來說就可以回答“圖中的球體比立方體多嗎”這個問題。就像和上面的圖中一樣,這樣讓人們可以通過“注意力地圖”的方式檢驗中間的可解釋的輸出,可以看到模型在關注圖中的哪些區域。

最初的這項工作基於的是一個不可微的自然語言分析器,後來2篇ICCV2017的論文就展現出了如何端到端地訓練一個類似這樣的系統。如果想要解答CVPR2017上Facebook AI研究院和斯坦福大學共同發佈的CLEVR資料集中困難得多的組合問題,作者們認為這樣的系統應當至關重要。

論文「Learning to Reason: End-to-End Module Networks for Visual Question Answering」(學習推理:用於視覺問題回答的端到端模組網路)首先用一個帶有編碼器和解碼器的迴圈神經網路(RNN)根據問題建立一個策略或者一個程式,然後它就會構建出一個模組化的網路,用這個網路對圖像進行操作、回答問題。

不過,這兩篇論文提出了不同的架構。第一篇由Facebook AI研究院和斯坦福大學合作完成的論文「Inferring and Executing Programs for Visual Reasoning」(用於視覺推理的推斷和處理常式)中,不同的模組中有不同的參數,但網路結構是一樣的。第二篇由UC伯克利大學、波士頓大學和Facebook AI研究院協作完成的「Learning to Reason: End-to-End Module Networks for Visual Question Answering」中,依靠不同的模組完成不同的計算任務,模組之間可以共用問題表述的嵌入的參數。

雖然兩篇論文中方法的架構不同,但兩項研究中都發現有必要借助標準答案對程式的預測結果進行監督,以便得到更好的結果,不過一小批訓練樣本也就足夠了。“Inferring and Executing Programs”論文中就表現出強化學習的使用可以讓網路學到最好的端到端程式,這比直接學習標準答案的程式帶來了顯著的提升,而且可以對新問題和新答案做出細微調整。

近期新提出的RelationNet和FiLM兩種網路架構也不需要在訓練中用到任何標準答案程式就可以達到與整體式網路相當或更好的表現;這也意味著它們失去了顯式的、可解釋的推理結構。在“Inferring and Executing Programs”論文中除了基於CLEVR綜合生成的問題之外也收集了真實人類提出的問題。不過,所有提到的這些研究都不具有好的泛化性。與此相似的是,如果在帶有真實圖像和問題的VQA資料集上測試,“Learning to Reason”論文的程式預測只帶來的非常有限的表現提升,很可能是因為VQA資料集的問題需要的推理複雜度比CLEVR資料集低得多。

總的來說,Facebook的研究人員們對繼續探索新的點子、構建真正具有複合性解釋性、能夠處理真實世界情境中的新設置和新程式帶來的麻煩的模型還抱著飽滿的熱情。

模仿人類的視覺對話

這篇介紹文章由三位Facebook AI研究院的研究員Dhruv Batra、Devi Parikh、Marcus Rohrbach三人共同撰寫,前兩者同時也是佐治亞理工大學的助理教授。兩人以及他們在佐治亞理工大學和卡耐基梅隆大學的學生們共同研究著針對圖像的自然語言對話問題。他們開發了一個新的雙人對話資料收集程式,從而構建了一個大規模的視覺對話資料集VisDial,其中包含了十二萬張圖像,每張圖像帶有10對問答句子,一共一百二十萬個對話問答對。

視覺對話智慧體的示意圖。使用者上傳一張圖像,智慧體就會首先開口給圖像配上一句說明比如“一棟大樓,它中間有一個塔樓”,然後它還可以回答用戶的一系列問題。

由於這個研究處於多個領域的交叉口上,它也就帶動著不同領域的研究人員們攜起手來解決共同的問題。為了給這個研究前線帶來更大的貢獻,他們也把VisDial資料集和相關代碼開放出來,便於其它的對話系統研究者們為自己的問題創建定制化的資料集。

對於對話系統,一個可能有點反直覺的研究角度是,把對話看作一個固定的監督學習問題,而不是一個交互性的智慧體學習問題。根本上來說,監督學習的每一輪 t 中,對話模型都被人為地“插入”到兩個人類的對話中,然後要求它回答一個問題。但機器的回答又會被拋棄,因為在下一輪 t+1 中,人們會給模型輸入“標準答案”的人和人之間的對話,這其中包含了人類的應答而不包含機器的應答。這樣一來,人類從來都不會把引導聊天走向的機會交給機器,因為這樣就會讓對話內容超出資料集之外,變得無法評估。

為了改善這個問題,佐治亞理工、卡內基梅隆和Facebook AI研究院共同在論文「Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning」(用深度強化學習學習合作性的視覺對話智慧體)中提出了首個目標驅動的訓練方式,用來訓練視覺問題回答以及視覺對話智慧體。他們提出了一個兩個之間智慧體合作完成的“猜圖片”小遊戲GuessWhich,其中一個“提問者”Q-BOT和一個“回答者”A-BOT要用自然語言對話交流。在遊戲開始前會先給A-BOT指定一張圖像,Q-BOT看不到圖像;然後兩個BOT都會收到一條關於這張圖像的自然語言的描述。在遊戲接下來的每一輪中,Q-BOT都要生成一個問題,A-BOT要回答它,然後兩個BOT的狀態都得到更新。在10論問答結束後,Q-BOT就要開始猜剛才的圖像是一組圖像中的哪一張。研究人員們發現,這些強化學習的方式訓練得到的智慧體要比傳統監督學習訓練的智能體強得多。最有意思的是,雖然有監督訓練的Q-BOT會模仿人類如何問問題,強化學習訓練的Q-BOT會變化策略,問一些A-BOT更善於回答的問題,最終在對話中包含了更多的信息量,組成了更好的團隊。

目標驅動的學習有一種替代方案,就是選用一個對抗性損失或者感知損失,用來區分真實人類的和智慧體生成的回答。在馬上要到來的NIPS 2017中就收錄了一篇介紹這個點子的論文,「Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model」(雙料冠軍:從對抗性學習轉移知識到生成式視覺對話模型),來自Facebook AI研究院和佐治亞理工大學。還有一篇相關的論文來自普朗克資訊學研究所、UC伯克利、Facebook AI研究院的共同合作,「Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training」(講一樣的話:通過對抗性訓練把機器匹配到人類描述上),這篇論文中表明,相比給定一張圖像以後一次只讓模型生成一條描述,一次生成多條描述可以讓模型生成更加多變、更像人類的圖像描述。

開放的多學科協作一直必不可少

作為人類,大腦相關功能中很大的一部分是通過視覺處理和自然語言處理與別人進行溝通交流。構建能夠把視覺和語言連接起來的AI不僅令人激動,而且也非常具有挑戰性。在這篇文章中,Facebook的研究人員們就介紹了這一空間中的兩個研究方向:顯式的視覺推理和模仿人類的視覺對話。雖然大大小小的研究進展不斷湧現,但未來還有許多難題等待解決。如果想要繼續進步,Facebook AI研究院、學術界,以及整個AI生態之間都需要繼續保持開放、長期、基礎的多學科研究協作體系。

參考文獻

VQA: Visual Question Answering,https://arxiv.org/abs/1505.00468(ICCV 2015)

Neural module networks,https://arxiv.org/abs/1511.02799(CVPR 2016)

Visual Dialog,https://arxiv.org/abs/1611.08669(CVPR 2017)

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning,https://arxiv.org/abs/1611.08669(ICCV 2017)

Inferring and Executing Programs for Visual Reasoning,https://arxiv.org/abs/1705.03633(ICCV 2017)

Learning to Reason: End-to-End Module Networks for Visual Question Answering,https://arxiv.org/abs/1704.05526(ICCV 2017)

Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training,https://arxiv.org/abs/1703.10476(ICCV 2017)

CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning,https://arxiv.org/abs/1612.06890(CVPR 2017)

Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model,https://arxiv.org/abs/1706.01554(NIPS 2017)

A simple neural network module for relational reasoning,https://arxiv.org/abs/1706.01427(NIPS 2017)

FiLM: Visual Reasoning with a General Conditioning Layer,https://arxiv.org/abs/1709.07871

via FAIR,雷鋒網 AI 科技評論編譯

Next Article
喜欢就按个赞吧!!!
点击关闭提示