Facebook開源問答系統DrQA：基於單一信源回答開放域提問

問耕編譯整理

今天一大早， Yann LeCun就轉發了一條消息：Facebook開源了DrQA的代碼。

DrQA是一個開放域問答系統。

關於DrQA， Facebook還發表了一篇論文《Reading Wikipedia to Answer Open-Domain Questions（閱讀維琪百科來回答開放域問題）》。這篇論文也入選了下周即將在溫哥華召開的ACL 2017大會。

論文的作者為來自斯坦福的Danqi Chen（陳丹琦，之前畢業于清華姚班），以及來自Facebook人工智慧實驗室（FAIR）的Adam Fisch， Jason Weston， Antoine Bordes。

Adam Fisch介紹說， DrQA的主要任務是大規模機器閱讀（MRS）。在這種情況下， DrQA會在一個非常龐大的非結構化文檔語料庫中尋找問題的答案。因此，這個系統最大的挑戰就是文檔檢索與文本的機器理解如何更好的結合。

論文摘要

DrQA系統架構

這篇論文提出使用維琪百科作為唯一的知識來源，以解決開放域問答。任何事實性提問的答案，都是來自維琪百科中的內容。

我們的方法結合了基於二元語法雜湊（bigram hashing）和TF-IDF匹配的搜索元件，以及一個訓練用來在維琪百科段落中尋找答案的RNN模型。

我們在多個現有問答資料庫上的實驗表明：1、上述兩個模組與現有方案相比優勢很大 2、使用遠監督的多工學習，可以讓上述組合更高效的完成任務。

為了回答任何問題， DrQA必須首先檢索超過500萬個條目中的相關文章，然後仔細掃描以確定答案。我們把這個成為大規模機器閱讀（MRS）。

我們的工作將維琪百科視為文章的集合，而不依賴於其內部圖形結構。因此，這個通用方法可以切換到其他檔、書籍或是日報等領域。

像IBM DeepQA這樣的大規模問答系統，依賴于多個來源給出答案：除了維琪百科， DeepQA還是用了知識庫、詞典、新聞、書籍等。因此這樣的系統嚴重依賴資訊冗餘來獲得正確答案。

而只有單一知識來源，迫使模型在搜索答案時必須非常精確，

因為相關證據可能只會出現一次。因此，這對機器閱讀能力是一個挑戰。

開原始程式碼

Facebook已經把DrQA問答系統的PyTorch實現公佈在GitHub上。地址在此：

https://github.com/facebookresearch/DrQA

在這個頁面上， Facebook還展示了一下DrQA的問答介面，我們挑選幾個給大家看看。首先是這個問題：“生命、宇宙和一切的答案是什麼？”

安裝DrQA需要Python 3.5或以上，當然也需要安裝PyTorch。更多細節都在requirements.txt中。

另外， Facebook還提供了預訓練的模型，以及維琪百科問答資料。這部分內容大小為7.5GB，解壓之後約為25GB大小。

【完】