華文網

「MIT研究」AI自動生成維琪百科,智慧組合互聯網資訊

1新智元編譯

論文地址:http://people.csail.mit.edu/regina/my_papers/wiki.pdf

MIT Computer Science and Artificial Intelligence Laboratory 的研究人員對自動創建多段落概述文章、提供某個主題的全面總結的任務進行了研究。這些概述指的是——舉例來說——IMDB 上的明星傳記和維琪百科的疾病概要。人工製作這些文本是一項勞動密集型工作,特別是當相關資訊散佈在各種互聯網來源時。研究者的目標是使這個過程自動化,

通過智慧地組合來自互聯網的相關摘錄來創建一個主題(例如3-M綜合征,如下圖)的概述。

作為起點,研究人員可以採用多文檔摘要所使用的方法。 但是,這一任務在內容規劃方面存在更多的技術挑戰。生成一個全面的概述文章需要積極的策略來收集相關資料,例如搜索互聯網。此外,在創建討論多個主題的較長文檔時,維護產出可讀性的挑戰也被放大了。

在研究人員所採用的方法中,

探討了如何將人工撰寫的文獻的高級結構用於製作具有良好形式的綜合性文章。研究者使用特定領域的自動生成的內容範本為文章選擇相關資料。例如,關於疾病的文章的範本可能包含診斷、病因、症狀和治療。研究人員的系統通過分析某個領域人類撰寫文獻的結構的模式來引入這些範本。 然後,它通過從互聯網為該範本的每個部分選擇內容來生成新文章。

這種關注結構的方法的主要特徵有兩個方面:

自動創建範本:範本可以從由人類撰寫的文檔中自動生成,因其內容來源於互聯網上廣泛而多樣的語料資源,確保了該概述所涉及內容的廣度。

內容選擇的聯合參數估計:範本中涉及的所有主題的參數都被同時學習,該過程優化了每個主題自身資訊的相關性以及整篇文章的全域一致性。

研究人員通過在兩個領域創建文章來評估該方法:演員及疾病。

研究人員使用的資料庫是維琪百科,其所包含文章的篇幅及內容的廣度與研究人員希望生成的文章近似。該資料庫的優點之一是,維琪百科的文章相近列出了主題章節,這可以輔助結構分析。他們的評估結果證實了關注結構的方法在內容選擇方面優於其他未能根據主題結構建模的方法。

研究人員的演算法創新是一種在整個範本中由特定主題提取器共同學習進行內容選擇的方法。

在標準分類框架下可以輕鬆實現學習單個特定主題提取器。然而,範本中不同主題的選擇是相互依賴的; 例如,在多主題文章中,主題交叉的內容有可能出現重複。同時學習所有主題的內容選擇,使研究人員能夠清晰地建立這些主題間的聯繫。

研究人員將這個任務作為結構化分類問題來設計。他們使用增強了整數線性規劃(ILP)公式的感知器演算法來預估模型的參數,並在特定領域中的一組訓練用範文中運行該演算法。

摘要:

我們研究了一種方法,該方法可以創建某個主題的綜合文本性概述(comprehensive textual overview),這個概述由提取自互聯網的資訊組成。我們使用了人類所創作文本的高級別結構,為新概述的主題架構自動引入一個特定領域範本。我們工作的演算法創新是一種學習特定主題提取器的方法,用於整個範本的內容選擇。我們使用全域整數線性規劃公式(a global integer linear programming formulation)來增強標準感知器演算法(standard perceptron algorithm),以優化資訊在每個主題中的局部匹配以及整個概述中的全域協同。我們的評估結果證實了將結構資訊納入內容選擇過程的好處。

點擊閱讀原文可查看職位詳情,期待你的加入~

他們使用增強了整數線性規劃(ILP)公式的感知器演算法來預估模型的參數,並在特定領域中的一組訓練用範文中運行該演算法。

摘要:

我們研究了一種方法,該方法可以創建某個主題的綜合文本性概述(comprehensive textual overview),這個概述由提取自互聯網的資訊組成。我們使用了人類所創作文本的高級別結構,為新概述的主題架構自動引入一個特定領域範本。我們工作的演算法創新是一種學習特定主題提取器的方法,用於整個範本的內容選擇。我們使用全域整數線性規劃公式(a global integer linear programming formulation)來增強標準感知器演算法(standard perceptron algorithm),以優化資訊在每個主題中的局部匹配以及整個概述中的全域協同。我們的評估結果證實了將結構資訊納入內容選擇過程的好處。

點擊閱讀原文可查看職位詳情,期待你的加入~