「MIT研究」AI自動生成維琪百科,智慧組合互聯網資訊
1新智元編譯
論文地址:http://people.csail.mit.edu/regina/my_papers/wiki.pdf
MIT Computer Science and Artificial Intelligence Laboratory 的研究人員對自動創建多段落概述文章、提供某個主題的全面總結的任務進行了研究。這些概述指的是——舉例來說——IMDB 上的明星傳記和維琪百科的疾病概要。人工製作這些文本是一項勞動密集型工作,特別是當相關資訊散佈在各種互聯網來源時。研究者的目標是使這個過程自動化,
作為起點,研究人員可以採用多文檔摘要所使用的方法。 但是,這一任務在內容規劃方面存在更多的技術挑戰。生成一個全面的概述文章需要積極的策略來收集相關資料,例如搜索互聯網。此外,在創建討論多個主題的較長文檔時,維護產出可讀性的挑戰也被放大了。
在研究人員所採用的方法中,
這種關注結構的方法的主要特徵有兩個方面:
自動創建範本:範本可以從由人類撰寫的文檔中自動生成,因其內容來源於互聯網上廣泛而多樣的語料資源,確保了該概述所涉及內容的廣度。
內容選擇的聯合參數估計:範本中涉及的所有主題的參數都被同時學習,該過程優化了每個主題自身資訊的相關性以及整篇文章的全域一致性。
研究人員通過在兩個領域創建文章來評估該方法:演員及疾病。
研究人員的演算法創新是一種在整個範本中由特定主題提取器共同學習進行內容選擇的方法。
研究人員將這個任務作為結構化分類問題來設計。他們使用增強了整數線性規劃(ILP)公式的感知器演算法來預估模型的參數,並在特定領域中的一組訓練用範文中運行該演算法。
摘要:
我們研究了一種方法,該方法可以創建某個主題的綜合文本性概述(comprehensive textual overview),這個概述由提取自互聯網的資訊組成。我們使用了人類所創作文本的高級別結構,為新概述的主題架構自動引入一個特定領域範本。我們工作的演算法創新是一種學習特定主題提取器的方法,用於整個範本的內容選擇。我們使用全域整數線性規劃公式(a global integer linear programming formulation)來增強標準感知器演算法(standard perceptron algorithm),以優化資訊在每個主題中的局部匹配以及整個概述中的全域協同。我們的評估結果證實了將結構資訊納入內容選擇過程的好處。
點擊閱讀原文可查看職位詳情,期待你的加入~
他們使用增強了整數線性規劃(ILP)公式的感知器演算法來預估模型的參數,並在特定領域中的一組訓練用範文中運行該演算法。摘要:
我們研究了一種方法,該方法可以創建某個主題的綜合文本性概述(comprehensive textual overview),這個概述由提取自互聯網的資訊組成。我們使用了人類所創作文本的高級別結構,為新概述的主題架構自動引入一個特定領域範本。我們工作的演算法創新是一種學習特定主題提取器的方法,用於整個範本的內容選擇。我們使用全域整數線性規劃公式(a global integer linear programming formulation)來增強標準感知器演算法(standard perceptron algorithm),以優化資訊在每個主題中的局部匹配以及整個概述中的全域協同。我們的評估結果證實了將結構資訊納入內容選擇過程的好處。
點擊閱讀原文可查看職位詳情,期待你的加入~