資源｜MIT自然語言處理資料集和語料庫集合

分類＼科技
時間＼2017-03-22

選自Github

作者：Karthik Narasimhan等

機器之心編譯

參與：李澤南

全國千所高校大資料師資免費講習班【兩天，讓你能夠講授《大資料》課程。報名人數限1500人，先到先得】不容錯過的原因：➀.豪華講師陣容：清華大學博士劉鵬教授領銜的科技創新團隊；➁.重點講習《大資料》教材（中國電腦圖書被引用量第一的《雲計算》姊妹篇）；➂.業界大咖對大資料應用的頂級分享；➃.《大資料》《大資料實驗手冊》限量送。

點擊“閱讀原文”報名。

最近，麻省理工學院（MIT）的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理（NLP）準備的資料集/語料庫清單，以時間順序排列。該列表將持續更新。

項目位址：https://github.com/karthikncode/nlp-datasets

範圍

問答系統

對話系統

面向目標的對話系統

問答系統

MS MARCO：人工生成的機器閱讀理解資料集，來自微軟，2016。

論文：https://arxiv.org/abs/1611.09268

數據：http://www.msmarco.org/

NewsQA：Maluuba 的機器理解資料集，2016。

論文：https://arxiv.org/abs/1611.09830

數據：https://github.com/Maluuba/newsqa

SQuAD：超過 100,000 個問題和其機器理解文本的資料集，由斯坦福大學推出，2016。

論文：https://arxiv.org/abs/1606.05250

數據：https://rajpurkar.github.io/SQuAD-explorer/

GraphQuestions：一個特徵豐富的事實性問題回答資料集，來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》，2016。

數據：https://github.com/ysu1989/GraphQuestions

Story Cloze：一個常見故事的語料庫和有關故事的總結性語句，

來自美國羅切斯特大學，2016。

論文：https://arxiv.org/abs/1604.01696

Children's Book Test：金髮女孩原則（當給定樣品的一些屬性可以從一個極端到另一個極端（例如從極冷至極熱）的尺度分佈時，一些資料將落在這些極端之間）: 以記憶體顯式方式表示的兒童圖書，2015。

論文：https://arxiv.org/abs/1511.02301

SimpleQuestions：大量使用記憶網路的簡單問答資料，2015。

論文：https://arxiv.org/pdf/1506.02075v1.pdf

WikiQA：一個開放問題與回答的挑戰資料集，由微軟推出，2015。

CNN-DailyMail：用於訓練機器進行閱讀理解任務的資料集，

2015。

論文：https://arxiv.org/abs/1506.03340

代碼：https://github.com/deepmind/rc-data

數據：http://cs.nyu.edu/~kcho/DMQA/。

QuizBowl：一個神經網路，用於長段回答事實問題，來自馬里蘭大學，2014。

MCTest：一個用於開放問題機器理解文本的資料集，來自微軟，2013。

QASent：Jeopardy 模型？一個用於機器問答的准同步語法資料集，2007。

對話系統

Ubuntu Dialogue Corpus：一個用於非結構化多回路對話系統研究的大型資料集，2015。

論文：https://arxiv.org/abs/1506.08909

面向目標的對話系統

Frames：用於向面向目標的對話系統加入記憶的語料庫，Maluuba，2016。

DSTC 2 & 3：對話狀態跟蹤挑戰（Dialog State Tracking Challenge）2 和 3，2013。

數據：http://camdial.org/~mh521/dstc/

本文為機器之心編譯，

。

✄------------------------------------------------