華文網

資源|MIT自然語言處理資料集和語料庫集合

選自Github

作者:Karthik Narasimhan等

機器之心編譯

參與:李澤南

全國千所高校大資料師資免費講習班【兩天,讓你能夠講授《大資料》課程。報名人數限1500人,先到先得】不容錯過的原因:➀.豪華講師陣容:清華大學博士劉鵬教授領銜的科技創新團隊;➁.重點講習《大資料》教材(中國電腦圖書被引用量第一的《雲計算》姊妹篇);➂.業界大咖對大資料應用的頂級分享;➃.《大資料》《大資料實驗手冊》限量送。

點擊“閱讀原文”報名。

最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的資料集/語料庫清單,以時間順序排列。該列表將持續更新。

項目位址:https://github.com/karthikncode/nlp-datasets

範圍

問答系統

對話系統

面向目標的對話系統

問答系統

MS MARCO:人工生成的機器閱讀理解資料集,來自微軟,2016。

論文:https://arxiv.org/abs/1611.09268

數據:http://www.msmarco.org/

NewsQA:Maluuba 的機器理解資料集,2016。

論文:https://arxiv.org/abs/1611.09830

數據:https://github.com/Maluuba/newsqa

SQuAD:超過 100,000 個問題和其機器理解文本的資料集,由斯坦福大學推出,2016。

論文:https://arxiv.org/abs/1606.05250

數據:https://rajpurkar.github.io/SQuAD-explorer/

GraphQuestions:一個特徵豐富的事實性問題回答資料集,來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。

數據:https://github.com/ysu1989/GraphQuestions

Story Cloze:一個常見故事的語料庫和有關故事的總結性語句,

來自美國羅切斯特大學,2016。

論文:https://arxiv.org/abs/1604.01696

Children's Book Test:金髮女孩原則(當給定樣品的一些屬性可以從一個極端到另一個極端(例如從極冷至極熱)的尺度分佈時,一些資料將落在這些極端之間): 以記憶體顯式方式表示的兒童圖書,2015。

論文:https://arxiv.org/abs/1511.02301

SimpleQuestions:大量使用記憶網路的簡單問答資料,2015。

論文:https://arxiv.org/pdf/1506.02075v1.pdf

WikiQA:一個開放問題與回答的挑戰資料集,由微軟推出,2015。

CNN-DailyMail:用於訓練機器進行閱讀理解任務的資料集,

2015。

論文:https://arxiv.org/abs/1506.03340

代碼:https://github.com/deepmind/rc-data

數據:http://cs.nyu.edu/~kcho/DMQA/。

QuizBowl:一個神經網路,用於長段回答事實問題,來自馬里蘭大學,2014。

MCTest:一個用於開放問題機器理解文本的資料集,來自微軟,2013。

QASent:Jeopardy 模型?一個用於機器問答的准同步語法資料集,2007。

對話系統

Ubuntu Dialogue Corpus:一個用於非結構化多回路對話系統研究的大型資料集,2015。

論文:https://arxiv.org/abs/1506.08909

面向目標的對話系統

Frames:用於向面向目標的對話系統加入記憶的語料庫,Maluuba,2016。

DSTC 2 & 3:對話狀態跟蹤挑戰(Dialog State Tracking Challenge)2 和 3,2013。

數據:http://camdial.org/~mh521/dstc/

本文為機器之心編譯,

✄------------------------------------------------