資源|MIT自然語言處理資料集和語料庫集合
選自Github
作者:Karthik Narasimhan等
機器之心編譯
參與:李澤南
全國千所高校大資料師資免費講習班【兩天,讓你能夠講授《大資料》課程。報名人數限1500人,先到先得】不容錯過的原因:➀.豪華講師陣容:清華大學博士劉鵬教授領銜的科技創新團隊;➁.重點講習《大資料》教材(中國電腦圖書被引用量第一的《雲計算》姊妹篇);➂.業界大咖對大資料應用的頂級分享;➃.《大資料》《大資料實驗手冊》限量送。
最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的資料集/語料庫清單,以時間順序排列。該列表將持續更新。
項目位址:https://github.com/karthikncode/nlp-datasets
範圍
問答系統
對話系統
面向目標的對話系統
問答系統
MS MARCO:人工生成的機器閱讀理解資料集,來自微軟,2016。
論文:https://arxiv.org/abs/1611.09268
數據:http://www.msmarco.org/
NewsQA:Maluuba 的機器理解資料集,2016。
論文:https://arxiv.org/abs/1611.09830
數據:https://github.com/Maluuba/newsqa
SQuAD:超過 100,000 個問題和其機器理解文本的資料集,由斯坦福大學推出,2016。
論文:https://arxiv.org/abs/1606.05250
數據:https://rajpurkar.github.io/SQuAD-explorer/
GraphQuestions:一個特徵豐富的事實性問題回答資料集,來自 EMNLP 16 論文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016。
數據:https://github.com/ysu1989/GraphQuestions
Story Cloze:一個常見故事的語料庫和有關故事的總結性語句,
論文:https://arxiv.org/abs/1604.01696
Children's Book Test:金髮女孩原則(當給定樣品的一些屬性可以從一個極端到另一個極端(例如從極冷至極熱)的尺度分佈時,一些資料將落在這些極端之間): 以記憶體顯式方式表示的兒童圖書,2015。
論文:https://arxiv.org/abs/1511.02301
SimpleQuestions:大量使用記憶網路的簡單問答資料,2015。
論文:https://arxiv.org/pdf/1506.02075v1.pdf
WikiQA:一個開放問題與回答的挑戰資料集,由微軟推出,2015。
CNN-DailyMail:用於訓練機器進行閱讀理解任務的資料集,
論文:https://arxiv.org/abs/1506.03340
代碼:https://github.com/deepmind/rc-data
數據:http://cs.nyu.edu/~kcho/DMQA/。
QuizBowl:一個神經網路,用於長段回答事實問題,來自馬里蘭大學,2014。
MCTest:一個用於開放問題機器理解文本的資料集,來自微軟,2013。
QASent:Jeopardy 模型?一個用於機器問答的准同步語法資料集,2007。
對話系統
Ubuntu Dialogue Corpus:一個用於非結構化多回路對話系統研究的大型資料集,2015。
論文:https://arxiv.org/abs/1506.08909
面向目標的對話系統
Frames:用於向面向目標的對話系統加入記憶的語料庫,Maluuba,2016。
DSTC 2 & 3:對話狀態跟蹤挑戰(Dialog State Tracking Challenge)2 和 3,2013。
數據:http://camdial.org/~mh521/dstc/
本文為機器之心編譯,
✄------------------------------------------------