每日乾貨好文分享丨請點擊+關注
fridaybifly, 邀請你進入頭條資料愛好者交流群, 資料愛好者們都在這兒。
有人說, 機器學習 95% 的問題在於資料。
想到可能有些人會需要用到, 所以這裡整理了 20 份出色但又古怪的資料集, 你可能在機器學習過程中用得上。
資料集包括(這裡只列舉一部分):
智慧手機記錄的人類行為(行走、坐立等)
賽馬資料
垃圾短信資料
Flickr 圖片中隱藏的美女
心跳聲記錄
酒品質量
...
https://gist.github.com/olivercameron/482dcfe8f34d66b536b1048eefe8b40d#file-datasets-csv
需要注意的是, 我尚未完整驗證過這些資料集是否確實(在資料集大小或者準確度方面)對機器學習訓練有用, 在玩轉這些資料的時候請自行判斷(並且注意檢查授權許可)。
如果你要問我最喜歡的是哪一個, 我想那應該是那份有著 80,000 多個 UFO 報告的資料集。
此外, 還有一份包括了 200 年國際威脅衝突的洲際軍事糾紛資料集, 它包括了具體的措施、戰鬥的等級、傷亡情況和結局。
選自:Medium
作者:Oliver Cameron
翻譯:張佳維
fridaybifly, 邀請你進入頭條資料愛好者交流群, 資料愛好者們都在這兒。原文連結:https://ask.hellobi.com/blog/ml_daily/6577 。