華文網

20 份古怪的機器學習資料集 ……

每日乾貨好文分享丨請點擊+關注

fridaybifly,邀請你進入頭條資料愛好者交流群,資料愛好者們都在這兒。

有人說,機器學習 95% 的問題在於資料。如今開放資料越來越多,幾乎在任何領域裡都有開源分享的資料集。但是要找到有趣的資料集還是有些難度的,為了深入瞭解,我廣泛搜索了諸多資料,並且把我發現的一些資料集進行的小小的整理並作分享。

想到可能有些人會需要用到,所以這裡整理了 20 份出色但又古怪的資料集,你可能在機器學習過程中用得上。

資料集包括(這裡只列舉一部分):

智慧手機記錄的人類行為(行走、坐立等)

賽馬資料

垃圾短信資料

Flickr 圖片中隱藏的美女

心跳聲記錄

酒品質量

...

https://gist.github.com/olivercameron/482dcfe8f34d66b536b1048eefe8b40d#file-datasets-csv

需要注意的是,我尚未完整驗證過這些資料集是否確實(在資料集大小或者準確度方面)對機器學習訓練有用,

在玩轉這些資料的時候請自行判斷(並且注意檢查授權許可)。

如果你要問我最喜歡的是哪一個,我想那應該是那份有著 80,000 多個 UFO 報告的資料集。

此外,還有一份包括了 200 年國際威脅衝突的洲際軍事糾紛資料集,它包括了具體的措施、戰鬥的等級、傷亡情況和結局。

選自:Medium

作者:Oliver Cameron

翻譯:張佳維

fridaybifly,邀請你進入頭條資料愛好者交流群,資料愛好者們都在這兒。

原文連結:https://ask.hellobi.com/blog/ml_daily/6577 。