您的位置:首頁>正文

這500個球球實驗,讓你全面瞭解什麼是“資料採擷”

撰稿|每日君

對於資料採擷, 說實話每日君也是似懂非懂!本身也是非技術出身, 但是呢每日君找來這個例子, 絕對能讓小白一看就懂什麼資料採擷……。 很好玩的一個比喻, 值得玩味!慢慢看啊……

6666

讓每日君帶你們看一個人為設計的場景。 假設一個房間裡神奇地漂浮著無數個小球。 我們想搞清楚這些小球停留的位置是否存在著一種特定的結構。 比方說, 小球是不是更易集中在某一特定區域?是不是故意避開某些點位?它們是均勻分佈於整個空間嗎?

別著急, 讓每日君慢慢擼一下這個實驗……

你們可能會問了, 房間一片漆黑, 我們什麼也看不見啊?我們用一部帶閃光燈的照相機, 想把漂浮在整個房間的小球都拍下來。

照片猶如下圖一樣:

整體拍攝

就算小球的位置之間確實存在某種聯繫, 從這張照片上我們也看不出個所以然。 看上去小球就像是均勻分佈的一樣。 所以我們嘗試著換了下位置, 從新的角度拍下了第二張照片。

換個角度拍攝

照片上的小球看起來還是隨機分佈的, 沒有任何規律。 讓我們換個高點的角度試試看。

從高處拍攝

呃, 還是看不出有什麼規律來。 那我們最後再換個低點的角度試一次。

從低角度拍攝

啊哈, 這次有點意思了:看起來小球集中分佈在靠近屋頂和地面的兩個區域, 中間這段沒有一個小球。

因此, 為了發現這個規律, 我們在拍照時就必須找到一個“好”的角度。 如果角度不對, 那我們永遠都不可能找出任何規律。

所以, 還是那句話, 主要看姿勢……

6666

6666

姿勢對了,才能找到點(適合腦補……)

在上面這個例子中,我們想說的其實是三維資料點(不懂?百度啊)。

每個小球的位置都可以由3個數位來表示,每個數位分別代表它在XYZ三條軸上的位置。在實際的電腦運算中,資料點的位置會由更多的數位組合來表示。

什麼?還不明白?小麥穗再舉一個例子……

醫院病人的病歷可能會包含500組數位,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標等等。醫院、醫生、醫療領域的創業者可能會想要搞清楚,不同病人的資料點之間是否存在某種規律,然後針對性的進行分析、針對。

如心臟病人的資料點是否會集中分佈?如果資料點確實會集中分佈,當我們發現新入院病人的資料點也出現同樣的趨勢時,我們就可以推斷這位病人很可能犯心臟病。當然,實際操作起來肯定不會如此簡單。

這難道就是醫療行業大資料的收集、分析?厲害了我的病……

6666

一個人是不可能用肉眼看到這些資料點的。人怎麼可能分得清500個維度呢?就像在上面那個例子中,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個維度中的那些資料點。我們可以用二維圖片(就是上面那些拍照出來的小球球)來展示位於三維空間中的資料點,用同樣的方法,我們也可以更低維度的“照片”來表現擁有500個維度的資料點。

只有從合適的“角度”拍下“照片”,我們才可以從中找出不同資料點之間的規律,不然將很難有所發現。這就是人們所說的如何從“大資料”中“發現見解”。

上面的圖片是用專門的軟體製作的。哈哈……不過沒關係,只要你看懂了就行!

6666

以上,供非專業人士參考,專業人士可以繞道……也可以留言給出你的見解!也可以過來噴一下賤賤的每日君

這個實驗你看懂了嗎? (單選) 0人 0% 沒看懂 0人 0% 懂了 投票

……

6666

姿勢對了,才能找到點(適合腦補……)

在上面這個例子中,我們想說的其實是三維資料點(不懂?百度啊)。

每個小球的位置都可以由3個數位來表示,每個數位分別代表它在XYZ三條軸上的位置。在實際的電腦運算中,資料點的位置會由更多的數位組合來表示。

什麼?還不明白?小麥穗再舉一個例子……

醫院病人的病歷可能會包含500組數位,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標等等。醫院、醫生、醫療領域的創業者可能會想要搞清楚,不同病人的資料點之間是否存在某種規律,然後針對性的進行分析、針對。

如心臟病人的資料點是否會集中分佈?如果資料點確實會集中分佈,當我們發現新入院病人的資料點也出現同樣的趨勢時,我們就可以推斷這位病人很可能犯心臟病。當然,實際操作起來肯定不會如此簡單。

這難道就是醫療行業大資料的收集、分析?厲害了我的病……

6666

一個人是不可能用肉眼看到這些資料點的。人怎麼可能分得清500個維度呢?就像在上面那個例子中,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個維度中的那些資料點。我們可以用二維圖片(就是上面那些拍照出來的小球球)來展示位於三維空間中的資料點,用同樣的方法,我們也可以更低維度的“照片”來表現擁有500個維度的資料點。

只有從合適的“角度”拍下“照片”,我們才可以從中找出不同資料點之間的規律,不然將很難有所發現。這就是人們所說的如何從“大資料”中“發現見解”。

上面的圖片是用專門的軟體製作的。哈哈……不過沒關係,只要你看懂了就行!

6666

以上,供非專業人士參考,專業人士可以繞道……也可以留言給出你的見解!也可以過來噴一下賤賤的每日君

這個實驗你看懂了嗎? (單選) 0人 0% 沒看懂 0人 0% 懂了 投票

……

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示