撰稿|每日君
對於資料採擷, 說實話每日君也是似懂非懂!本身也是非技術出身, 但是呢每日君找來這個例子, 絕對能讓小白一看就懂什麼資料採擷……。 很好玩的一個比喻, 值得玩味!慢慢看啊……
6666
讓每日君帶你們看一個人為設計的場景。 假設一個房間裡神奇地漂浮著無數個小球。 我們想搞清楚這些小球停留的位置是否存在著一種特定的結構。 比方說, 小球是不是更易集中在某一特定區域?是不是故意避開某些點位?它們是均勻分佈於整個空間嗎?
別著急, 讓每日君慢慢擼一下這個實驗……
你們可能會問了, 房間一片漆黑, 我們什麼也看不見啊?我們用一部帶閃光燈的照相機, 想把漂浮在整個房間的小球都拍下來。
照片猶如下圖一樣:
整體拍攝
就算小球的位置之間確實存在某種聯繫, 從這張照片上我們也看不出個所以然。 看上去小球就像是均勻分佈的一樣。 所以我們嘗試著換了下位置, 從新的角度拍下了第二張照片。
換個角度拍攝
照片上的小球看起來還是隨機分佈的, 沒有任何規律。 讓我們換個高點的角度試試看。
從高處拍攝
呃, 還是看不出有什麼規律來。 那我們最後再換個低點的角度試一次。
從低角度拍攝
啊哈, 這次有點意思了:看起來小球集中分佈在靠近屋頂和地面的兩個區域, 中間這段沒有一個小球。
所以, 還是那句話, 主要看姿勢……
6666
6666
姿勢對了,才能找到點(適合腦補……)
在上面這個例子中,我們想說的其實是三維資料點(不懂?百度啊)。
每個小球的位置都可以由3個數位來表示,每個數位分別代表它在XYZ三條軸上的位置。在實際的電腦運算中,資料點的位置會由更多的數位組合來表示。
什麼?還不明白?小麥穗再舉一個例子……
醫院病人的病歷可能會包含500組數位,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標等等。醫院、醫生、醫療領域的創業者可能會想要搞清楚,不同病人的資料點之間是否存在某種規律,然後針對性的進行分析、針對。
如心臟病人的資料點是否會集中分佈?如果資料點確實會集中分佈,當我們發現新入院病人的資料點也出現同樣的趨勢時,我們就可以推斷這位病人很可能犯心臟病。當然,實際操作起來肯定不會如此簡單。
這難道就是醫療行業大資料的收集、分析?厲害了我的病……
6666
一個人是不可能用肉眼看到這些資料點的。人怎麼可能分得清500個維度呢?就像在上面那個例子中,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個維度中的那些資料點。我們可以用二維圖片(就是上面那些拍照出來的小球球)來展示位於三維空間中的資料點,用同樣的方法,我們也可以更低維度的“照片”來表現擁有500個維度的資料點。
只有從合適的“角度”拍下“照片”,我們才可以從中找出不同資料點之間的規律,不然將很難有所發現。這就是人們所說的如何從“大資料”中“發現見解”。
上面的圖片是用專門的軟體製作的。哈哈……不過沒關係,只要你看懂了就行!
6666
以上,供非專業人士參考,專業人士可以繞道……也可以留言給出你的見解!也可以過來噴一下賤賤的每日君
這個實驗你看懂了嗎? (單選) 0人 0% 沒看懂 0人 0% 懂了 投票
……
6666
姿勢對了,才能找到點(適合腦補……)
在上面這個例子中,我們想說的其實是三維資料點(不懂?百度啊)。
每個小球的位置都可以由3個數位來表示,每個數位分別代表它在XYZ三條軸上的位置。在實際的電腦運算中,資料點的位置會由更多的數位組合來表示。
什麼?還不明白?小麥穗再舉一個例子……
醫院病人的病歷可能會包含500組數位,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標等等。醫院、醫生、醫療領域的創業者可能會想要搞清楚,不同病人的資料點之間是否存在某種規律,然後針對性的進行分析、針對。
如心臟病人的資料點是否會集中分佈?如果資料點確實會集中分佈,當我們發現新入院病人的資料點也出現同樣的趨勢時,我們就可以推斷這位病人很可能犯心臟病。當然,實際操作起來肯定不會如此簡單。
這難道就是醫療行業大資料的收集、分析?厲害了我的病……
6666
一個人是不可能用肉眼看到這些資料點的。人怎麼可能分得清500個維度呢?就像在上面那個例子中,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個維度中的那些資料點。我們可以用二維圖片(就是上面那些拍照出來的小球球)來展示位於三維空間中的資料點,用同樣的方法,我們也可以更低維度的“照片”來表現擁有500個維度的資料點。
只有從合適的“角度”拍下“照片”,我們才可以從中找出不同資料點之間的規律,不然將很難有所發現。這就是人們所說的如何從“大資料”中“發現見解”。
上面的圖片是用專門的軟體製作的。哈哈……不過沒關係,只要你看懂了就行!
6666
以上,供非專業人士參考,專業人士可以繞道……也可以留言給出你的見解!也可以過來噴一下賤賤的每日君
這個實驗你看懂了嗎? (單選) 0人 0% 沒看懂 0人 0% 懂了 投票
……