您的位置:首頁>正文

資料分析系列之統計學

文/Mykite發佈於2天前閱讀2416評論0喜歡0

閱讀2416

標籤:

資料分析

目錄

第1節:大數定律

第2節:中心極限定理

第3節:隨機抽樣

第4節:回歸分析

第5節:常犯的概率學錯誤

一、“黑天鵝”事件

17世紀之前的歐洲人認為天鵝都是白色的, 甚至經常用“世界上沒有黑色的天鵝”這句諺語去諷刺那些無中生有的人。 但隨著第一隻黑天鵝在澳大利亞被發現, 這句諺語就變成了笑談, 現在“黑天鵝”一般用來指那些影響很大但難以預測的小概率事件。 通過這個例子我們可以瞭解, 忽略那些小概率事件, 會造成多麼嚴重的後果。

2008年美國次貸危機爆發之前, 整個北美金融行業都在使用同一個風險價值模型來預測投資風險。 這個模型的強大之處在於它非常精確, 它能把華爾街每家公司的資產都進行嚴格的概率學分析, 給出預期收益和損失值。 並且還能給這些海量的市場訊息整合成一個簡潔的風險指標提供給美聯儲和財政部參考,

比如分析了以往市場變動資料後, 金融家會根據這個模型給出某項投資在特定週期內可能讓公司蒙受的損失, 而這種預測可以覆蓋高達99%的市場風險。 然而這個模型有一個被忽略的致命問題, 它的概率學模型參照的是過去20年的市場行為, 不能對未知的以外情況作出預測, 所以它預測不了黑天鵝的出現。 這只黑天鵝就是2007年美國商業銀行放貸業務的崩潰, 雖然它發生的概率只有不到1%, 但悲劇確實發生了。 直接導致了一次全球大範圍的金融危機, 失業率達到了10%, 很多國家和政府都陷入了債務危機, 這就是小概率重大事件的破壞力。 難道這是概率學本身出問題了嗎?顯然不是,
模型已經告訴了我們有1%的風險無法預測, 客人們仍然選擇了無視。 所以, 最大的風險永遠都不是那些我們能看得見算得出的, 而是那些看上去似乎概率很小, 我們認為一輩子都不可能發生的風險, 但它的確發生了, 而且比我們想像的要頻繁的多。

案例小結:忽略小概率事件, 有時會造成嚴重的後果

除了黑天鵝還有一個我們容易忽視的問題:統計誤差, 統計學雖然有這嚴謹的數學計算, 但它並不是完美無缺的。 我們通過分析資料推斷出的結論永遠不會是100%正確的, 只要資料分析建立在抽樣調查之上, 樣本的統計結果和正式情況之間就會存在誤差。 雖然隨著樣本數量的增大, 實驗次數的增多,

這樣的誤差會接近於零, 但即使誤差再小, 也不能忽視它的存在。

比如第2節介紹的中心極限定理, 員警通過計算車內乘客的體重分佈, 有99%的把握估計那些體重較大的乘客不是鐵人三項選手, 但這個推理還有1%的概率是錯的, 原因就在於鐵人三項運動員體重樣本的平均值雖然會接近整體的平均值, 但並不能說二者完全相等。 就好像從一棵樹上摘的蘋果, 如果進行精確的化學分析他們的成分和甜度總會有細微的不同。 這就是統計誤差的含義, 我們不可能通過資料得出完全確鑿的真相, 只能通過合理控制誤差來無限接近真相。

二、檢方謬誤

另外舉一個有趣的例子:檢方謬誤。 假設你是一名法官, 聽到公訴人陳述這樣的事實“犯罪現場遺留的DNA樣本和被告的DNA相吻合,

除了被告以外這個樣本和其他人吻合的概率只有百萬分之一, 在這個證據的基礎上你能為被告人定罪嗎?”這時候如果你忽略百萬分之一的誤差就可能會讓無辜的人鋃鐺入獄, 這是因為誤差看似很小, 但警方的DNA樣本庫數量非常龐大, 通過樣本比對找到兩個DNA特徵相似的人並不是不可能的, 所以給犯罪分子定罪時, 不能死守著概率這種破案工具而忽略了性別、年齡、社會關係等其它線索。 在現實中其實也是一樣的, 對那些意義重大的可研結論, 人們往往對概率計算有精確的要求, 比如物理學家在探測引力波是否真實存在的時候, 總計花費了數十億美元用20多年時間來建造探測器, 目的就是必須要把實驗誤差控制在一個極其微小的數量級。事實上這個探測器能探測到小數點後21位,10的負21次冪這個尺度上的引力波變化,愛因斯坦一個多世紀前的預言才最終得到了有說服力的證明。

案例小結:通過統計資料推斷出的結論,必定存在誤差,不會100%正確。即使誤差再小,也不能忽視它的存在。

黑天鵝事件和檢方謬誤充分說明人們對小概率事件和微小誤差的錯誤認識,會讓看似精確的概率計算誤入歧途。精確有時候並不意味著準確,客觀事實和我們對概率的直觀感受往往是有差異的。概率學本身不會犯錯,錯誤的是使用它的人。

其實在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號、日本地震、中國雪災、光大烏龍等,這些事件的發生大多都是因為忽略小概率事件而引起的,有興趣的朋友可以去詳細瞭解。好了,本章內容到這裡就全部講完了,大家有什麼需要瞭解的可以在下面留言或則關注【玩轉會員】獲取後續更新!

目的就是必須要把實驗誤差控制在一個極其微小的數量級。事實上這個探測器能探測到小數點後21位,10的負21次冪這個尺度上的引力波變化,愛因斯坦一個多世紀前的預言才最終得到了有說服力的證明。

案例小結:通過統計資料推斷出的結論,必定存在誤差,不會100%正確。即使誤差再小,也不能忽視它的存在。

黑天鵝事件和檢方謬誤充分說明人們對小概率事件和微小誤差的錯誤認識,會讓看似精確的概率計算誤入歧途。精確有時候並不意味著準確,客觀事實和我們對概率的直觀感受往往是有差異的。概率學本身不會犯錯,錯誤的是使用它的人。

其實在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號、日本地震、中國雪災、光大烏龍等,這些事件的發生大多都是因為忽略小概率事件而引起的,有興趣的朋友可以去詳細瞭解。好了,本章內容到這裡就全部講完了,大家有什麼需要瞭解的可以在下面留言或則關注【玩轉會員】獲取後續更新!

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示