資料分析系列之統計學
閱讀2416
標籤:
資料分析目錄
第1節:大數定律
第2節:中心極限定理
第3節:隨機抽樣
第4節:回歸分析
第5節:常犯的概率學錯誤
一、“黑天鵝”事件
17世紀之前的歐洲人認為天鵝都是白色的,甚至經常用“世界上沒有黑色的天鵝”這句諺語去諷刺那些無中生有的人。但隨著第一隻黑天鵝在澳大利亞被發現,這句諺語就變成了笑談,現在“黑天鵝”一般用來指那些影響很大但難以預測的小概率事件。通過這個例子我們可以瞭解,
2008年美國次貸危機爆發之前,整個北美金融行業都在使用同一個風險價值模型來預測投資風險。這個模型的強大之處在於它非常精確,它能把華爾街每家公司的資產都進行嚴格的概率學分析,給出預期收益和損失值。並且還能給這些海量的市場訊息整合成一個簡潔的風險指標提供給美聯儲和財政部參考,
案例小結:忽略小概率事件,有時會造成嚴重的後果
除了黑天鵝還有一個我們容易忽視的問題:統計誤差,統計學雖然有這嚴謹的數學計算,但它並不是完美無缺的。我們通過分析資料推斷出的結論永遠不會是100%正確的,只要資料分析建立在抽樣調查之上,樣本的統計結果和正式情況之間就會存在誤差。
比如第2節介紹的中心極限定理,員警通過計算車內乘客的體重分佈,有99%的把握估計那些體重較大的乘客不是鐵人三項選手,但這個推理還有1%的概率是錯的,原因就在於鐵人三項運動員體重樣本的平均值雖然會接近整體的平均值,但並不能說二者完全相等。就好像從一棵樹上摘的蘋果,如果進行精確的化學分析他們的成分和甜度總會有細微的不同。這就是統計誤差的含義,我們不可能通過資料得出完全確鑿的真相,只能通過合理控制誤差來無限接近真相。
二、檢方謬誤
另外舉一個有趣的例子:檢方謬誤。假設你是一名法官,聽到公訴人陳述這樣的事實“犯罪現場遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個樣本和其他人吻合的概率只有百萬分之一,在這個證據的基礎上你能為被告人定罪嗎?”這時候如果你忽略百萬分之一的誤差就可能會讓無辜的人鋃鐺入獄,這是因為誤差看似很小,但警方的DNA樣本庫數量非常龐大,通過樣本比對找到兩個DNA特徵相似的人並不是不可能的,所以給犯罪分子定罪時,不能死守著概率這種破案工具而忽略了性別、年齡、社會關係等其它線索。在現實中其實也是一樣的,對那些意義重大的可研結論,人們往往對概率計算有精確的要求,比如物理學家在探測引力波是否真實存在的時候,總計花費了數十億美元用20多年時間來建造探測器,目的就是必須要把實驗誤差控制在一個極其微小的數量級。事實上這個探測器能探測到小數點後21位,10的負21次冪這個尺度上的引力波變化,愛因斯坦一個多世紀前的預言才最終得到了有說服力的證明。
案例小結:通過統計資料推斷出的結論,必定存在誤差,不會100%正確。即使誤差再小,也不能忽視它的存在。
黑天鵝事件和檢方謬誤充分說明人們對小概率事件和微小誤差的錯誤認識,會讓看似精確的概率計算誤入歧途。精確有時候並不意味著準確,客觀事實和我們對概率的直觀感受往往是有差異的。概率學本身不會犯錯,錯誤的是使用它的人。
其實在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號、日本地震、中國雪災、光大烏龍等,這些事件的發生大多都是因為忽略小概率事件而引起的,有興趣的朋友可以去詳細瞭解。好了,本章內容到這裡就全部講完了,大家有什麼需要瞭解的可以在下面留言或則關注【玩轉會員】獲取後續更新!
但並不能說二者完全相等。就好像從一棵樹上摘的蘋果,如果進行精確的化學分析他們的成分和甜度總會有細微的不同。這就是統計誤差的含義,我們不可能通過資料得出完全確鑿的真相,只能通過合理控制誤差來無限接近真相。二、檢方謬誤
另外舉一個有趣的例子:檢方謬誤。假設你是一名法官,聽到公訴人陳述這樣的事實“犯罪現場遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個樣本和其他人吻合的概率只有百萬分之一,在這個證據的基礎上你能為被告人定罪嗎?”這時候如果你忽略百萬分之一的誤差就可能會讓無辜的人鋃鐺入獄,這是因為誤差看似很小,但警方的DNA樣本庫數量非常龐大,通過樣本比對找到兩個DNA特徵相似的人並不是不可能的,所以給犯罪分子定罪時,不能死守著概率這種破案工具而忽略了性別、年齡、社會關係等其它線索。在現實中其實也是一樣的,對那些意義重大的可研結論,人們往往對概率計算有精確的要求,比如物理學家在探測引力波是否真實存在的時候,總計花費了數十億美元用20多年時間來建造探測器,目的就是必須要把實驗誤差控制在一個極其微小的數量級。事實上這個探測器能探測到小數點後21位,10的負21次冪這個尺度上的引力波變化,愛因斯坦一個多世紀前的預言才最終得到了有說服力的證明。
案例小結:通過統計資料推斷出的結論,必定存在誤差,不會100%正確。即使誤差再小,也不能忽視它的存在。
黑天鵝事件和檢方謬誤充分說明人們對小概率事件和微小誤差的錯誤認識,會讓看似精確的概率計算誤入歧途。精確有時候並不意味著準確,客觀事實和我們對概率的直觀感受往往是有差異的。概率學本身不會犯錯,錯誤的是使用它的人。
其實在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號、日本地震、中國雪災、光大烏龍等,這些事件的發生大多都是因為忽略小概率事件而引起的,有興趣的朋友可以去詳細瞭解。好了,本章內容到這裡就全部講完了,大家有什麼需要瞭解的可以在下面留言或則關注【玩轉會員】獲取後續更新!