人人都要學會統計學！

作為大資料時代炙手可熱的學問，統計學可以解決很多實際問題。可如果運用不當，統計學也會製造假像、造成誤導。因此，我們很有必要掌握一些統計學中的概念和原理，

它們並不艱澀難懂，卻能幫我們讀懂真相，預測未來。

一、大數定律

相同條件下，當隨機試驗次數足夠多時，實驗結果的平均值會無限接近 “期望值”。

1. 我們可以通過研究概率，明智地選擇投資理財方式

【案例】就算是某期彩票爆出大獎掏空了獎池，從長遠看，發行彩票也是穩賺不賠。根據“大數定律”，發行機構只要保證彩票的銷售額大於獎金期望值，就肯定賺錢，所以沉溺於博彩是非常不理智的。

對於投資門檻高、風險大，但是回報很高的項目，如果把注意力都放在高回報率上很危險。大數定律成立的前提是“試驗次數足夠多”，如果你沒有承擔多次投資失敗的資本，孤注一擲的投資很可能會血本無歸。

2. 幫助我們理性面對風險

【案例】對小額電子產品推出的付費延保服務，商家肯定穩賺不賠，用戶選擇付費延保基本上等於浪費錢。但對於那些大額度人身、財產意外險，它們更多的是一個規避風險的理性工具，幫你在遭受一些難以承受的巨大損失時渡過難關。雖然保險公司賺取了巨大的利潤，這種錢我們還必須得花。

二、中心極限定理

依據該定理，我們對一個基數龐大的群體做統計調查時，只要對其中的一部分樣本進行研究，得出的結論就能反映整個群體的特點。

1. 如果掌握了某個群體的具體資訊，就能推理出從這個群體中正確抽取隨機樣本的情況。

【案例】一個城市同時在舉辦馬拉松比賽和吃熱狗大賽，

比賽前有一輛載滿外國馬拉松運動員的公車失蹤了，結果員警找到了一輛載滿大胖子外國人的公車。由於語言不通，員警只能根據經驗判斷：即使馬拉松選手裡面可能也有一兩個略重的，但是滿車都是胖子不大可能，因此很可能找錯了車。

2. 如果已知兩個樣本的基本特性，就能推理出這兩個樣本是不是來自同一個群體。

【案例】上述案例中如果找到兩輛車，乘客各自有胖有瘦，該怎麼判斷？這時候可以測量乘客體重，計算體重分佈的標準差。根據中心極限定理，馬拉松運動員群體的體重標準差是明顯小於普通群體的，他們的體重分佈更加集中于平均值周圍。由此仍然可以判斷出哪輛車是我們要找的。

三、隨機抽樣

這是收集資料的主要方法，核心是必須保證每個物件被抽到的概率完全相等。但大部分調查的對象是人群，人口組成非常複雜。如果不能保證等概率抽樣，抽樣資料就會存在“偏見”，就會得出錯誤結論。

1. 選擇性偏見：樣本選擇帶有潛在傾向性時就會出現。

【案例】1936年美國總統大選時，《文學文摘》雜誌面向訂閱者開展的民意測驗，是史上知名度最高的統計錯誤。雜誌編輯沒有意識到，訂閱這本雜誌的人平均來說要比普通美國民眾更富有，他們更傾向於投票給保護富人利益的共和黨。這樣帶有選擇性偏見的樣本即使容量很大，也無法正確反映民意。

2. 倖存者偏見：如果樣本中有資料缺失，會導致樣本組成發生改變。

【案例】很多投資基金公司會同時開放20檔新基金，經過三年的經營，總會有2到3檔基金連續三年“跑贏”標準普爾指數。公司只要把十幾隻失敗的基金悄悄關閉，大肆宣傳這兩三隻“倖存者”，就可以把投資者的錢騙進來了。而實際上，這些“倖存”基金接下來的表現會逐漸回歸平均水準。

3. 健康用戶偏見：用來比對的樣本其實選擇在了不同群體當中。

【案例】假設衛生部門發現，哈佛大學新生中有98%的人在少年時期穿紫色睡衣，而監獄裡的犯人中只有3%的人這樣做過。因此得出了一個結論：穿紫色睡衣的孩子確實更有可能取得成功。這很顯然是很荒謬的結論，這個問題在於我們用來對比的兩組人根本就是兩類人。真正對孩子大腦發育起作用的，是給孩子穿上紫色睡衣的家長，他們更注重對孩子的家庭教育。

四、回歸分析

1. 對那些錯綜複雜的問題，回歸分析可以通過建模計算，從已知現象中還原未知原因，甚至可以計算每種原因對結果的貢獻比例。

【案例】醫學家發現，級別較低的公務員更容易患上心臟病。 “白廳”研究項目組經過長時間縱向資料獲取，比對了可能導致心臟病的一系列原因，包括低階公務員的學歷普遍偏低、煙民比例高、醫療服務差、加班多、鍛煉少等等。面對這些錯綜複雜的變數，統計學家建立回歸方程，計算了各個變數和心臟病發病率的線性關係。回歸分析表明，造成心臟病高發的真正原因，是對工作缺乏控制力和話語權。而這類存在感較低的崗位，在低級別職位中更常見。

2. 電腦永遠不能代替人的工作，如果在進行回歸分析時遺漏了變數，就會得出危險的結論。

【案例】上世紀90年代，哈佛大學醫學院對12萬名女性開展縱向調查，經回歸分析顯示，定期攝入雌激素可以減少女性心臟病發病率，隨後醫院開始提供雌激素的補充治療。而後來的臨床試驗發現，此舉會導致乳腺癌和血栓病高發，因此死亡的女性患者可能達到上萬人。

五、常犯的概率學錯誤

1. “黑天鵝”事件：忽視小概率事件，有時會造成嚴重的後果。

【案例】2008年美國次貸危機爆發前，整個北美金融行業都在使用同一個風險價值模型來預測投資風險。這個模型的強大之處在於它非常精確，可以預測99%的市場風險。然而，該模型是根據過去20年的市場行為建立的，不能對剩餘1%的意外情況做出預測。可是，隨著2007年美國商業銀行房貸業務的崩潰，“黑天鵝”真的出現了，整個華爾街措手不及，一次全球大範圍的金融危機因此爆發。

2. “檢方謬誤”：通過統計資料推斷出的結論，必定存在誤差，不會100%正確。即使誤差再小，也不能忽視它的存在。

【案例】假設一名法官被告知：犯罪現場遺留的 DNA 樣本和被告的 DNA 相吻合，除了被告以外，這個樣本和其他人 DNA 相吻合的概率只有百萬分之一。如果僅憑這些證據為被告人定罪，就可能出現冤案。百萬分之一的誤差看似很小，但警方的 DNA 樣本庫數量非常龐大，通過樣本比對，找到兩個 DNA 特徵相似的人並非不可能。

是給孩子穿上紫色睡衣的家長，他們更注重對孩子的家庭教育。