Frequentist vs Bayesian 3: p 值的9個認識誤區

在Frequentist vs Bayesian 系列文章中我們一直提到，很多人一直錯誤理解，錯誤使用p值，導致心理學科學進展不進反退。那麼在此文，我們就說說那些年，

p值的9個認識誤區。（原文在醫學研究背景上討論p值：A dirty dozen: twelve p-value misconceptions）

（P.S. 本文封面是Neyman 和 Pearson， Neyman-Pearson 的統計邏輯就是我們現在用p值做假設鑒定的邏輯。）

誤區1：如果p<0.05，那麼H0/ null hypothesis只有5%是對的。

看過前兩篇文章的讀者應該都知道這個是錯的死死的，但是這絕對是最普遍的對於p值的錯誤認識。這時候我們又要回顧一下p值的定義了。

p值是：假設效應並不存在（null effect），你收集到了你收集了的資料以及更極端的資料的概率是多少。

用圖片表示就是：

（此圖來自D. Laken Statistical Inference課程截圖，課程coursera主頁：Coursera | Online Courses From Top Universities. Join for Free 。 Open Science Club也發表過陳紹慶老師為這個課程做過的中英文字幕以及其使用指南：「提昇你的統計推論功力」中文資源使用說明及學習指南。這個課程Sharon也是強烈推薦。有少許統計基礎的同學可以借助這節課提示自己對統計的認識。）

所以， p值並不能告訴你，一個理論存在與否的概率，而只能告訴你，在這個理論是錯的前提下，你的資料+你有可能收集到但是沒收集到的更加極端的資料（long run/ fequentists）的概率。

誤區2：如果得到了p>0.05（也就是我們常說的不顯著），我們可以得出結論：兩組之間無差異。

同理的，既然p值並不能告訴我們一個效應或者理論是否存在，那麼p值多少，顯著與否，並不能為我們提供直接證據去承認或者推翻任何東西。

誤區3：一個顯著的結論從學術角度來說是很重要的。

誤區4：如果兩個實驗的資料，一個得出p<0.05, 另外一個得出p>0.05，那麼這兩個實驗結論是互相排斥的。

誤區5：如果兩個實驗的資料得出一樣的p值，就證明兩個實驗擁有一樣有力的證據反駁null hypothesis.

這三個誤區都可以引出一個上一篇文章（你的貝葉斯）提到過的問題。和Bayesian資料統計相比， p值無法量化證據（quantify evidence）。 p值無法告訴你，你所謂“顯著的”效應有多大，有多小。 CI/置信區間或許可以（但其實基於Frequentist的置信區間也是非常不可靠，日後Sharon會詳細說的）。

所以，顯著的差別有可能是很小的差別，並沒有太重要的意義。

而如下圖顯示，同樣的效應可以有互相排斥的p值，而從一樣的p值可以得出不同的效應。

誤區6：p<0.05意味著，在H0/Null Hypothesis成立的前提下，只有5%的機會我們收集到手頭上的資料。

想清楚了， p值的定義是：假設效應並不存在（null effect），

你收集到了你收集了的資料以及更極端的資料的概率是多少。這一部分更極端的資料，是實際上不存在的，但是它假設你有。這些不存在的極端資料只存在於我們想像中的，想做但是沒有做的實驗。所以原則上來說，兩個實驗的資料可以擁有一樣的資料，一樣的被試，但是如果想像中的實驗是不一樣的， p值就會不一樣。這也同時帶出一系列利用p值作弊的現象。比如利用無法用文獻或者資料支援的樣本量，在看到p值掉到0.05的時候就停止收集資料（unjustifiable stopping rule）。

誤區7：p=0.05 & p <= 0.05 一模一樣

根據p值和我們的數學常識的的定義，我們知道這兩個東西肯定不一樣。

誤區8：用小於或等於符號來表達p值（例如：p = 0.049 ---> p <= 0.05 ）

我們通常會拿p值和一個數字比較，例如最常用的0.05。這個代表著0.05的一類錯誤（type 1 error rate (or “alpha”) ），指的是，我們錯誤接受了陰性結果為陽性的概率。比如在法庭上的：所有人在定罪之前都是清白的，就是把alpha設置得很低，必須有很厲害的證據，才能定罪。儘管p值無法定量證據大小多少，但是p=0.049和p <= 0.05絕對不是一回事。這樣的表達只會誤導人們。

誤區9：如果我不在乎另外一邊的結果，或者另外一邊的結論不可能成立，那就用一邊p值（one-sided p value）

如果我們相比較兩組（A和B）資料差異是否顯著，我們會有兩個假設，H1：兩組資料差異顯著，H0：兩組資料差異不顯著。但是，H1下有兩個可能性：A>B, B>A。如果我們用兩邊p 值來做假設鑒定，意味著我們在同時考慮這兩種可能性：

此時設定的alpha=0.05分在兩邊，各為0.025。因此我們得出的p值必須小於0.025才可以推翻H0（然而並不可以）。

然而，很多時候僅僅基於主試的主觀臆想，沒有任何客觀上的資料理論支援，為了增大檢驗到顯著效應的可能性，便只考慮A>B, B>A兩個可能性的其中一個：

或者：

說到這裡，或者大家會再次質疑Frequentists和p值。不要緊，Sharon一直用一直在質疑。我還是要重複一點，資料統計都是工具，只要我們瞭解清楚他們的作用和有限的地方，誠實做學術，all is well。

最後引用我老闆的一句話：Data is the data. Data doesn't lie. （資料就是資料，資料不會撒謊）

Sharon

例如最常用的0.05。這個代表著0.05的一類錯誤（type 1 error rate (or “alpha”) ），指的是，我們錯誤接受了陰性結果為陽性的概率。比如在法庭上的：所有人在定罪之前都是清白的，就是把alpha設置得很低，必須有很厲害的證據，才能定罪。儘管p值無法定量證據大小多少，但是p=0.049和p <= 0.05絕對不是一回事。這樣的表達只會誤導人們。

誤區9：如果我不在乎另外一邊的結果，或者另外一邊的結論不可能成立，那就用一邊p值（one-sided p value）

此時設定的alpha=0.05分在兩邊，各為0.025。因此我們得出的p值必須小於0.025才可以推翻H0（然而並不可以）。

或者：

最後引用我老闆的一句話：Data is the data. Data doesn't lie. （資料就是資料，資料不會撒謊）

Sharon