您的位置:首頁>正文

Frequentist vs Bayesian 3: p 值的9個認識誤區

在Frequentist vs Bayesian 系列文章中我們一直提到, 很多人一直錯誤理解, 錯誤使用p值, 導致心理學科學進展不進反退。 那麼在此文, 我們就說說那些年,

p值的9個認識誤區。 (原文在醫學研究背景上討論p值:A dirty dozen: twelve p-value misconceptions)

(P.S. 本文封面是Neyman 和 Pearson, Neyman-Pearson 的統計邏輯就是我們現在用p值做假設鑒定的邏輯。 )

誤區1: 如果p<0.05, 那麼H0/ null hypothesis只有5%是對的。

看過前兩篇文章的讀者應該都知道這個是錯的死死的, 但是這絕對是最普遍的對於p值的錯誤認識。 這時候我們又要回顧一下p值的定義了。

p值是:假設效應並不存在(null effect), 你收集到了你收集了的資料以及更極端的資料的概率是多少。

用圖片表示就是:

(此圖來自D. Laken Statistical Inference課程截圖, 課程coursera主頁:Coursera | Online Courses From Top Universities. Join for Free 。 Open Science Club也發表過陳紹慶老師為這個課程做過的中英文字幕以及其使用指南:「提昇你的統計推論功力」中文資源使用說明及學習指南。 這個課程Sharon也是強烈推薦。 有少許統計基礎的同學可以借助這節課提示自己對統計的認識。 )

所以, p值並不能告訴你, 一個理論存在與否的概率, 而只能告訴你, 在這個理論是錯的前提下, 你的資料+你有可能收集到但是沒收集到的更加極端的資料(long run/ fequentists)的概率。

誤區2: 如果得到了p>0.05(也就是我們常說的不顯著), 我們可以得出結論:兩組之間無差異。

同理的, 既然p值並不能告訴我們一個效應或者理論是否存在, 那麼p值多少, 顯著與否, 並不能為我們提供直接證據去承認或者推翻任何東西。

誤區3: 一個顯著的結論從學術角度來說是很重要的。

誤區4:如果兩個實驗的資料, 一個得出p<0.05, 另外一個得出p>0.05, 那麼這兩個實驗結論是互相排斥的。

誤區5:如果兩個實驗的資料得出一樣的p值, 就證明兩個實驗擁有一樣有力的證據反駁null hypothesis.

這三個誤區都可以引出一個上一篇文章(你的貝葉斯)提到過的問題。 和Bayesian資料統計相比, p值無法量化證據(quantify evidence)。 p值無法告訴你, 你所謂“顯著的”效應有多大, 有多小。 CI/置信區間或許可以(但其實基於Frequentist的置信區間也是非常不可靠, 日後Sharon會詳細說的)。

所以, 顯著的差別有可能是很小的差別, 並沒有太重要的意義。

而如下圖顯示, 同樣的效應可以有互相排斥的p值, 而從一樣的p值可以得出不同的效應。

誤區6:p<0.05意味著, 在H0/Null Hypothesis成立的前提下, 只有5%的機會我們收集到手頭上的資料。

想清楚了, p值的定義是:假設效應並不存在(null effect),

你收集到了你收集了的資料以及更極端的資料的概率是多少。 這一部分更極端的資料, 是實際上不存在的, 但是它假設你有。 這些不存在的極端資料只存在於我們想像中的, 想做但是沒有做的實驗。 所以原則上來說, 兩個實驗的資料可以擁有一樣的資料, 一樣的被試, 但是如果想像中的實驗是不一樣的, p值就會不一樣。 這也同時帶出一系列利用p值作弊的現象。 比如利用無法用文獻或者資料支援的樣本量, 在看到p值掉到0.05的時候就停止收集資料(unjustifiable stopping rule)。

誤區7:p=0.05 & p <= 0.05 一模一樣

根據p值和我們的數學常識的的定義, 我們知道這兩個東西肯定不一樣。

誤區8:用小於或等於符號來表達p值 (例如:p = 0.049 ---> p <= 0.05 )

我們通常會拿p值和一個數字比較, 例如最常用的0.05。這個代表著0.05的一類錯誤(type 1 error rate (or “alpha”) ),指的是,我們錯誤接受了陰性結果為陽性的概率。比如在法庭上的:所有人在定罪之前都是清白的,就是把alpha設置得很低,必須有很厲害的證據,才能定罪。儘管p值無法定量證據大小多少,但是p=0.049和p <= 0.05絕對不是一回事。這樣的表達只會誤導人們。

誤區9:如果我不在乎另外一邊的結果,或者另外一邊的結論不可能成立,那就用一邊p值(one-sided p value)

如果我們相比較兩組(A和B)資料差異是否顯著,我們會有兩個假設,H1:兩組資料差異顯著,H0:兩組資料差異不顯著。但是,H1下有兩個可能性:A>B, B>A。如果我們用兩邊p 值來做假設鑒定,意味著我們在同時考慮這兩種可能性:

此時設定的alpha=0.05分在兩邊,各為0.025。 因此我們得出的p值必須小於0.025才可以推翻H0(然而並不可以)。

然而,很多時候僅僅基於主試的主觀臆想,沒有任何客觀上的資料理論支援,為了增大檢驗到顯著效應的可能性,便只考慮A>B, B>A兩個可能性的其中一個:

或者:

說到這裡,或者大家會再次質疑Frequentists和p值。不要緊,Sharon一直用一直在質疑。我還是要重複一點,資料統計都是工具,只要我們瞭解清楚他們的作用和有限的地方,誠實做學術,all is well。

最後引用我老闆的一句話:Data is the data. Data doesn't lie. (資料就是資料,資料不會撒謊)

Sharon

例如最常用的0.05。這個代表著0.05的一類錯誤(type 1 error rate (or “alpha”) ),指的是,我們錯誤接受了陰性結果為陽性的概率。比如在法庭上的:所有人在定罪之前都是清白的,就是把alpha設置得很低,必須有很厲害的證據,才能定罪。儘管p值無法定量證據大小多少,但是p=0.049和p <= 0.05絕對不是一回事。這樣的表達只會誤導人們。

誤區9:如果我不在乎另外一邊的結果,或者另外一邊的結論不可能成立,那就用一邊p值(one-sided p value)

如果我們相比較兩組(A和B)資料差異是否顯著,我們會有兩個假設,H1:兩組資料差異顯著,H0:兩組資料差異不顯著。但是,H1下有兩個可能性:A>B, B>A。如果我們用兩邊p 值來做假設鑒定,意味著我們在同時考慮這兩種可能性:

此時設定的alpha=0.05分在兩邊,各為0.025。 因此我們得出的p值必須小於0.025才可以推翻H0(然而並不可以)。

然而,很多時候僅僅基於主試的主觀臆想,沒有任何客觀上的資料理論支援,為了增大檢驗到顯著效應的可能性,便只考慮A>B, B>A兩個可能性的其中一個:

或者:

說到這裡,或者大家會再次質疑Frequentists和p值。不要緊,Sharon一直用一直在質疑。我還是要重複一點,資料統計都是工具,只要我們瞭解清楚他們的作用和有限的地方,誠實做學術,all is well。

最後引用我老闆的一句話:Data is the data. Data doesn't lie. (資料就是資料,資料不會撒謊)

Sharon

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示