您的位置:首頁>正文

估計、p值與科學決策

估計

科研資料分析中最基本的思維工具就是抽象, 也就是把實實在在的事實在保留最大信息量的前提下用最簡潔的描述方法展示出來, 數學與統計學往往是這類工具的不二之選。 估計則是其中最基本的問題, 搞清楚其背後的思想才能把工具用的得心應手。

舉個例子, 我手頭有一堆人的身高, 然後找個人(沒錯, 就是你了)讓他描述一下這個資料, 那麼這個人該怎麼辦?最笨的方法就是把所有這些數讀一遍, 這種描述不丟失資訊, 但你讀完了我也睡著了。 這樣傳遞資訊效率太低, 那麼有沒有辦法效率高一點呢?

現在是三月, 要學雷鋒(這個梗再過幾年估計沒人看得懂了), 背後的思想是什麼?榜樣。 那麼一堆資料的榜樣是什麼?少數服從多數, 也就是出現最多的那個數, 用這個數做代表就可以了。 統計學上管這個數叫做眾數, 英文mode, 加個l就是典型(model), 很適合做代表。 但是你要是告訴我個眾數我就開始犯嘀咕了, 是不是也太簡化了, 假如100個數的眾數有10個, 另外90個我就直接扔掉, 太草率了。

此時作為科研工作者你應該想有沒有更好的表述, 至少要把所有數的資訊都包括吧。 那麼我們假像一個數, 這個數距離所有N個數的距離最短, 那麼不就有代表性了。 想法有了, 如何估計呢?這時我們首先定義這個距離, 因為肯定有正有負,

就用絕對值的和來表示好了:

$d = \sum_{i=1}^{N}(|\hat x - x_i|)$

目標是讓這個距離絕對值的和最小, 最簡單就是暴力搜索, 產生一個亂數, 計算絕對距離和, 找到最小的就完活。 但當你真怎麼做就會發現, 最中間那個數或最中間兩個數的均值總是最小。 此時你腦中要出現一句提醒——是不是有收斂的解析解啊?

我們把這N個數從大到小排排坐, 然後把最大的跟最小的分到一組, 次大的跟次小的分成一組, 按照我們的距離定義, 那個到所有數絕對值和最小的數一定會在這樣一組數的中間, 那麼把這個洋蔥殼結構逐層去掉, 最中間的那個數就是我們要找的數。 統計學上叫做中位數, 但其實本質上定義就是這樣。 也許你會說跟眾數比似乎找到這個數直接扔掉了98或99個數,

資訊保留的不是更少了嗎?別忘了我們對資訊有一個排序的過程, 這個過程本身保留了代表性的資訊, 雖然看上去中位數沒有經過多少計算, 其實背後的思想可以看作最小化了一組數跟它距離絕對值的和。

看到這裡可能你會覺得為什麼不用均值呢?其實均值模擬的是到所有數距離平方最小的那個數。 也就是

$d = \sum_{i=1}^{N}(\hat x - x_i)^2$

這個距離最小化就不用排序了, 牛頓跟萊布尼茨早就告訴你方法了——求導。 因為是二次方程, 求導得到解析解就是均值, 不信你自己算算。

不論用眾數、中位數還是平均值, 其背後大致都有個代表性的數學抽象過程, 求解需要借助數學工具。 同時要注意到其中掩飾很深的東西,

那就是雖然數學求解是客觀的, 但選擇使用哪個數或直接讀出所有數其實是你來決定的, 那種都可以, 都有道理, 本質上都是資訊精簡過程中的壓縮方法, 沒有優劣之分, 看你對資料的洞察與想解決的問題來定。 學知識一定不能學死而是要學活, 靈活使用工具討論科學問題, 學術圈自會給出評價。

p值

關於抽象, 另一個案例是p值。 關於p值幾乎是科研資料分析的週期討論話題, 本來Fisher提出p值根本就沒想過有原假使跟備則假設這種設計, 而在Neymann-Pearson提出的原假設跟備則假設的體系構架裡也沒有p值0.05或0.01的設計, 但確實是有置信水準跟功效這一說, 對應了拒絕域、假陽性、假陰性等一堆概念。 也不知道從哪個時候開始就有人把兩個理論捏到一起用到科研裡去了,

但背後的思想非常不同。

首先, Fisher跟Neymann-Pearson體系解決的是科學決策問題。 其實把科學跟決策放到一起是有點矛盾的, 科學關注的是事實真相背後有規律性的客觀的東西(當然量子力學對這個想法的衝擊很大)而決策則比較主觀, 存在選擇過程, 但真相如果只有一個(此處應該有柯南主題曲作為背景音樂)應該是沒得選啊?那是理論, 現實是多數情況你根本就不知道真相, 只有一堆假說, 但根據事實你可以對假設進行檢驗。 Fisher跟Neymann-Pearson體系為這個過程提供一個很靠譜的推導工具, 這也最終讓統計學廣泛的應用於各個學科。

具體到Fisher的p值體系, 背後的思想是在某假說下這件事發生的概率是多少, 例如人群身高是正態分佈,那麼你看到一個人身高3米,在你假設的人群分佈中出現這個身高及以上的概率極低,那麼我就有理由認為你看到的不是一個正常人。Fisher這個說法只有單一假設,決策的也是單一假設的可能性。老爺子當年莫名提出了一個0.05的閾值,認為低於這個數假設就不大可能出現,但這個數莫名其妙的成了Neymann-Pearson體系的alpha值。

好了我們再看下Neymann-Pearson體系,這個體系有兩個假說,如果拒絕A就要接受B,同時也定義了假陽性與假陰性,也就是犯錯的概率衡量。我們可以得到某個假設下統計量的分佈,然後比對的這個統計量是否在拒絕域裡,如果在,那麼拒絕這個假設,接受備則假設。當然接受原假設但備則假設如果跟原假設統計量設計的比較近時,你就有概率得到假陽性結果,或者說區別不了兩個假設。而備則假設如果跟原假設統計量設計的比較遠,那麼當你拒絕原假設時也有風險得到其實備則為假原假使為真的情況。這就對應的統計學功效分析與錯誤發現率等多個分支。如果你看到這裡看暈了也沒什麼關係,因為這個體系就是很複雜,Fisher對此也沒啥好感,他也不會認可功效分析這種有點拖泥帶水的設計。同時,這個體系是頻率學派的,也就是多次實驗後這個結果應該是穩定的。

在實際科研的假設檢驗中是結合了這兩個體系的異類,會計算空假設的p值,但用p值來對比Neymann-Pearson體系的alpha值看在不在拒絕域裡來決定是否採納空假設。這個體系被詬病最多的地方在如下幾點:

- 在實際科研實驗設計時,實驗組與對照本來就應該有區別,而假設檢驗在這個大環境下發揮的作用有限

- 這個體系可以拒絕掉一個假設但不能證明一個假設,且拒絕與接受都存在錯誤率控制

- 重視假陽性而不重視假陰性,科研人員使用時很容易忽視掉功效分析

- 置信水準跟p值本質是倆概念,但科研人員使用時經常用詞不當

- 科研人員對0.05這個閾值有迷之選擇偏見

- 多重比較問題

具體就不解釋了,但要注意的一點是這些問題的提出者往往是貝葉斯學派的,其替代方案自然也是基於貝葉斯推斷的方法:給一個先驗分佈,用資料計算似然度,然後用貝葉斯公式更新出後驗概率。在進行推斷時只要對比後驗概率與假設條件下的概率的比值就可以了,大於1說明更可能發生,小於1說明更不可能發生。這個推斷過程自然不會有錯誤率的問題,但也會犯錯,例如這個比值搞不清出變化方向,也不好衡量與評價變化的數量級,但對於決策似乎更簡單明瞭。當然,我很懷疑會不會被推廣,因為貝葉斯推斷目前並不在多數學科的統計學教學體系內,雖然論文裡經常涉及。同時頻率學派跟貝葉斯學派的矛盾是哲學層面的,即便數學形式上是一致,解釋起來也完全不同。頻率學派總會去質疑貝葉斯學派那個莫名其妙的先驗概率,而貝葉斯學派也會去嘲諷頻率學派那個多次實驗中有幾次錯誤的說法,很多實驗就只能做一次,我關心那麼多次幹嘛?

科學決策

科研中論斷的真假都可以看作一個決策過程,也就是說上面的判斷方法都是各學科裡默認的方法論。如果結論是拒絕某個假說或接納某個假說,在具體學科的理論大廈裡就可以加入某個定理。但一定不要忘記這是個決策過程,認可是該學科共同體(具體到論文可能就是編輯加幾個審稿人)主觀接受的,存在大家都錯了或都看走眼的可能,也因此不要對很多報導的新鮮研究成果有太多信心,更可能的情況是分工精細的小圈子的群體決策,雖然好過自吹自擂,但也可能只是披著數學統計學還有本學科知識框架的外衣的一個假說或現象闡釋,不保真。大眾讀者在這上面沒判斷力是正常的,具有數理基礎的人不要被輕易忽悠,存疑是科研的美德。

除了基於事實與實驗的科學決策,也存在其他的決策方式,例如直覺決策,邏輯推理決策等。從最終效果上看,並不存在某種決策方法能在所有場景下都玩得轉。而且,在做出某項決策後,其判斷會不斷回饋影響到後續的決策過程。如果一個人覺得一直都判斷準確,很有可能多個判斷間存在相關與回饋而不說明這個判斷在真實意義上的正確。其實可以嘗試這樣的思想實驗,你如果做了另一個判斷,是否也會出現類似的正回饋。這樣去想很多事或規律在歷史上的正確只能稱作經驗事實正確,基於經驗事實提取的規律可以保穩,但能產生變數的決策是要具有前瞻性的,或者說如果某件事處於僵局,經驗不起作用而動態回饋的決策方法更可能有效改變僵局。舉個例子,如果約伯斯不做觸屏手機,那麼現在大家用的大概率還是智慧鍵盤機,而在是否用觸屏的問題上當時並無太多經驗可以借鑒。雖然現在手機觸屏成了標配與主流,但其產生時的決策依然是高風險的甚至是任性的,當然歷史你沒得假設。

現在熱炒的大資料很大程度上依賴于挖掘現有的行為規律然後定向行銷,一個可預期的後果就是商家的銷售行為會讓潛在的規律變的明顯,讓消費者回歸到他可能隸屬於的消費類型,這無疑會加劇社會的割裂。舉個例子,我在某個引入人工智慧的推薦系統裡很偶然的對一個其實喜歡的書點了一個不喜歡,後果就是基於個性化的推薦演算法再也不會給我推薦這個類型的書。假設我買書是個低頻行為且只依賴大的網路電商,那麼某個偶然的行為就可以完全讓某個類型的書徹底退出我的視野,就好像從來沒存在過一樣。基於此,我倒有點想念不那麼智慧甚至低效的推薦系統,起碼它會給我我不想要的,而看書這件事,我並不在意看到不同意見,反倒是全是熟悉的意見會讓我自大且固步自封,但卻對商家有益。說到底還是需要公益的非盈利的人工智慧的推薦系統,我可不想總是遇見熟悉的環境而被隔離開。同理,決策上也最忌諱一意孤行,起碼在科研資料分析中,要抽象的去理解不同決策過程背後的東西,方法的背後有藝術。

Science is more than a body of knowledge; it is a way of thinking. … The method of science, as stodgy and grumpy as it may seem, is far more important than the findings of science.

— Carl Sagan

參考文獻:

- 《女士品茶》

- 《環境與生態統計:R語言的應用》

例如人群身高是正態分佈,那麼你看到一個人身高3米,在你假設的人群分佈中出現這個身高及以上的概率極低,那麼我就有理由認為你看到的不是一個正常人。Fisher這個說法只有單一假設,決策的也是單一假設的可能性。老爺子當年莫名提出了一個0.05的閾值,認為低於這個數假設就不大可能出現,但這個數莫名其妙的成了Neymann-Pearson體系的alpha值。

好了我們再看下Neymann-Pearson體系,這個體系有兩個假說,如果拒絕A就要接受B,同時也定義了假陽性與假陰性,也就是犯錯的概率衡量。我們可以得到某個假設下統計量的分佈,然後比對的這個統計量是否在拒絕域裡,如果在,那麼拒絕這個假設,接受備則假設。當然接受原假設但備則假設如果跟原假設統計量設計的比較近時,你就有概率得到假陽性結果,或者說區別不了兩個假設。而備則假設如果跟原假設統計量設計的比較遠,那麼當你拒絕原假設時也有風險得到其實備則為假原假使為真的情況。這就對應的統計學功效分析與錯誤發現率等多個分支。如果你看到這裡看暈了也沒什麼關係,因為這個體系就是很複雜,Fisher對此也沒啥好感,他也不會認可功效分析這種有點拖泥帶水的設計。同時,這個體系是頻率學派的,也就是多次實驗後這個結果應該是穩定的。

在實際科研的假設檢驗中是結合了這兩個體系的異類,會計算空假設的p值,但用p值來對比Neymann-Pearson體系的alpha值看在不在拒絕域裡來決定是否採納空假設。這個體系被詬病最多的地方在如下幾點:

- 在實際科研實驗設計時,實驗組與對照本來就應該有區別,而假設檢驗在這個大環境下發揮的作用有限

- 這個體系可以拒絕掉一個假設但不能證明一個假設,且拒絕與接受都存在錯誤率控制

- 重視假陽性而不重視假陰性,科研人員使用時很容易忽視掉功效分析

- 置信水準跟p值本質是倆概念,但科研人員使用時經常用詞不當

- 科研人員對0.05這個閾值有迷之選擇偏見

- 多重比較問題

具體就不解釋了,但要注意的一點是這些問題的提出者往往是貝葉斯學派的,其替代方案自然也是基於貝葉斯推斷的方法:給一個先驗分佈,用資料計算似然度,然後用貝葉斯公式更新出後驗概率。在進行推斷時只要對比後驗概率與假設條件下的概率的比值就可以了,大於1說明更可能發生,小於1說明更不可能發生。這個推斷過程自然不會有錯誤率的問題,但也會犯錯,例如這個比值搞不清出變化方向,也不好衡量與評價變化的數量級,但對於決策似乎更簡單明瞭。當然,我很懷疑會不會被推廣,因為貝葉斯推斷目前並不在多數學科的統計學教學體系內,雖然論文裡經常涉及。同時頻率學派跟貝葉斯學派的矛盾是哲學層面的,即便數學形式上是一致,解釋起來也完全不同。頻率學派總會去質疑貝葉斯學派那個莫名其妙的先驗概率,而貝葉斯學派也會去嘲諷頻率學派那個多次實驗中有幾次錯誤的說法,很多實驗就只能做一次,我關心那麼多次幹嘛?

科學決策

科研中論斷的真假都可以看作一個決策過程,也就是說上面的判斷方法都是各學科裡默認的方法論。如果結論是拒絕某個假說或接納某個假說,在具體學科的理論大廈裡就可以加入某個定理。但一定不要忘記這是個決策過程,認可是該學科共同體(具體到論文可能就是編輯加幾個審稿人)主觀接受的,存在大家都錯了或都看走眼的可能,也因此不要對很多報導的新鮮研究成果有太多信心,更可能的情況是分工精細的小圈子的群體決策,雖然好過自吹自擂,但也可能只是披著數學統計學還有本學科知識框架的外衣的一個假說或現象闡釋,不保真。大眾讀者在這上面沒判斷力是正常的,具有數理基礎的人不要被輕易忽悠,存疑是科研的美德。

除了基於事實與實驗的科學決策,也存在其他的決策方式,例如直覺決策,邏輯推理決策等。從最終效果上看,並不存在某種決策方法能在所有場景下都玩得轉。而且,在做出某項決策後,其判斷會不斷回饋影響到後續的決策過程。如果一個人覺得一直都判斷準確,很有可能多個判斷間存在相關與回饋而不說明這個判斷在真實意義上的正確。其實可以嘗試這樣的思想實驗,你如果做了另一個判斷,是否也會出現類似的正回饋。這樣去想很多事或規律在歷史上的正確只能稱作經驗事實正確,基於經驗事實提取的規律可以保穩,但能產生變數的決策是要具有前瞻性的,或者說如果某件事處於僵局,經驗不起作用而動態回饋的決策方法更可能有效改變僵局。舉個例子,如果約伯斯不做觸屏手機,那麼現在大家用的大概率還是智慧鍵盤機,而在是否用觸屏的問題上當時並無太多經驗可以借鑒。雖然現在手機觸屏成了標配與主流,但其產生時的決策依然是高風險的甚至是任性的,當然歷史你沒得假設。

現在熱炒的大資料很大程度上依賴于挖掘現有的行為規律然後定向行銷,一個可預期的後果就是商家的銷售行為會讓潛在的規律變的明顯,讓消費者回歸到他可能隸屬於的消費類型,這無疑會加劇社會的割裂。舉個例子,我在某個引入人工智慧的推薦系統裡很偶然的對一個其實喜歡的書點了一個不喜歡,後果就是基於個性化的推薦演算法再也不會給我推薦這個類型的書。假設我買書是個低頻行為且只依賴大的網路電商,那麼某個偶然的行為就可以完全讓某個類型的書徹底退出我的視野,就好像從來沒存在過一樣。基於此,我倒有點想念不那麼智慧甚至低效的推薦系統,起碼它會給我我不想要的,而看書這件事,我並不在意看到不同意見,反倒是全是熟悉的意見會讓我自大且固步自封,但卻對商家有益。說到底還是需要公益的非盈利的人工智慧的推薦系統,我可不想總是遇見熟悉的環境而被隔離開。同理,決策上也最忌諱一意孤行,起碼在科研資料分析中,要抽象的去理解不同決策過程背後的東西,方法的背後有藝術。

Science is more than a body of knowledge; it is a way of thinking. … The method of science, as stodgy and grumpy as it may seem, is far more important than the findings of science.

— Carl Sagan

參考文獻:

- 《女士品茶》

- 《環境與生態統計:R語言的應用》

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示