您的位置:首頁>正文

貝塔分佈背後的直覺:概率的概率分佈

編者按:貝塔分佈的定義很簡單, 具有兩個參數α、β(α,β > 0)的一組定義在(0, 1)區間的連續概率分佈。 但是, 它背後的直覺卻不是那麼明顯。 Stack Overflow資料科學家David Robinson在Cross Validated解釋了貝塔分佈背後的直覺。

簡而言之, 貝塔分佈代表probabilities(概率的複數形式)的分佈, 也就是說, 它代表當我們不知道概率是什麼時, 概率的所有可能值。

所有看棒球的人都熟悉打擊率這個概念, 也就是安打數除以打數(因此, 打擊率是0到1之間的百分數)。

.266是一個平均水準的打擊率, 而.300是一個優秀的打擊率。

假設我們想預測某個棒球手在整個賽季的打擊率。 你可能會說,

使用已有的打擊率資料不就行了?但是在賽季剛開始的時候, 這會是一個非常差的衡量指標, 如果棒球手的打數只有幾次, 可能預測出棒球手的打擊率為1.000或0.000這樣的數字。

我們為什麼知道上面的預測很糟糕?如果我們觀察到棒球手在賽季一開始出現了一個三振, 為什麼沒人會預測這個棒球手在整個賽季都拿不到一個安打?因為我們有先驗知識, 我們知道, 在歷史上, 絕大多數棒球手的賽季平均打擊率在.215到.360之間, 有一些極端罕見的例外低於或高於這個範圍。 我們知道, 如果一個棒球手剛開始出現了幾個三振, 那可能意味著他最終的打擊率會比平均值低一點, 但我們知道他大概不會偏離上面提到的範圍。

我們的打擊率問題可以表示為二項分佈(一系列成功和失敗), 表示這些先驗預期(在統計學上我們直接稱為先驗)的最好方式是貝塔分佈——也就是說, 在我們觀測到棒球手的打擊資料前, 我們大致期望他的打擊率會是這樣的。 貝塔分佈的定義域為(0, 1), 和概率一樣, 因此我們知道我們的路線是正確的——但是貝塔分佈與當前任務的相關性遠不止這些。

我們期望, 棒球手整個賽季的打擊率最有可能在.27附近, 但.21到.35
也很合理。 這可以用參數α=81、β=219的貝塔分佈表示:

curve(dbeta(x, 81, 219))

注意, 分佈的均值為α/(α+β) = 81/(81+219) = .270。

整個分佈基本上完全位於(.2, .35)之間, 對打擊率而言, 這個範圍很合理。

在我們的例子中, 貝塔分佈的x軸代表打擊率。 因此, 不僅y軸代表概率(更準確地說, 概率密度), x軸也代表概率(打擊率是安打的概率)!貝塔分佈是概率的概率分佈。

接著我們討論為什麼貝塔分佈非常合適我們的問題。 假設棒球手完成了一個安打。 當前賽季的記錄為安打 1;打數 1。 我們需要更新概率——我們希望略微移動整個曲線以反映我們新獲得的資訊。

儘管相應的數學證明有點複雜(證明見此), 結果非常簡單。 新的貝塔分佈將是:

Beta(α0+hits,β0+misses)

其中, α0和β0是剛開始的參數81和219。 因此, 在這一情形下, α增加了1(1次安打), 而β完全沒有增加(目前還沒有落空)。 這意味著我們的新分佈是Beta(81+1,219):

curve(dbeta(x, 82, 219))

注意上面的圖像基本上沒有變動——肉眼觀察不到改變!(這是因為一個安打其實說明不了什麼。

然而, 隨著賽季的進行, 棒球手的安打數越多, 曲線為了適應新證據所作的移動也會越多, 而且, 由於我們有更多的證據, 它會收攏。 比如, 到賽季的一半, 球手的打數達到了300, 其中有100個安打。 新的分佈會是Beta(81+100,219+200):

curve(dbeta(x, 81+100, 219+200))

注意,和原來相比,現在曲線變得更狹長了,同時向右側(更高的擊打率)移動了。我們對球手的打擊率更有概念了。

基本上,所得貝塔分佈的期望值,就是我們新的估計。回顧一下,貝塔分佈的期望值為α/(α+β)。因此,在真實打數為300,安打數為100的情況下,新貝塔分佈的期望值為(81+100)/(81+100+219+200) = .303。注意它比樸素的估計值100/(100+200) = .333要低,但比賽季開始前的估計值81/(81+219) = .270要高。你可能會注意到,這一等式等價於球手加上“提前開始”的安打數和落空數——也就是說“在賽季開始時,球手已經有81安打、219落空的記錄”。

因此,貝塔函數最適宜用來表示概率的概率分佈——當你並不預先知道概率是多少,但具備一些合理的猜測的時候。

注意,和原來相比,現在曲線變得更狹長了,同時向右側(更高的擊打率)移動了。我們對球手的打擊率更有概念了。

基本上,所得貝塔分佈的期望值,就是我們新的估計。回顧一下,貝塔分佈的期望值為α/(α+β)。因此,在真實打數為300,安打數為100的情況下,新貝塔分佈的期望值為(81+100)/(81+100+219+200) = .303。注意它比樸素的估計值100/(100+200) = .333要低,但比賽季開始前的估計值81/(81+219) = .270要高。你可能會注意到,這一等式等價於球手加上“提前開始”的安打數和落空數——也就是說“在賽季開始時,球手已經有81安打、219落空的記錄”。

因此,貝塔函數最適宜用來表示概率的概率分佈——當你並不預先知道概率是多少,但具備一些合理的猜測的時候。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示