華文網

一篇概率分佈的乾貨分享,收藏後今天終於用上了

我們已經瞭解概率的基礎,概率中通常將試驗的結果稱為隨機變數。

隨機變數將每一個可能出現的試驗結果賦予了一個數值,包含離散型隨機變數和連續型隨機變數。

擲硬幣就是一個典型的離散型隨機變數,離散隨機變數可以取無限個但可數的數值。而連續變數相反,它在某一個區間內能取任意的數值。時間就是一個典型的連續變數,1.25分鐘、1.251分鐘,1.2512分鐘,它能無限分割。

既然隨機變數可以取不同的值,統計學家就用概率分佈描述隨機變數取不同值的概率。

相對應的,有離散型概率分佈和連續型概率分佈。

對於離散型隨機變數x,定義一個概率函數叫f(x),它給出了隨機變數取每一個值的概率。

拿出一個骰子,擲到6的概率是f(6) = 1/6,擲到1和6的概率則是f(1)+f(6) = 1/3。

數學期望和方差

現在有一個運營活動,兩套抽獎概率方案,如下:

作為運營人員,應該怎麼衡量兩種抽獎方法的好壞呢?

數學期望是對隨機變數中心位置的一種度量。

是試驗中每次可能結果的乘以其結果的總和。簡單說,它是概率中的平均值,可以用期望對比兩套方案。

假設一等獎成本1000元,二等獎成本500元,三等獎成本100元,歡迎下次再來當然沒錢,而使用者參加一次抽獎需要5元。我們將概率問題轉換成運營方的收益和成本計算期望(下面的盈虧是公司角度的)。

於是E(x) = (-990*5%)+(-490*10%)+(-90*20%)+(10*65%) = -110。也就是說,A方案能夠期望每次抽獎運營方虧損110元。計算一下B方案,

則是虧損150元。如果從用戶的角度看,每一次抽獎的期望則反過來,即一等獎能受益990元,二等獎能受益490元…A方案玩一次平均收益110元。

想必大家已經知道了如何設計活動的盈虧機制,感興趣可以自行調節中獎概率和成本。

期望值衡量概率的平均值,可是抽獎本來就是很激動人心的事情,哪怕明知道會賠錢,人們還樂此不疲,為什麼?因為風險,因為以小搏大。

方差就是這種風險的度量,

即隨機變數的變異性。它和描述統計學的方差是一個含義。

方差越大,隨機變數的結果越不穩定,計算A方案的方差如下:

方差最後為62600,說明期望的波動很大。標準差為sqrt(62600) = 250.19,代表每一次的抽獎,與期望收益-110的距離是250.19元。

到這裡,概率和期望方差的基本玩法已經講完了。

二項概率分佈

二項分佈是一種離散型的概率分佈。故明思義,二項代表它有兩種可能的結果,

把一種稱為成功,另外一種稱為失敗。

除了結果的規定,它還需要滿足其他性質:每次試驗成功的概率均是相同的,記錄為p;失敗的概率也相同,為1-p。每次試驗必須相互獨立,該試驗也叫做伯努利試驗,重複n次即二項概率。

擲硬幣就是一個典型的二項分佈。當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率,可以使用二項分佈的公式:

假設拋硬幣5次,恰巧有3次正面朝上,則其概率為31.25%。可以使用Excel中的BINOM.DIST函數計算。

不妨把題目變化一下,變成計算硬幣至少有三次正面朝上的概率是多少?有一種簡單的方法是累加,將恰巧有3次,恰巧有4次,恰巧有5次的概率相加,結果便是至少3次,為50%。

回到運營活動的例子,上面一個運營活動公司虧慘了,現在運營需要重新做一個抽獎活動,每位用戶擁有10次抽獎機會,中獎概率是5%。老闆準備先考慮成本問題,想知道至少有3次以上中獎機會的概率是多少?

按照上題的思路,可以拿恰巧3次,恰巧4次直到恰巧10次累加求和,但是這樣太麻煩了。此時可以換一個思路,先計算最多2次的概率是多少。那麼便是f(0)+f(1)+f(2),結果是92.98%,利用概率公式1-92.98%,就是至少3次的概率了,為7.02%。看來老闆還是能鬆口氣的。

二項概率的數學期望為E(x) = np,方差Var(x) = np(1-p)。抽獎10次,那麼抽獎的期望值就是1,方差為0.9。

運營學會二項分佈,在涉及概率的各種活動中,將變得遊刃有餘。它的原理甚至能用到AB測試。大學考試中二項概率需要查專門的概率表計算,不過現在各類工具層出不窮,Python、R、Excel都能直接計算。

泊松概率分佈

泊松概率是另外一個常用的離散型隨機變數,它主要用於估計某事件在特定時間或空間中發生的次數。比如一天內中獎的個數,一個月內某機器損壞的次數等。

泊松概率的成立條件是在任意兩個長度相等的區間中,時間發生的概率是相同的,並且事件是否發生都是相互獨立的。

泊松概率既然表示事件在一個區間發生的次數,這裡的次數就不會有上限,x取值可以無限大,只是可能性無限接近0,f(x)的最終值很小。

x代表發生x次,u代表發生次數的數學期望,概率函數為:

現在又舉辦了一個新的運營活動,這次的中獎概率未知,只知24小時內中獎的平均個數為5個,老闆異想天開地想知道24小時內恰巧中獎次數為7的概率是多少?

此時x=7,u=5(區間內發生的平均次數就是期望),代入公式求出概率為10.44%。Excel中的函數為POISSON.DIST。

接下來繼續加大問題難度,求中獎次數至少7次的概率。此時f(0)+f(1)+f(2)+f(3)+f(4)+f(5)+f(6)=86.66%,那麼至少七次的概率為13.33%。

如果問題變成12小時內呢?老闆希望知道12小時內中獎次數為3次的概率是多少?

24小時內中獎概率的期望數是5,那麼12小時內的中獎概率期望數是2.5,於是令u=2.5,求出12小時內中獎次數為3的概率是79.99%。

泊松概率還有一個重要性質,它的數學期望和方差相等,所以上題的方差為2.5,標準差為根號2.5,即1.58。

正態分佈

上述分佈都是離散概率分佈,當隨機變數是連續型時,情況就完全不一樣了。因為離散概率的本質是求x取某個特定值的概率,而連續隨機變數不行,它的取值是可以無限分割的,它取某個值時概率近似於0。連續變數是隨機變數在某個區間內取值的概率,此時的概率函數叫做概率密度函數。

正態概率分佈是連續型隨機變數中最重要的分佈。世界上絕大部分的分佈都屬於正態分佈,人的身高體重、考試成績、降雨量等都近似服從。

正態分佈如同一條鐘形曲線。中間高,兩邊低,左右對稱。想像身高體重、考試成績,是否都呈現這一類分佈態勢:大部分資料集中在某處,小部分往兩端傾斜。

正態概率密度函數為:

是不是看得頭暈了?u代表均值,σ代表標準差,兩者不同的取值將會造成不同形狀的正態分佈。均值表示正態分佈的左右偏移,標準差決定曲線的寬度和平坦,標準差越大曲線越平坦。

以前介紹過一個正態分佈的經驗法則:

正態隨機變數有69.3%的值在均值加減一個標準差的範圍內,95.4%的值在兩個標準差內,99.7%的值在三個標準差內。這條經驗法則可以説明我們快速計算資料的大體分佈。

均值u=0,標準差σ=1的正態分佈叫做標準正態分佈。它的隨機變數用z表示,它是推斷統計的基礎。將均值和標準差代入正態概率密度函數,得到一個簡化的公式:

現在可以用簡化的公式計算概率密度了。首先學習一個新的函數叫累計分佈函數,它是概率密度函數的積分。用P(X

曲線就是概率密度函數,當x取某個值時,曲線上f(x)點的數值即表示隨機變數在對應的x點值的取值概率,曲線與X軸相交的陰影面積就是累計分佈函數。我們不妨把概率密度函數按其名字簡單理解成「密度」,畢竟連續變數只有在區間中才有計算的意義,於是密度函數充當了輔助計算的角色。分析中我們更多實用累計分佈函數。

標準正態分佈中,給定一個值z,可以計算隨機變數z小於等於某一個值的概率;z在兩個值之間的概率;以及z大於等於一個值的概率。這三種計算都用到累計分佈函數,分別記作P(z=x)。

首先計算z小於等於1的概率,即P(z1) = 1-P(z

若要計算z在區間-1~1.25的概率,即P(-1

如果大家在公式轉換中有困惑,不妨結合上面的陰影圖看。靠左的陰影即z小於等於0.8時(目測)的概率,如果我們要算0~0.8之間的概率呢?就是把z

到了這裡大家可能發覺,在正態分佈的計算中,不論求哪一類區間,我們都是先轉換成z小於等於某個值先計算。這是一個潛移默化的規則,因為早期正態概率的計算都要用到標準正態概率表,它以z小於等於作查詢標準。現在雖然計算資源已經大大豐富,但是這個習慣還是保留了下來。

之所以強調標準正態分佈,是因為所有的正態分佈概率都可以利用標準正態分佈計算。當我們具有一個任意均值的u和標準差σ,都能將其轉換成標準狀態分佈。

現在有一個u=10和σ=2的正態隨機變數,求x在10與14之間的概率是多少?

當x=10時,z=(10-10)/2=2。當x=14時,z=(14-10)/2=2。於是x在10和14之間的概率等價於標準正態分佈中0和2之間的概率。計算P(0

現在是最後一個運營活動了,不再是抽獎,而是最終贈送獎品的環節。已知獎品的保質期滿足正態分佈,均值90天,標準差5天。為了考慮用戶體驗,想知道獎品70天以內就壞的概率是多少?

當x=70時,有z=(70-90)/5 = -4。p(z

在概率分佈中還有一個概念叫正態近似。當試驗次數很大時,二項分佈可以近似於正態分佈,泊松分佈也有相似的情況,大家有興趣可以去瞭解,這是一種簡便方法,不過工作中現在都是電腦了,這點反而不重要了。

瞭解完各類分佈後,我們將進入最後的環節,假設檢驗,它是基於概率的理論,資料分析中的AB測試,就是其最常見的應用。

End.

作者:秦路 (本網站特邀認證作者)

可以使用Excel中的BINOM.DIST函數計算。

不妨把題目變化一下,變成計算硬幣至少有三次正面朝上的概率是多少?有一種簡單的方法是累加,將恰巧有3次,恰巧有4次,恰巧有5次的概率相加,結果便是至少3次,為50%。

回到運營活動的例子,上面一個運營活動公司虧慘了,現在運營需要重新做一個抽獎活動,每位用戶擁有10次抽獎機會,中獎概率是5%。老闆準備先考慮成本問題,想知道至少有3次以上中獎機會的概率是多少?

按照上題的思路,可以拿恰巧3次,恰巧4次直到恰巧10次累加求和,但是這樣太麻煩了。此時可以換一個思路,先計算最多2次的概率是多少。那麼便是f(0)+f(1)+f(2),結果是92.98%,利用概率公式1-92.98%,就是至少3次的概率了,為7.02%。看來老闆還是能鬆口氣的。

二項概率的數學期望為E(x) = np,方差Var(x) = np(1-p)。抽獎10次,那麼抽獎的期望值就是1,方差為0.9。

運營學會二項分佈,在涉及概率的各種活動中,將變得遊刃有餘。它的原理甚至能用到AB測試。大學考試中二項概率需要查專門的概率表計算,不過現在各類工具層出不窮,Python、R、Excel都能直接計算。

泊松概率分佈

泊松概率是另外一個常用的離散型隨機變數,它主要用於估計某事件在特定時間或空間中發生的次數。比如一天內中獎的個數,一個月內某機器損壞的次數等。

泊松概率的成立條件是在任意兩個長度相等的區間中,時間發生的概率是相同的,並且事件是否發生都是相互獨立的。

泊松概率既然表示事件在一個區間發生的次數,這裡的次數就不會有上限,x取值可以無限大,只是可能性無限接近0,f(x)的最終值很小。

x代表發生x次,u代表發生次數的數學期望,概率函數為:

現在又舉辦了一個新的運營活動,這次的中獎概率未知,只知24小時內中獎的平均個數為5個,老闆異想天開地想知道24小時內恰巧中獎次數為7的概率是多少?

此時x=7,u=5(區間內發生的平均次數就是期望),代入公式求出概率為10.44%。Excel中的函數為POISSON.DIST。

接下來繼續加大問題難度,求中獎次數至少7次的概率。此時f(0)+f(1)+f(2)+f(3)+f(4)+f(5)+f(6)=86.66%,那麼至少七次的概率為13.33%。

如果問題變成12小時內呢?老闆希望知道12小時內中獎次數為3次的概率是多少?

24小時內中獎概率的期望數是5,那麼12小時內的中獎概率期望數是2.5,於是令u=2.5,求出12小時內中獎次數為3的概率是79.99%。

泊松概率還有一個重要性質,它的數學期望和方差相等,所以上題的方差為2.5,標準差為根號2.5,即1.58。

正態分佈

上述分佈都是離散概率分佈,當隨機變數是連續型時,情況就完全不一樣了。因為離散概率的本質是求x取某個特定值的概率,而連續隨機變數不行,它的取值是可以無限分割的,它取某個值時概率近似於0。連續變數是隨機變數在某個區間內取值的概率,此時的概率函數叫做概率密度函數。

正態概率分佈是連續型隨機變數中最重要的分佈。世界上絕大部分的分佈都屬於正態分佈,人的身高體重、考試成績、降雨量等都近似服從。

正態分佈如同一條鐘形曲線。中間高,兩邊低,左右對稱。想像身高體重、考試成績,是否都呈現這一類分佈態勢:大部分資料集中在某處,小部分往兩端傾斜。

正態概率密度函數為:

是不是看得頭暈了?u代表均值,σ代表標準差,兩者不同的取值將會造成不同形狀的正態分佈。均值表示正態分佈的左右偏移,標準差決定曲線的寬度和平坦,標準差越大曲線越平坦。

以前介紹過一個正態分佈的經驗法則:

正態隨機變數有69.3%的值在均值加減一個標準差的範圍內,95.4%的值在兩個標準差內,99.7%的值在三個標準差內。這條經驗法則可以説明我們快速計算資料的大體分佈。

均值u=0,標準差σ=1的正態分佈叫做標準正態分佈。它的隨機變數用z表示,它是推斷統計的基礎。將均值和標準差代入正態概率密度函數,得到一個簡化的公式:

現在可以用簡化的公式計算概率密度了。首先學習一個新的函數叫累計分佈函數,它是概率密度函數的積分。用P(X

曲線就是概率密度函數,當x取某個值時,曲線上f(x)點的數值即表示隨機變數在對應的x點值的取值概率,曲線與X軸相交的陰影面積就是累計分佈函數。我們不妨把概率密度函數按其名字簡單理解成「密度」,畢竟連續變數只有在區間中才有計算的意義,於是密度函數充當了輔助計算的角色。分析中我們更多實用累計分佈函數。

標準正態分佈中,給定一個值z,可以計算隨機變數z小於等於某一個值的概率;z在兩個值之間的概率;以及z大於等於一個值的概率。這三種計算都用到累計分佈函數,分別記作P(z=x)。

首先計算z小於等於1的概率,即P(z1) = 1-P(z

若要計算z在區間-1~1.25的概率,即P(-1

如果大家在公式轉換中有困惑,不妨結合上面的陰影圖看。靠左的陰影即z小於等於0.8時(目測)的概率,如果我們要算0~0.8之間的概率呢?就是把z

到了這裡大家可能發覺,在正態分佈的計算中,不論求哪一類區間,我們都是先轉換成z小於等於某個值先計算。這是一個潛移默化的規則,因為早期正態概率的計算都要用到標準正態概率表,它以z小於等於作查詢標準。現在雖然計算資源已經大大豐富,但是這個習慣還是保留了下來。

之所以強調標準正態分佈,是因為所有的正態分佈概率都可以利用標準正態分佈計算。當我們具有一個任意均值的u和標準差σ,都能將其轉換成標準狀態分佈。

現在有一個u=10和σ=2的正態隨機變數,求x在10與14之間的概率是多少?

當x=10時,z=(10-10)/2=2。當x=14時,z=(14-10)/2=2。於是x在10和14之間的概率等價於標準正態分佈中0和2之間的概率。計算P(0

現在是最後一個運營活動了,不再是抽獎,而是最終贈送獎品的環節。已知獎品的保質期滿足正態分佈,均值90天,標準差5天。為了考慮用戶體驗,想知道獎品70天以內就壞的概率是多少?

當x=70時,有z=(70-90)/5 = -4。p(z

在概率分佈中還有一個概念叫正態近似。當試驗次數很大時,二項分佈可以近似於正態分佈,泊松分佈也有相似的情況,大家有興趣可以去瞭解,這是一種簡便方法,不過工作中現在都是電腦了,這點反而不重要了。

瞭解完各類分佈後,我們將進入最後的環節,假設檢驗,它是基於概率的理論,資料分析中的AB測試,就是其最常見的應用。

End.

作者:秦路 (本網站特邀認證作者)