JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

白努利與二項分配:數成功的次數

一次「是或否」的試驗,是離散機率的原子;把 n 個彼此獨立的副本疊在一起,數出「是」的次數,你就造出了二項分配——這整個階段的主力分配。

原子:一次「是或否」的試驗

來到這個階段時,你已經知道什麼是隨機變數,也知道機率質量函數如何把權重分配給它的各個可能值。現在我們不再抽象地談,要來認識那些在真實問題裡一再出現、有名有姓的分配。第一個,就是整個離散機率裡最簡單的東西:一個恰好只有兩種結果的試驗。一枚硬幣不是正面就是反面。一位病人對藥物有反應,或者沒有。一封郵件是垃圾信,或者不是。我們把任何這種兩結果的試驗,稱為[[bernoulli-trial|白努利試驗]]

要把它變成一個數字,就給其中一個結果貼上「成功」(記為 1)的標籤,另一個貼上「失敗」(記為 0)。哪一個算成功由你決定,純粹是記帳——成功未必是值得高興的事;對品管檢驗員來說,「成功」可能是指找到一個瑕疵。設 p 為成功的機率,那麼 1 - p 就是失敗的機率。由此得到的隨機變數 X,以機率 p 等於 1、以機率 1 - p 等於 0,就服從[[prob-bernoulli-distribution|白努利分配]],記為 X ~ Bernoulli(p)。它整個機率質量函數一行就寫得下。

X ~ Bernoulli(p)

  P(X = 1) = p          (success)
  P(X = 0) = 1 - p      (failure)

  E[X]   = p
  Var(X) = p(1 - p)
白努利分配的全貌:一次成功機率為 p 的試驗。

平均數與變異數立刻就掉出來,而且值得你用直覺去體會。由於 X 只取 0 和 1 兩個值,E[X] = 0*(1 - p) + 1*p = p。至於變異數,用 Var(X) = E[X^2] - (E[X])^2;但 X 不是 0 就是 1,所以 X^2 = X,於是 E[X^2] = p,得到 Var(X) = p - p^2 = p(1 - p)。這個 p(1 - p) 在 p = 1/2 時最大,那正是結果最不確定的時候;當 p 趨近 0 或 1,結果幾乎是定局,它就縮到 0。不確定性最高,恰恰是在硬幣最公正的時候。

把試驗疊起來:二項分配

單一次試驗很少是我們真正要問的。我們通常想知道的是:在 n 次試驗裡,有幾次成功?擲一枚硬幣 10 次——出現幾次正面?寄出 200 封郵件——有幾封被退回?要得到乾淨的答案,我們做兩個誠實的假設。第一,這 n 次試驗彼此獨立:其中一次的結果對其他次毫無透露。第二,它們是同分配的:每一次試驗的成功機率 p 都相同。在這兩個條件下,成功次數 X = X_1 + X_2 + ... + X_n,也就是 n 個獨立 Bernoulli(p) 變數之和,就服從[[prob-binomial-distribution|二項分配]],X ~ Binomial(n, p)。

它的公式從哪裡來?假設我們想要在 n 次試驗裡恰好有 k 次成功。其中一種具體的發生方式——比方說第 1 到第 k 次成功、之後都失敗——機率是 p^k * (1 - p)^(n - k),因為試驗彼此獨立,所以機率相乘。但那只是一種排列。任何其他「k 次成功、n - k 次失敗」的序列,機率都完全一樣,因為相乘不在乎順序。所以我們必須數出有多少種這樣的序列:那就是「從 n 個位置中挑出哪 k 個是成功」的方法數,也就是二項式係數 C(n, k),正是你先前數組合時遇過的「n 取 k」。

X ~ Binomial(n, p)

  P(X = k) = C(n, k) * p^k * (1 - p)^(n - k),   k = 0, 1, ..., n

  C(n, k) = n! / ( k! (n - k)! )

  E[X]   = n p
  Var(X) = n p (1 - p)
二項分配的機率質量函數:排列數 C(n, k),乘上其中任一種的機率 p^k (1 - p)^(n - k)。

一個小小的算例可以把它釘牢。擲一枚公正硬幣(p = 1/2)三次,問恰好出現 2 次正面。那麼 P(X = 2) = C(3, 2) * (1/2)^2 * (1/2)^1 = 3 * (1/8) = 3/8。這三種排列是 HHT、HTH、THH——你真的可以一一列出,而公式只是替你數了它們。做個檢驗:把 P(X = k) 從 k = 0 加到 n,永遠恰好等於 1;這正是二項式定理把 (p + (1 - p))^n = 1^n = 1 展開的結果,這也令人滿意地說明了為什麼機率質量函數要這樣構造。

用輕鬆的方式求平均與變異數

你大可以硬把 E[X] 算出來,對所有 k 去加總 k * C(n, k) * p^k * (1 - p)^(n - k)。拜託別這樣。有一條漂亮得多的路,還順便教你一個處處用得上的習慣:把二項分配拆回它的白努利原子,再用期望值的線性性質。寫 X = X_1 + ... + X_n,其中每個 X_i 是第 i 次試驗成功與否的指示變數——那次成功就等於 1,否則等於 0。這就是[[indicator-variable-trick|指示變數技巧]],是整個機率學裡最強大的招數之一。

  1. 把計數寫成指示變數之和:X = X_1 + X_2 + ... + X_n,每個 X_i ~ Bernoulli(p)。
  2. 套用線性性質:E[X] = E[X_1] + ... + E[X_n]。線性性質不需要獨立性——它永遠成立——所以這一步是白送的。
  3. 每個 E[X_i] = p,所以 E[X] = n p。完成了——不用加總,也不用階乘。
  4. 求變異數時,這一步就真的要用到獨立性了:獨立變數之和的變異數等於各變異數之和,所以 Var(X) = Var(X_1) + ... + Var(X_n) = n * p(1 - p)。

它的形狀,以及它告訴你什麼

把 P(X = k) 對 k 畫出來,一幅清楚的圖就浮現了。二項分配的形狀是一座單峰的小山:機率上升到 k = n p 附近的峰頂,再向兩側落下。當 p = 1/2 時,這座山以 n/2 為中心對稱;當 p 很小時,山峰偏向左邊(少數幾次成功最有可能),當 p 很大時則偏向右邊。最可能的值,也就是眾數,落在 n p 上或它旁邊。所以如果你擲一枚公正硬幣 100 次,次數會聚集在 50 附近,而要拿到比方說 70 次正面雖然可能,卻住在又薄又遠的尾巴裡。

有兩個極限值得先預告,因為它們把這篇指南和階段其餘部分連起來。當 n 很大而 p 適中時,凹凸的二項分配會平滑成我們熟悉的鐘形曲線——這是中央極限定理的前味,因為 X 是許多獨立片段之和。當 n 很大但 p 極小、使得 n p 維持適中時,二項分配則改而滑向第 3 篇指南的卜瓦松分配,也就是稀有事件法則。所以同一個計數模型,會依你把它推向極限的方式不同,而有兩個著名的後代。

誠實的細則與陷阱

二項分配只有在它的兩個假設確實成立時才有效,而跳過這個檢查正是人們誤用它的頭號方式。獨立性是脆弱的那一個。如果你從一副牌裡抽 5 張、數其中的 A,這些抽取並獨立,p 也不會固定不變——一旦你抽到一張 A,剩下的就變少了,所以下一張的機率改變了。那是取後不放回的抽樣,正確的模型是第 4 篇指南的超幾何分配,而不是二項分配。二項分配悄悄假設你是取後放回,或者等價地,從一個大到「拿走幾個幾乎不影響機率」的池子裡抽。

還有一個把試驗串起來的乾淨事實:二項分配對加法封閉。如果 X ~ Binomial(n, p) 與 Y ~ Binomial(m, p) 彼此獨立、且共用同一個 p,那麼 X + Y ~ Binomial(n + m, p)。一旦你用原子來思考,這就顯而易見——你不過是把 n + m 次獨立的 Bernoulli(p) 試驗匯在一起、把所有成功一併數出來。這是獨立變數之和與摺積的雛形,後面某個階段會把這些想法完整展開。但只要兩組的成功機率不同,它就立刻失效;那時根本沒有單一的 p,這個和也根本不是二項分配。