白努利與二項分配：數成功的次數

原子：一次「是或否」的試驗

來到這個階段時，你已經知道什麼是隨機變數，也知道機率質量函數如何把權重分配給它的各個可能值。現在我們不再抽象地談，要來認識那些在真實問題裡一再出現、有名有姓的分配。第一個，就是整個離散機率裡最簡單的東西：一個恰好只有兩種結果的試驗。一枚硬幣不是正面就是反面。一位病人對藥物有反應，或者沒有。一封郵件是垃圾信，或者不是。我們把任何這種兩結果的試驗，稱為[[bernoulli-trial|白努利試驗]]。

要把它變成一個數字，就給其中一個結果貼上「成功」（記為 1）的標籤，另一個貼上「失敗」（記為 0）。哪一個算成功由你決定，純粹是記帳——成功未必是值得高興的事；對品管檢驗員來說，「成功」可能是指找到一個瑕疵。設 p 為成功的機率，那麼 1 - p 就是失敗的機率。由此得到的隨機變數 X，以機率 p 等於 1、以機率 1 - p 等於 0，就服從[[prob-bernoulli-distribution|白努利分配]]，記為 X ~ Bernoulli(p)。它整個機率質量函數一行就寫得下。

X ~ Bernoulli(p)

  P(X = 1) = p          (success)
  P(X = 0) = 1 - p      (failure)

  E[X]   = p
  Var(X) = p(1 - p)

白努利分配的全貌：一次成功機率為 p 的試驗。

平均數與變異數立刻就掉出來，而且值得你用直覺去體會。由於 X 只取 0 和 1 兩個值，E[X] = 0*(1 - p) + 1*p = p。至於變異數，用 Var(X) = E[X^2] - (E[X])^2；但 X 不是 0 就是 1，所以 X^2 = X，於是 E[X^2] = p，得到 Var(X) = p - p^2 = p(1 - p)。這個 p(1 - p) 在 p = 1/2 時最大，那正是結果最不確定的時候；當 p 趨近 0 或 1，結果幾乎是定局，它就縮到 0。不確定性最高，恰恰是在硬幣最公正的時候。

把試驗疊起來：二項分配

單一次試驗很少是我們真正要問的。我們通常想知道的是：在 n 次試驗裡，有幾次成功？擲一枚硬幣 10 次——出現幾次正面？寄出 200 封郵件——有幾封被退回？要得到乾淨的答案，我們做兩個誠實的假設。第一，這 n 次試驗彼此獨立：其中一次的結果對其他次毫無透露。第二，它們是同分配的：每一次試驗的成功機率 p 都相同。在這兩個條件下，成功次數 X = X_1 + X_2 + ... + X_n，也就是 n 個獨立 Bernoulli(p) 變數之和，就服從[[prob-binomial-distribution|二項分配]]，X ~ Binomial(n, p)。

它的公式從哪裡來？假設我們想要在 n 次試驗裡恰好有 k 次成功。其中一種具體的發生方式——比方說第 1 到第 k 次成功、之後都失敗——機率是 p^k * (1 - p)^(n - k)，因為試驗彼此獨立，所以機率相乘。但那只是一種排列。任何其他「k 次成功、n - k 次失敗」的序列，機率都完全一樣，因為相乘不在乎順序。所以我們必須數出有多少種這樣的序列：那就是「從 n 個位置中挑出哪 k 個是成功」的方法數，也就是二項式係數 C(n, k)，正是你先前數組合時遇過的「n 取 k」。

X ~ Binomial(n, p)

  P(X = k) = C(n, k) * p^k * (1 - p)^(n - k),   k = 0, 1, ..., n

  C(n, k) = n! / ( k! (n - k)! )

  E[X]   = n p
  Var(X) = n p (1 - p)

二項分配的機率質量函數：排列數 C(n, k)，乘上其中任一種的機率 p^k (1 - p)^(n - k)。

一個小小的算例可以把它釘牢。擲一枚公正硬幣（p = 1/2）三次，問恰好出現 2 次正面。那麼 P(X = 2) = C(3, 2) * (1/2)^2 * (1/2)^1 = 3 * (1/8) = 3/8。這三種排列是 HHT、HTH、THH——你真的可以一一列出，而公式只是替你數了它們。做個檢驗：把 P(X = k) 從 k = 0 加到 n，永遠恰好等於 1；這正是二項式定理把 (p + (1 - p))^n = 1^n = 1 展開的結果，這也令人滿意地說明了為什麼機率質量函數要這樣構造。

用輕鬆的方式求平均與變異數

你大可以硬把 E[X] 算出來，對所有 k 去加總 k * C(n, k) * p^k * (1 - p)^(n - k)。拜託別這樣。有一條漂亮得多的路，還順便教你一個處處用得上的習慣：把二項分配拆回它的白努利原子，再用期望值的線性性質。寫 X = X_1 + ... + X_n，其中每個 X_i 是第 i 次試驗成功與否的指示變數——那次成功就等於 1，否則等於 0。這就是[[indicator-variable-trick|指示變數技巧]]，是整個機率學裡最強大的招數之一。

把計數寫成指示變數之和：X = X_1 + X_2 + ... + X_n，每個 X_i ~ Bernoulli(p)。
套用線性性質：E[X] = E[X_1] + ... + E[X_n]。線性性質不需要獨立性——它永遠成立——所以這一步是白送的。
每個 E[X_i] = p，所以 E[X] = n p。完成了——不用加總，也不用階乘。
求變異數時，這一步就真的要用到獨立性了：獨立變數之和的變異數等於各變異數之和，所以 Var(X) = Var(X_1) + ... + Var(X_n) = n * p(1 - p)。

它的形狀，以及它告訴你什麼

把 P(X = k) 對 k 畫出來，一幅清楚的圖就浮現了。二項分配的形狀是一座單峰的小山：機率上升到 k = n p 附近的峰頂，再向兩側落下。當 p = 1/2 時，這座山以 n/2 為中心對稱；當 p 很小時，山峰偏向左邊（少數幾次成功最有可能），當 p 很大時則偏向右邊。最可能的值，也就是眾數，落在 n p 上或它旁邊。所以如果你擲一枚公正硬幣 100 次，次數會聚集在 50 附近，而要拿到比方說 70 次正面雖然可能，卻住在又薄又遠的尾巴裡。

有兩個極限值得先預告，因為它們把這篇指南和階段其餘部分連起來。當 n 很大而 p 適中時，凹凸的二項分配會平滑成我們熟悉的鐘形曲線——這是中央極限定理的前味，因為 X 是許多獨立片段之和。當 n 很大但 p 極小、使得 n p 維持適中時，二項分配則改而滑向第 3 篇指南的卜瓦松分配，也就是稀有事件法則。所以同一個計數模型，會依你把它推向極限的方式不同，而有兩個著名的後代。

誠實的細則與陷阱

二項分配只有在它的兩個假設確實成立時才有效，而跳過這個檢查正是人們誤用它的頭號方式。獨立性是脆弱的那一個。如果你從一副牌裡抽 5 張、數其中的 A，這些抽取並不獨立，p 也不會固定不變——一旦你抽到一張 A，剩下的就變少了，所以下一張的機率改變了。那是取後不放回的抽樣，正確的模型是第 4 篇指南的超幾何分配，而不是二項分配。二項分配悄悄假設你是取後放回，或者等價地，從一個大到「拿走幾個幾乎不影響機率」的池子裡抽。

還有一個把試驗串起來的乾淨事實：二項分配對加法封閉。如果 X ~ Binomial(n, p) 與 Y ~ Binomial(m, p) 彼此獨立、且共用同一個 p，那麼 X + Y ~ Binomial(n + m, p)。一旦你用原子來思考，這就顯而易見——你不過是把 n + m 次獨立的 Bernoulli(p) 試驗匯在一起、把所有成功一併數出來。這是獨立變數之和與摺積的雛形，後面某個階段會把這些想法完整展開。但只要兩組的成功機率不同，它就立刻失效；那時根本沒有單一的 p，這個和也根本不是二項分配。