超幾何分配與負二項分配

這兩個分配在動物園裡的位置

到目前為止，你已經認識了離散世界裡的幾位主角。二項分配計算在固定次數的獨立試驗中出現幾次成功，每次的成功機率都是同一個 p。幾何分配把問題反過來問：你要等多久才等到第一次成功。卜瓦松分配則處理散布在時間或空間中的稀有事件。這篇指南補上最後兩位常客，而它們各自的誕生，都只是放寬了你先前理所當然接受的某一個假設。

超幾何分配保留了二項分配的問題——固定大小的樣本裡有幾次成功——卻丟掉了二項分配那個悄悄的假設：各次試驗彼此獨立、p 維持不變。當你從一個有限的池子裡取後不放回地抽取時，得到的就是它。負二項分配保留了幾何分配「等待遊戲」的精神，卻丟掉了「在第一次成功就停手」的限制；改成等到第 r 次成功才停。所以一個是學會了誠實地從小袋子裡抽東西的二項分配，另一個則是學會了耐心的幾何分配。

超幾何分配：取後不放回的抽取

具體的畫面是這樣。你有一個甕，裡面有 N 顆彈珠，其中 K 顆是紅色（也就是「成功」），N - K 顆是藍色。你一次抓出一把 n 顆彈珠——等價於一顆一顆抽出來、而且都不放回去——然後問：我這 n 顆彈珠裡有幾顆是紅的？把這個數叫做 X。因為你每拿走一顆，剩下的就改變了，所以各次抽取並不獨立，而下一顆是紅色的機率每次都在變動。這就是它與二項分配的全部差別。

恰好抽到 k 顆紅彈珠的機率，是一個純粹的計數比值，直接由你在計數那一階段學過的組合搭起來。選出你拿到的那 k 顆紅色是 K 顆裡的哪幾顆，選出你拿到的那 n - k 顆藍色是 N - K 顆裡的哪幾顆，再除以從全部 N 顆裡任選 n 顆的方法數。式子裡完全沒有 p 的乘冪——這個模型根本沒有 p，只有甕裡實際的內容物。

P(X = k) = [ C(K, k) * C(N-K, n-k) ] / C(N, n)

Example: deck of 52, K = 4 aces, draw n = 5 cards.
P(exactly 2 aces) = [ C(4,2) * C(48,3) ] / C(52,5)
                  = [ 6 * 17296 ] / 2598960
                  = 103776 / 2598960  ~ 0.0399

超幾何分配的機率質量函數，附上一個發五張撲克牌的計算：恰好兩張 A 的機率約為 4%。

平均值很親切，值得記住：E[X] = n * (K / N)。把它讀成「樣本大小乘以池子裡是紅色的比例」，這正是你的直覺所期待的——平均而言，樣本會反映甕的組成。變異數是二項分配的 n * p * (1 - p) 再乘上一個額外的因子 (N - n) / (N - 1)，也就是有限母體修正。只要你抽超過一顆彈珠，這個因子就小於 1，所以取後不放回的抽樣，散布總是比取後放回的稍微更緊一點。直覺上，每一次抽取都用掉了一些關於甕的資訊，留給意外的空間就變少了。

當甕很大時：超幾何分配變回二項分配

現在來看一座既漂亮又實用的橋。如果甕跟你抓的那一把比起來大得不得了，那麼拿走幾顆彈珠幾乎不會改變紅色的比例，於是各次抽取近乎獨立、成功機率也幾乎不動。在這個情況下，超幾何分配本質上就是 p = K / N 的二項分配。這就是超幾何趨近二項的極限：當 N 與 K 一起增大、而 K / N 維持在 p 時，超幾何分配的機率質量函數會收斂到二項分配的機率質量函數。

這正是為什麼民調人員和品管檢驗員通常可以忽略「不放回」的這個細微之處。當你從五千萬人口的國家裡抽 1000 人來調查，技術上你是在取後不放回地抽取，但有限母體修正 (N - n) / (N - 1) 太接近 1 了，所以二項分配是個很好的模型。一個常見的經驗法則是：如果你的樣本不到母體的約 5%，把它當成二項分配是無害的。誠實的說法是：它始終只是個近似，而當你需要時，那個修正項就在那裡。

負二項分配：等待第 r 次成功

切回到成功機率固定的獨立試驗，也就是幾何分配的那個世界。幾何分配回答的是「到第一次成功為止要試幾次？」負二項分配回答的是它自然的續集：「到第 r 次成功為止要試幾次？」想像一位籃球員不停地罰球，每一球各自獨立地以機率 p 投進，而你在她投進第 3 球的那一刻按下碼錶。她出手的總次數，就是 r = 3 的負二項分配。

它機率質量函數的形狀有個乾淨的故事。要恰好出手 x 次、而且在第 r 次成功時停下，必須同時滿足兩件事：最後一球是進球（機率 p），而前面 x - 1 球之中，恰好有 r - 1 次進球、以任何順序散布其中。這種散布的方式由一個二項式係數來計算，其餘的出手則是沒進。所以 P(X = x) = C(x - 1, r - 1) * p^r * (1 - p)^(x - r)，其中 x = r, r + 1, r + 2，依此類推。

還有一種更深的看法，能讓平均值與變異數白白掉出來。等待第 r 次成功，不過就是先等第 1 次成功，然後重置、再等下一次，如此重複 r 次。每一段等待都是一個獨立的幾何隨機變數，所以一個負二項分配就是 r 個獨立幾何分配之和。根據期望值的線性，平均值就是幾何平均值的 r 倍：E[X] = r / p。變異數也是相加的（因為各段等待彼此獨立）：Var(X) = r * (1 - p) / p^2。把 r = 1 代入就恰好還原成幾何分配，這是個誠實的健全性檢查。

兩個幾乎絆倒所有人的提醒

第一，負二項分配有好幾種互相競爭的定義，而只要你講清楚指的是哪一種，它們全都正確。有些作者數的是試驗的總次數 X（所以 X 從 r 起算，如上所述），有些作者只數第 r 次成功之前失敗的次數 Y（所以 Y 從 0 起算，而 Y = X - r）。機率質量函數、平均值、變異數都會隨著那個常數 r 平移。軟體套件之間也不一致，所以當你看到「負二項分配」時，永遠要確認：它數的是試驗次數，還是失敗次數？一個看起來不對的公式，往往只是換了另一種約定。

第二，別讓負二項分配披上偽裝，又把幾何分配最有名的迷思救活。它內部的試驗仍然彼此獨立，所以毫無記憶；一連串沒進並不會讓下一球變得「該進了」。負二項分配描述的並不是一個等得越久就越走運的系統——它只是記錄了，要累積到 r 次成功，總共經過了幾次獨立、無記憶的試驗。相信相反的事，不過是賭徒謬誤換了個更花俏的名字。

把四者排成一列：一個統一的視角

退一步看，這座離散動物園會沿著兩條軸自己排好。第一條軸是：什麼是固定的、什麼是隨機的。二項與超幾何固定試驗的次數（也就是樣本大小），讓成功的計數隨機。幾何與負二項則反過來：它們固定你想要的成功次數，讓試驗的次數隨機。第二條軸是：試驗是否獨立、p 是否固定。二項與負二項都假設是；超幾何則是二項分配的「取後不放回」版本。

把這四者排進一個小小的二乘二格子裡。橫向上方，兩欄是「固定試驗次數、隨機成功計數」對「固定成功次數、隨機等待時間」。縱向左側，兩列是「成功機率固定的獨立試驗」對「取後不放回的抽取」。二項分配坐在左上角，負二項分配（以幾何分配作為它 r = 1 的那一角）在右上角，超幾何分配在左下角，作為二項分配「取後不放回」的表親。第四格——一個取後不放回的等待模型——也確實存在，只是在這個程度上很少用到。

問什麼是固定的。固定的樣本大小、隨機的成功計數，指向二項或超幾何；固定想要的成功次數、隨機的等待，指向幾何或負二項。
問物件是否放回。從有限的池子裡取後不放回，意味著超幾何；成功機率固定的獨立試驗，意味著二項。
如果你在數成功，而池子相對於樣本大得多，你可以用 p = K / N 的二項分配來近似超幾何分配。
如果你在等好幾次成功，用負二項分配；如果只等一次，它就塌縮成幾何分配。

這張兩軸地圖，才是這一階段真正的收穫，而下一篇指南——選對離散模型——會把它磨成一種熟練的反射。背下五條機率質量函數公式，是這份知識淺薄的版本；認出是哪一種機制在產生你的資料——固定試驗還是固定成功、放回還是不放回、常見還是稀有——才是深刻的版本，而正是它讓你在問題一落到桌上的那一刻，就能伸手拿對工具。