選對離散模型

為什麼要一張地圖，而不只是五條公式

在前四篇指南裡，你認識了整組離散角色：白努利原子和它的和——二項分配、幾何等待時間和它的推廣——負二項分配、稀有事件法則的卜瓦松分配，以及取後不放回的超幾何分配。各自孤立地認得它們是必要的，但還不夠。真正的本事——也就是這篇收尾指南要培養的——是[[choosing-the-discrete-model|選對離散模型]]這一步：站在一道全新的文字題前面，認出它是哪一個分配，就像賞鳥人靠剪影和動作兩秒就叫得出鳥名一樣。

好消息是，這個選擇幾乎從來不是用猜的。每個分配回答的是一種特定的問題，並建立在一組特定的假設上。把模型認錯，很少是計算上的錯，而是假設上的錯——把本該是取後不放回的東西用二項分配去數，或是用二項分配去描述一個等待時間。所以方法是去盤問這道問題，而不是去比對它的文字。三、四個犀利的問題，幾乎就能把每一種基本計數歸進它該去的格子。

做決定的幾個問題

以下是我在腦中跑的這份問卷。最開頭的分岔最重要：你是在數「固定次數的試驗裡發生幾次成功」，還是在數「要花幾次試驗才湊到某幾次成功」？光是這一個區別，就把二項與超幾何這一家（n 固定、次數隨機）和幾何與負二項那一家（成功次數固定、試驗次數隨機）分了開來。這一步弄反，後面每一步都白費。

試驗次數是事先固定的，還是因為「湊到目標成功次數就停」而隨機的？固定次數 -> 二項／超幾何這一家。湊到成功就停 -> 幾何／負二項那一家。
各次試驗是否保持獨立、成功機率 p 固定不變？是（取後放回，或母體極大）-> 二項／幾何。否，因為每抽一次都改變機率（從有限的池子裡取後不放回）-> 超幾何。
在等待時間那一家裡，你等的是第一次成功（幾何），還是第 r 次成功（負二項）？r = 1 就是幾何這個特例。
或者，你是在數「固定的時間、空間或體積窗口裡落入幾個稀有事件」，既沒有自然的 n、也沒有上限？-> 卜瓦松，只有一個率參數 lambda = 期望次數。

並排速查表

把這五個依「數什麼、參數、平均數」並排來看，很有幫助。注意平均數如何把故事編了進去：n p 是「n 次試驗、每次值 p」；1/p 是「平均每 1/p 次試驗就出一次成功」；lambda 就是人家給你的那個率。選好模型後，把平均數翻回白話，是一個很好的檢驗。

model              counts                         params        E[X]
-----------------  -----------------------------  ------------  --------
Bernoulli(p)       success in ONE trial           p             p
Binomial(n,p)      successes in n indep. trials   n, p          n p
Geometric(p)       trials until 1st success       p             1/p
NegBinom(r,p)      trials until r-th success       r, p          r/p
Poisson(lambda)    rare events in a fixed window  lambda        lambda
Hypergeom(N,K,n)   successes in n draws, no repl.  N, K, n       n K / N

離散動物園一覽：每一個數的是什麼、它的參數、以及它的平均數。（幾何分配有一種約定數的是試驗次數；另一種數的是第一次成功前的失敗次數，平均為 (1-p)/p——務必先確認用的是哪一種。）

表裡有兩個邊界事實值得隨身帶著。白努利不過就是 Binomial(1, p)——那個原子是 n = 1 的情形，不是另一個物種。而幾何不過就是 NegBinom(1, p)：等第一次成功，就是等第 r 次成功在 r = 1 時的樣子。把它們看成特例，而不是五條互不相干的公式，正是這篇指南想讓你做的轉變；這棵家族樹的根，比乍看之下要少。

它們如何彼此轉化

這些分配不是五座孤島——它們由極限相連，而這些連結本身就是建模的指引。最乾淨的橋是從超幾何到二項。從一個大小為 N 的母體取後不放回是超幾何，但若 N 相對於樣本數 n 大得驚人，拿走幾個幾乎不撼動機率，於是 p = K/N 幾乎維持不變，超幾何分配就能用 Binomial(n, K/N) 很好地近似。實務上：當母體遠遠壓過你的樣本（常見的拇指法則是 n 小於 N 的約 5%）時，你大可改用較簡單的二項分配，幾乎沒有損失。

第二座橋從二項通往卜瓦松。若 n 很大而 p 極小、同時平均數 n p 維持適中，二項分配就會塌縮到 Poisson(lambda)，其中 lambda = n p——這就是二項分配的卜瓦松近似，是第 3 篇指南那條稀有事件法則的正式面貌。這也是為什麼你能用單一的率，去描述一頁上的錯字數，或一秒內的放射性衰變數：有極多微小而獨立的機會，每一個幾乎都不發生。把兩座橋串起來，一個 N 巨大而 K/N 極小的超幾何，先是二項，再變卜瓦松。

幾個診斷實例

我們把這份問卷套在幾道題上，看正確的模型如何浮現。(a)「一條產線有 2% 瑕疵；一盒 100 件裡有幾件瑕疵？」固定 n = 100、p = 0.02 不變、各件獨立 -> Binomial(100, 0.02)。由於 n 大、p 小且 n p = 2，你也可用 Poisson(2) 近似。(b)「一個客服中心平均每分鐘接 5 通電話；下一分鐘恰好 8 通的機率？」固定窗口裡的一個率、沒有 n -> Poisson(5)。(c)「你不停撥一個忙線的號碼，每次接通的機率是 0.3；要撥幾次才接通？」等第一次成功、p 固定 -> Geometric(0.3)，平均 1/0.3，略多於 3 次。

再來幾個棘手的，由「不放回」和「等第 r 次」的結構來定案。(d)「一個袋子裡有 50 顆彈珠、12 顆紅色；你不看就抓 6 顆；有幾顆紅色？」固定樣本 n = 6，但是從一個小的有限池子裡取後不放回，所以每抓一次 p 都變 -> 超幾何，Hypergeometric(N=50, K=12, n=6)，平均 6*12/50 = 1.44。這裡用二項會錯，因為 6 相對於 50 並非微不足道。(e)「你擲一枚公正硬幣，直到收集到 3 次正面為止；總共擲幾次？」等第 r 次成功、r = 3、p 固定 -> NegBinom(3, 0.5)，平均 r/p = 6。每一個診斷都是直接從那四個問題得出，而不是靠把題目背下來。

最後收尾兩個陷阱，因為它們連謹慎的人都會中。第一，別讓獨立性悄悄失效：數一手 5 張撲克牌裡的 A，感覺像二項，其實是超幾何，因為牌堆隨你抽而縮小。第二，記住獨立的試驗沒有記憶——輪盤連開九次紅之後，第十次旋轉毫無改變；幾何分配那個定義性的無記憶性，正是在精確地說：你過去的失敗，並不會把成功拉近一分。選對模型不只是挑公式；更是誠實地檢查那條公式背後的假設，對你的問題真的成立。