為什麼要一張地圖,而不只是五條公式
在前四篇指南裡,你認識了整組離散角色:白努利原子和它的和——二項分配、幾何等待時間和它的推廣——負二項分配、稀有事件法則的卜瓦松分配,以及取後不放回的超幾何分配。各自孤立地認得它們是必要的,但還不夠。真正的本事——也就是這篇收尾指南要培養的——是[[choosing-the-discrete-model|選對離散模型]]這一步:站在一道全新的文字題前面,認出它是哪一個分配,就像賞鳥人靠剪影和動作兩秒就叫得出鳥名一樣。
好消息是,這個選擇幾乎從來不是用猜的。每個分配回答的是一種特定的問題,並建立在一組特定的假設上。把模型認錯,很少是計算上的錯,而是假設上的錯——把本該是取後不放回的東西用二項分配去數,或是用二項分配去描述一個等待時間。所以方法是去盤問這道問題,而不是去比對它的文字。三、四個犀利的問題,幾乎就能把每一種基本計數歸進它該去的格子。
做決定的幾個問題
以下是我在腦中跑的這份問卷。最開頭的分岔最重要:你是在數「固定次數的試驗裡發生幾次成功」,還是在數「要花幾次試驗才湊到某幾次成功」?光是這一個區別,就把二項與超幾何這一家(n 固定、次數隨機)和幾何與負二項那一家(成功次數固定、試驗次數隨機)分了開來。這一步弄反,後面每一步都白費。
- 試驗次數是事先固定的,還是因為「湊到目標成功次數就停」而隨機的?固定次數 -> 二項/超幾何這一家。湊到成功就停 -> 幾何/負二項那一家。
- 各次試驗是否保持獨立、成功機率 p 固定不變?是(取後放回,或母體極大)-> 二項/幾何。否,因為每抽一次都改變機率(從有限的池子裡取後不放回)-> 超幾何。
- 在等待時間那一家裡,你等的是第一次成功(幾何),還是第 r 次成功(負二項)?r = 1 就是幾何這個特例。
- 或者,你是在數「固定的時間、空間或體積窗口裡落入幾個稀有事件」,既沒有自然的 n、也沒有上限?-> 卜瓦松,只有一個率參數 lambda = 期望次數。
並排速查表
把這五個依「數什麼、參數、平均數」並排來看,很有幫助。注意平均數如何把故事編了進去:n p 是「n 次試驗、每次值 p」;1/p 是「平均每 1/p 次試驗就出一次成功」;lambda 就是人家給你的那個率。選好模型後,把平均數翻回白話,是一個很好的檢驗。
model counts params E[X] ----------------- ----------------------------- ------------ -------- Bernoulli(p) success in ONE trial p p Binomial(n,p) successes in n indep. trials n, p n p Geometric(p) trials until 1st success p 1/p NegBinom(r,p) trials until r-th success r, p r/p Poisson(lambda) rare events in a fixed window lambda lambda Hypergeom(N,K,n) successes in n draws, no repl. N, K, n n K / N
表裡有兩個邊界事實值得隨身帶著。白努利不過就是 Binomial(1, p)——那個原子是 n = 1 的情形,不是另一個物種。而幾何不過就是 NegBinom(1, p):等第一次成功,就是等第 r 次成功在 r = 1 時的樣子。把它們看成特例,而不是五條互不相干的公式,正是這篇指南想讓你做的轉變;這棵家族樹的根,比乍看之下要少。
它們如何彼此轉化
這些分配不是五座孤島——它們由極限相連,而這些連結本身就是建模的指引。最乾淨的橋是從超幾何到二項。從一個大小為 N 的母體取後不放回是超幾何,但若 N 相對於樣本數 n 大得驚人,拿走幾個幾乎不撼動機率,於是 p = K/N 幾乎維持不變,超幾何分配就能用 Binomial(n, K/N) 很好地近似。實務上:當母體遠遠壓過你的樣本(常見的拇指法則是 n 小於 N 的約 5%)時,你大可改用較簡單的二項分配,幾乎沒有損失。
第二座橋從二項通往卜瓦松。若 n 很大而 p 極小、同時平均數 n p 維持適中,二項分配就會塌縮到 Poisson(lambda),其中 lambda = n p——這就是二項分配的卜瓦松近似,是第 3 篇指南那條稀有事件法則的正式面貌。這也是為什麼你能用單一的率,去描述一頁上的錯字數,或一秒內的放射性衰變數:有極多微小而獨立的機會,每一個幾乎都不發生。把兩座橋串起來,一個 N 巨大而 K/N 極小的超幾何,先是二項,再變卜瓦松。
幾個診斷實例
我們把這份問卷套在幾道題上,看正確的模型如何浮現。(a)「一條產線有 2% 瑕疵;一盒 100 件裡有幾件瑕疵?」固定 n = 100、p = 0.02 不變、各件獨立 -> Binomial(100, 0.02)。由於 n 大、p 小且 n p = 2,你也可用 Poisson(2) 近似。(b)「一個客服中心平均每分鐘接 5 通電話;下一分鐘恰好 8 通的機率?」固定窗口裡的一個率、沒有 n -> Poisson(5)。(c)「你不停撥一個忙線的號碼,每次接通的機率是 0.3;要撥幾次才接通?」等第一次成功、p 固定 -> Geometric(0.3),平均 1/0.3,略多於 3 次。
再來幾個棘手的,由「不放回」和「等第 r 次」的結構來定案。(d)「一個袋子裡有 50 顆彈珠、12 顆紅色;你不看就抓 6 顆;有幾顆紅色?」固定樣本 n = 6,但是從一個小的有限池子裡取後不放回,所以每抓一次 p 都變 -> 超幾何,Hypergeometric(N=50, K=12, n=6),平均 6*12/50 = 1.44。這裡用二項會錯,因為 6 相對於 50 並非微不足道。(e)「你擲一枚公正硬幣,直到收集到 3 次正面為止;總共擲幾次?」等第 r 次成功、r = 3、p 固定 -> NegBinom(3, 0.5),平均 r/p = 6。每一個診斷都是直接從那四個問題得出,而不是靠把題目背下來。
最後收尾兩個陷阱,因為它們連謹慎的人都會中。第一,別讓獨立性悄悄失效:數一手 5 張撲克牌裡的 A,感覺像二項,其實是超幾何,因為牌堆隨你抽而縮小。第二,記住獨立的試驗沒有記憶——輪盤連開九次紅之後,第十次旋轉毫無改變;幾何分配那個定義性的無記憶性,正是在精確地說:你過去的失敗,並不會把成功拉近一分。選對模型不只是挑公式;更是誠實地檢查那條公式背後的假設,對你的問題真的成立。