這兩個分配在動物園裡的位置
到目前為止,你已經認識了離散世界裡的幾位主角。二項分配計算在固定次數的獨立試驗中出現幾次成功,每次的成功機率都是同一個 p。幾何分配把問題反過來問:你要等多久才等到第一次成功。卜瓦松分配則處理散布在時間或空間中的稀有事件。這篇指南補上最後兩位常客,而它們各自的誕生,都只是放寬了你先前理所當然接受的某一個假設。
超幾何分配保留了二項分配的問題——固定大小的樣本裡有幾次成功——卻丟掉了二項分配那個悄悄的假設:各次試驗彼此獨立、p 維持不變。當你從一個有限的池子裡取後不放回地抽取時,得到的就是它。負二項分配保留了幾何分配「等待遊戲」的精神,卻丟掉了「在第一次成功就停手」的限制;改成等到第 r 次成功才停。所以一個是學會了誠實地從小袋子裡抽東西的二項分配,另一個則是學會了耐心的幾何分配。
超幾何分配:取後不放回的抽取
具體的畫面是這樣。你有一個甕,裡面有 N 顆彈珠,其中 K 顆是紅色(也就是「成功」),N - K 顆是藍色。你一次抓出一把 n 顆彈珠——等價於一顆一顆抽出來、而且都不放回去——然後問:我這 n 顆彈珠裡有幾顆是紅的?把這個數叫做 X。因為你每拿走一顆,剩下的就改變了,所以各次抽取並不獨立,而下一顆是紅色的機率每次都在變動。這就是它與二項分配的全部差別。
恰好抽到 k 顆紅彈珠的機率,是一個純粹的計數比值,直接由你在計數那一階段學過的組合搭起來。選出你拿到的那 k 顆紅色是 K 顆裡的哪幾顆,選出你拿到的那 n - k 顆藍色是 N - K 顆裡的哪幾顆,再除以從全部 N 顆裡任選 n 顆的方法數。式子裡完全沒有 p 的乘冪——這個模型根本沒有 p,只有甕裡實際的內容物。
P(X = k) = [ C(K, k) * C(N-K, n-k) ] / C(N, n)
Example: deck of 52, K = 4 aces, draw n = 5 cards.
P(exactly 2 aces) = [ C(4,2) * C(48,3) ] / C(52,5)
= [ 6 * 17296 ] / 2598960
= 103776 / 2598960 ~ 0.0399平均值很親切,值得記住:E[X] = n * (K / N)。把它讀成「樣本大小乘以池子裡是紅色的比例」,這正是你的直覺所期待的——平均而言,樣本會反映甕的組成。變異數是二項分配的 n * p * (1 - p) 再乘上一個額外的因子 (N - n) / (N - 1),也就是有限母體修正。只要你抽超過一顆彈珠,這個因子就小於 1,所以取後不放回的抽樣,散布總是比取後放回的稍微更緊一點。直覺上,每一次抽取都用掉了一些關於甕的資訊,留給意外的空間就變少了。
當甕很大時:超幾何分配變回二項分配
現在來看一座既漂亮又實用的橋。如果甕跟你抓的那一把比起來大得不得了,那麼拿走幾顆彈珠幾乎不會改變紅色的比例,於是各次抽取近乎獨立、成功機率也幾乎不動。在這個情況下,超幾何分配本質上就是 p = K / N 的二項分配。這就是超幾何趨近二項的極限:當 N 與 K 一起增大、而 K / N 維持在 p 時,超幾何分配的機率質量函數會收斂到二項分配的機率質量函數。
這正是為什麼民調人員和品管檢驗員通常可以忽略「不放回」的這個細微之處。當你從五千萬人口的國家裡抽 1000 人來調查,技術上你是在取後不放回地抽取,但有限母體修正 (N - n) / (N - 1) 太接近 1 了,所以二項分配是個很好的模型。一個常見的經驗法則是:如果你的樣本不到母體的約 5%,把它當成二項分配是無害的。誠實的說法是:它始終只是個近似,而當你需要時,那個修正項就在那裡。
負二項分配:等待第 r 次成功
切回到成功機率固定的獨立試驗,也就是幾何分配的那個世界。幾何分配回答的是「到第一次成功為止要試幾次?」負二項分配回答的是它自然的續集:「到第 r 次成功為止要試幾次?」想像一位籃球員不停地罰球,每一球各自獨立地以機率 p 投進,而你在她投進第 3 球的那一刻按下碼錶。她出手的總次數,就是 r = 3 的負二項分配。
它機率質量函數的形狀有個乾淨的故事。要恰好出手 x 次、而且在第 r 次成功時停下,必須同時滿足兩件事:最後一球是進球(機率 p),而前面 x - 1 球之中,恰好有 r - 1 次進球、以任何順序散布其中。這種散布的方式由一個二項式係數來計算,其餘的出手則是沒進。所以 P(X = x) = C(x - 1, r - 1) * p^r * (1 - p)^(x - r),其中 x = r, r + 1, r + 2,依此類推。
還有一種更深的看法,能讓平均值與變異數白白掉出來。等待第 r 次成功,不過就是先等第 1 次成功,然後重置、再等下一次,如此重複 r 次。每一段等待都是一個獨立的幾何隨機變數,所以一個負二項分配就是 r 個獨立幾何分配之和。根據期望值的線性,平均值就是幾何平均值的 r 倍:E[X] = r / p。變異數也是相加的(因為各段等待彼此獨立):Var(X) = r * (1 - p) / p^2。把 r = 1 代入就恰好還原成幾何分配,這是個誠實的健全性檢查。
兩個幾乎絆倒所有人的提醒
第一,負二項分配有好幾種互相競爭的定義,而只要你講清楚指的是哪一種,它們全都正確。有些作者數的是試驗的總次數 X(所以 X 從 r 起算,如上所述),有些作者只數第 r 次成功之前失敗的次數 Y(所以 Y 從 0 起算,而 Y = X - r)。機率質量函數、平均值、變異數都會隨著那個常數 r 平移。軟體套件之間也不一致,所以當你看到「負二項分配」時,永遠要確認:它數的是試驗次數,還是失敗次數?一個看起來不對的公式,往往只是換了另一種約定。
第二,別讓負二項分配披上偽裝,又把幾何分配最有名的迷思救活。它內部的試驗仍然彼此獨立,所以毫無記憶;一連串沒進並不會讓下一球變得「該進了」。負二項分配描述的並不是一個等得越久就越走運的系統——它只是記錄了,要累積到 r 次成功,總共經過了幾次獨立、無記憶的試驗。相信相反的事,不過是賭徒謬誤換了個更花俏的名字。
把四者排成一列:一個統一的視角
退一步看,這座離散動物園會沿著兩條軸自己排好。第一條軸是:什麼是固定的、什麼是隨機的。二項與超幾何固定試驗的次數(也就是樣本大小),讓成功的計數隨機。幾何與負二項則反過來:它們固定你想要的成功次數,讓試驗的次數隨機。第二條軸是:試驗是否獨立、p 是否固定。二項與負二項都假設是;超幾何則是二項分配的「取後不放回」版本。
把這四者排進一個小小的二乘二格子裡。橫向上方,兩欄是「固定試驗次數、隨機成功計數」對「固定成功次數、隨機等待時間」。縱向左側,兩列是「成功機率固定的獨立試驗」對「取後不放回的抽取」。二項分配坐在左上角,負二項分配(以幾何分配作為它 r = 1 的那一角)在右上角,超幾何分配在左下角,作為二項分配「取後不放回」的表親。第四格——一個取後不放回的等待模型——也確實存在,只是在這個程度上很少用到。
- 問什麼是固定的。固定的樣本大小、隨機的成功計數,指向二項或超幾何;固定想要的成功次數、隨機的等待,指向幾何或負二項。
- 問物件是否放回。從有限的池子裡取後不放回,意味著超幾何;成功機率固定的獨立試驗,意味著二項。
- 如果你在數成功,而池子相對於樣本大得多,你可以用 p = K / N 的二項分配來近似超幾何分配。
- 如果你在等好幾次成功,用負二項分配;如果只等一次,它就塌縮成幾何分配。
這張兩軸地圖,才是這一階段真正的收穫,而下一篇指南——選對離散模型——會把它磨成一種熟練的反射。背下五條機率質量函數公式,是這份知識淺薄的版本;認出是哪一種機制在產生你的資料——固定試驗還是固定成功、放回還是不放回、常見還是稀有——才是深刻的版本,而正是它讓你在問題一落到桌上的那一刻,就能伸手拿對工具。