把二項分配推到極限
在本階第一篇你認識了二項分配:固定 n 次互相獨立的試驗,每次以機率 p 成功,再數成功的次數。現在想像一種奇怪的二項分配——試驗次數「極多」,而每一次幾乎注定失敗。一座大城有數十萬人;任何一個小時裡,每個人撥打 999 的機率都微乎其微。一頁書有數千個字元位置;每個位置成為錯字的機率都很小。一平方公尺的夜空有無數個流星可能飛來的方向,每一個都微乎其微。在每個例子裡 n 都極大、p 都極小,但事件的「平均」次數 n 乘 p 卻是個合理而適中的數字。
奇妙之處在這裡。當你讓 n 跑向無限大、讓 p 縮向零,但把它們的乘積固定在某個我們稱為 lambda 的數(即 lambda = n 乘 p),二項分配的機率質量函數就不再分別依賴 n 與 p。它收斂到一條乾淨的公式,只依賴 lambda。這個極限形狀就是 卜瓦松分配,而 lambda 是它唯一的旋鈕——這正是二項到卜瓦松的極限在運作。我們寫成 X ~ Poisson(lambda)。每當你要數「許許多多稀有、獨立的機會中究竟有幾個真的發生了」,你就會伸手去拿它。
公式與每個部件的意義
卜瓦松的機率質量函數給出恰好看到 k 次事件的機率:P(X = k) = e^(-lambda) 乘 lambda^k / k!,其中 k = 0、1、2、3,一路到無限。注意它沒有上限——不像二項分配最多只能有 n 次成功,卜瓦松計數原則上可以是任何非負整數。我們逐塊讀這條公式。lambda^k 這一項隨 k 增大而成長;分母的 k! 最終把它壓回去;而前面的 e^(-lambda) 是歸一化常數,讓所有機率加總恰好等於 1。
P(X = k) = e^(-lambda) * lambda^k / k! k = 0, 1, 2, 3, ... Example: lambda = 2 (avg 2 events per interval) P(X=0) = e^(-2) * 1 / 1 = 0.1353 P(X=1) = e^(-2) * 2 / 1 = 0.2707 P(X=2) = e^(-2) * 4 / 2 = 0.2707 P(X=3) = e^(-2) * 8 / 6 = 0.1804 P(X=4) = e^(-2) * 16 / 24 = 0.0902 ... (these and the rest sum to 1)
一個算過的畫面會有幫助。假設一家小麵包店平均每天賣出 2 個生日蛋糕,而銷售是分散且互相獨立的。那麼每日蛋糕銷量大致服從 Poisson(2)。上面的表說:約 14% 的日子賣出零個、約 27% 恰好賣一個、再 27% 恰好賣兩個,而長尾(一天 5 個以上)雖罕見卻絕非不可能。要算特別忙碌的一天,P(X >= 5),最好用餘事件規則:1 減 P(0) 減 P(1) 減 P(2) 減 P(3) 減 P(4),這裡約為 0.053——大約每三週會有一個爆量的好日子。
平均數與變異數都是 lambda
卜瓦松有一個招牌性質,既好記又出奇地有用:它的平均數和變異數是「同一個」數字 lambda。也就是說 E[X] = lambda 而 Var(X) = lambda。從它的二項血統可以看出原因。Binomial(n, p) 的平均數是 n 乘 p、變異數是 n 乘 p 乘 (1 - p)。推到卜瓦松極限:平均數 n 乘 p 恰好是 lambda,而變異數 n 乘 p 乘 (1 - p) 變成 lambda 乘 (1 - p),但 p 已趨於零,所以 (1 - p) 趨於 1,變異數也變成 lambda。這兩個量在極限處相遇。
小心別把 lambda 讀出它本身沒有的含意。lambda 是一個比率,或者說每個固定窗口的平均計數——每天 2 個蛋糕、每頁 3 個錯字、每分鐘 1.2 通電話。把窗口加倍,平均也加倍:如果蛋糕是每天 Poisson(2),那麼兩天合起來就是 Poisson(4),因為 lambda 隨區間大小等比例放大。但 lambda「不是」機率——它可以是任何正數,甚至大於 1,而任何單一計數的機率永遠是 e^(-lambda) lambda^k / k!,絕不是 lambda 本身。
稀有事件的三個條件
稀有事件法則 這個名字正是事情的核心。卜瓦松之所以能立足,恰恰是當事件「個別」很罕見、但機會多到總會有一些發生的時候。要信任這個模型,在你的計數窗口內應該大致滿足三個條件。每一個都是你可以檢查的誠實假設——而其中一個破了,卜瓦松也就跟著破了。
- 獨立性:一個事件發生不應改變另一個事件的機率。如果某地的 999 電話因為同一場車禍而一起暴增,那單一原因把它們連在一起,獨立性假設就不成立。
- 比率固定:每單位窗口的平均比率 lambda 不應飄移。每頁的錯字數不應愈接近書末愈密集;若會,單一個 lambda 就不足以描述整體。
- 不同時發生:在夠小的子窗口裡,最多只有一個事件能發生——事件不會兩兩同時到來。數雨滴行得通;數成團落下的冰雹則不行。
當三個條件都成立時,同一個 lambda 掌管散落在時間或空間中的事件,而任何窗口內的計數都是卜瓦松。這是你在階梯後段會遇到的一個更大觀念的種子——卜瓦松過程,它不過是「每個窗口都是卜瓦松計數,再一致地縫合起來」。眼下,實用的結論就是稀有事件法則本身:許多不太可能但互相獨立的機會,加總起來,行為就像 Poisson(lambda),而 lambda 等於期望的總數。
用卜瓦松近似二項分配
因為卜瓦松是二項分配的極限,你可以把這套邏輯反過來當成計算的捷徑。如果你有一個貨真價實、n 大 p 小的二項分配,它的機率質量函數很麻煩——那些二項式係數和 p^k (1-p)^(n-k) 因子很快就變得難看。但卜瓦松近似讓你用一個 lambda = n 乘 p 的 Poisson(lambda) 來取代它,改用 e^(-lambda) lambda^k / k! 就好。這個較粗略的答案不僅好算得多,而且在 p 很小時近得驚人。
做個具體驗證。假設一家工廠製造 1000 顆燈泡,每顆獨立地以機率 0.002 是瑕疵品。瑕疵數的精確分配是 Binomial(1000, 0.002)。設 lambda = 1000 乘 0.002 = 2,用 Poisson(2) 近似。零瑕疵的機率,卜瓦松給 e^(-2) = 0.1353;精確的二項值是 0.998^1000 = 0.1351。恰好兩個瑕疵的機率,卜瓦松給 0.2707,精確值 0.2709。兩者幾乎無法區分——而卜瓦松只用一條短公式,省去了笨重的二項式係數。
卜瓦松在分配動物園裡的位置
退一步,把卜瓦松放進它的鄰居之間。二項分配數的是「固定」次數的試驗裡的成功數;卜瓦松數的是固定時間或空間窗口裡的事件數,沒有自然的上限。你在上一篇認識的幾何分配,數的是直到「第一次」成功的試驗數,而且無記憶;卜瓦松則是同一件事在一段區間上的計數,而它事件之間的等待時間結果是指數分配——那位連續、無記憶的表親。這些與其說是不同的動物,不如說是同一個家族從不同角度看到的樣子。
還有一個值得帶著走的優雅事實:卜瓦松會「相加」。如果 X ~ Poisson(lambda_1) 數電子郵件、Y ~ Poisson(lambda_2) 數簡訊,且兩者互相獨立,那麼 X + Y ~ Poisson(lambda_1 + lambda_2) 就數出所有訊息。比率直接相加。這種對加法的穩定性既稀有又美麗——大多數分配相加後會改變形狀——也正是它讓卜瓦松成為「合併多股互相獨立的稀有事件流」的天然語言。決定何時該選這個分配、而非它的表親,正是本階最後一篇選擇正確的離散模型的工作。