卜瓦松分配：稀有事件法則

把二項分配推到極限

在本階第一篇你認識了二項分配：固定 n 次互相獨立的試驗，每次以機率 p 成功，再數成功的次數。現在想像一種奇怪的二項分配——試驗次數「極多」，而每一次幾乎注定失敗。一座大城有數十萬人；任何一個小時裡，每個人撥打 999 的機率都微乎其微。一頁書有數千個字元位置；每個位置成為錯字的機率都很小。一平方公尺的夜空有無數個流星可能飛來的方向，每一個都微乎其微。在每個例子裡 n 都極大、p 都極小，但事件的「平均」次數 n 乘 p 卻是個合理而適中的數字。

奇妙之處在這裡。當你讓 n 跑向無限大、讓 p 縮向零，但把它們的乘積固定在某個我們稱為 lambda 的數（即 lambda = n 乘 p），二項分配的機率質量函數就不再分別依賴 n 與 p。它收斂到一條乾淨的公式，只依賴 lambda。這個極限形狀就是 卜瓦松分配，而 lambda 是它唯一的旋鈕——這正是二項到卜瓦松的極限在運作。我們寫成 X ~ Poisson(lambda)。每當你要數「許許多多稀有、獨立的機會中究竟有幾個真的發生了」，你就會伸手去拿它。

公式與每個部件的意義

卜瓦松的機率質量函數給出恰好看到 k 次事件的機率：P(X = k) = e^(-lambda) 乘 lambda^k / k!，其中 k = 0、1、2、3，一路到無限。注意它沒有上限——不像二項分配最多只能有 n 次成功，卜瓦松計數原則上可以是任何非負整數。我們逐塊讀這條公式。lambda^k 這一項隨 k 增大而成長；分母的 k! 最終把它壓回去；而前面的 e^(-lambda) 是歸一化常數，讓所有機率加總恰好等於 1。

P(X = k) = e^(-lambda) * lambda^k / k!      k = 0, 1, 2, 3, ...

Example: lambda = 2 (avg 2 events per interval)
  P(X=0) = e^(-2) * 1 / 1   = 0.1353
  P(X=1) = e^(-2) * 2 / 1   = 0.2707
  P(X=2) = e^(-2) * 4 / 2   = 0.2707
  P(X=3) = e^(-2) * 8 / 6   = 0.1804
  P(X=4) = e^(-2) * 16 / 24 = 0.0902
  ... (these and the rest sum to 1)

卜瓦松機率質量函數，在 lambda = 2 處的值。最可能的計數聚集在 lambda 附近。

一個算過的畫面會有幫助。假設一家小麵包店平均每天賣出 2 個生日蛋糕，而銷售是分散且互相獨立的。那麼每日蛋糕銷量大致服從 Poisson(2)。上面的表說：約 14% 的日子賣出零個、約 27% 恰好賣一個、再 27% 恰好賣兩個，而長尾（一天 5 個以上）雖罕見卻絕非不可能。要算特別忙碌的一天，P(X >= 5)，最好用餘事件規則：1 減 P(0) 減 P(1) 減 P(2) 減 P(3) 減 P(4)，這裡約為 0.053——大約每三週會有一個爆量的好日子。

平均數與變異數都是 lambda

卜瓦松有一個招牌性質，既好記又出奇地有用：它的平均數和變異數是「同一個」數字 lambda。也就是說 E[X] = lambda 而 Var(X) = lambda。從它的二項血統可以看出原因。Binomial(n, p) 的平均數是 n 乘 p、變異數是 n 乘 p 乘 (1 - p)。推到卜瓦松極限：平均數 n 乘 p 恰好是 lambda，而變異數 n 乘 p 乘 (1 - p) 變成 lambda 乘 (1 - p)，但 p 已趨於零，所以 (1 - p) 趨於 1，變異數也變成 lambda。這兩個量在極限處相遇。

小心別把 lambda 讀出它本身沒有的含意。lambda 是一個比率，或者說每個固定窗口的平均計數——每天 2 個蛋糕、每頁 3 個錯字、每分鐘 1.2 通電話。把窗口加倍，平均也加倍：如果蛋糕是每天 Poisson(2)，那麼兩天合起來就是 Poisson(4)，因為 lambda 隨區間大小等比例放大。但 lambda「不是」機率——它可以是任何正數，甚至大於 1，而任何單一計數的機率永遠是 e^(-lambda) lambda^k / k!，絕不是 lambda 本身。

稀有事件的三個條件

稀有事件法則 這個名字正是事情的核心。卜瓦松之所以能立足，恰恰是當事件「個別」很罕見、但機會多到總會有一些發生的時候。要信任這個模型，在你的計數窗口內應該大致滿足三個條件。每一個都是你可以檢查的誠實假設——而其中一個破了，卜瓦松也就跟著破了。

獨立性：一個事件發生不應改變另一個事件的機率。如果某地的 999 電話因為同一場車禍而一起暴增，那單一原因把它們連在一起，獨立性假設就不成立。
比率固定：每單位窗口的平均比率 lambda 不應飄移。每頁的錯字數不應愈接近書末愈密集；若會，單一個 lambda 就不足以描述整體。
不同時發生：在夠小的子窗口裡，最多只有一個事件能發生——事件不會兩兩同時到來。數雨滴行得通；數成團落下的冰雹則不行。

當三個條件都成立時，同一個 lambda 掌管散落在時間或空間中的事件，而任何窗口內的計數都是卜瓦松。這是你在階梯後段會遇到的一個更大觀念的種子——卜瓦松過程，它不過是「每個窗口都是卜瓦松計數，再一致地縫合起來」。眼下，實用的結論就是稀有事件法則本身：許多不太可能但互相獨立的機會，加總起來，行為就像 Poisson(lambda)，而 lambda 等於期望的總數。

用卜瓦松近似二項分配

因為卜瓦松是二項分配的極限，你可以把這套邏輯反過來當成計算的捷徑。如果你有一個貨真價實、n 大 p 小的二項分配，它的機率質量函數很麻煩——那些二項式係數和 p^k (1-p)^(n-k) 因子很快就變得難看。但卜瓦松近似讓你用一個 lambda = n 乘 p 的 Poisson(lambda) 來取代它，改用 e^(-lambda) lambda^k / k! 就好。這個較粗略的答案不僅好算得多，而且在 p 很小時近得驚人。

做個具體驗證。假設一家工廠製造 1000 顆燈泡，每顆獨立地以機率 0.002 是瑕疵品。瑕疵數的精確分配是 Binomial(1000, 0.002)。設 lambda = 1000 乘 0.002 = 2，用 Poisson(2) 近似。零瑕疵的機率，卜瓦松給 e^(-2) = 0.1353；精確的二項值是 0.998^1000 = 0.1351。恰好兩個瑕疵的機率，卜瓦松給 0.2707，精確值 0.2709。兩者幾乎無法區分——而卜瓦松只用一條短公式，省去了笨重的二項式係數。

卜瓦松在分配動物園裡的位置

退一步，把卜瓦松放進它的鄰居之間。二項分配數的是「固定」次數的試驗裡的成功數；卜瓦松數的是固定時間或空間窗口裡的事件數，沒有自然的上限。你在上一篇認識的幾何分配，數的是直到「第一次」成功的試驗數，而且無記憶；卜瓦松則是同一件事在一段區間上的計數，而它事件之間的等待時間結果是指數分配——那位連續、無記憶的表親。這些與其說是不同的動物，不如說是同一個家族從不同角度看到的樣子。

還有一個值得帶著走的優雅事實：卜瓦松會「相加」。如果 X ~ Poisson(lambda_1) 數電子郵件、Y ~ Poisson(lambda_2) 數簡訊，且兩者互相獨立，那麼 X + Y ~ Poisson(lambda_1 + lambda_2) 就數出所有訊息。比率直接相加。這種對加法的穩定性既稀有又美麗——大多數分配相加後會改變形狀——也正是它讓卜瓦松成為「合併多股互相獨立的稀有事件流」的天然語言。決定何時該選這個分配、而非它的表親，正是本階最後一篇選擇正確的離散模型的工作。