幾何分配與等待成功

把二項分配的問題倒過來問

在上一篇指南裡，你把試驗次數固定在某個 n，然後問其中有幾次是成功——這個次數就是二項分配。二項分配和我們現在要遇見的模型，都是由同一種原料打造的：一長串相同且獨立的白努利試驗，每一次都是一個成功機率為 p 的是非實驗。改變的是問題。我們不再固定試驗次數去數成功，而是固定目標——第一次成功——再去數要試幾次才能達到。

這正是一大類真實問題的自然形狀。要打幾通推銷電話才會聽到第一個「好」？要擲幾次骰子才會出現第一個 6？一個不穩定的網頁要重新載入幾次才終於成功？每一個情況裡，試驗都在相同條件下反覆進行，而你在等待第一次成功。幾何分配正是這個等待問題的答案，也是離散模型動物園裡最簡單的一員，它的故事講的是「何時」，而不是「幾個」。

一次一個失敗，建出機率質量函數

你只用獨立試驗的乘法規則，就能從零推導出整個機率質量函數。要讓第一次成功恰好落在第 k 次試驗，必須依序發生兩件事：前 k-1 次試驗全部失敗，而且第 k 次試驗成功。單一次失敗的機率是 1-p，而且這些試驗彼此獨立，所以連續 k-1 次失敗的機率是 (1-p)^(k-1)。再乘上最後終於到來的那次成功的機率 p，你就得到答案了。

P(X = k) = (1 - p)^(k-1) * p      for k = 1, 2, 3, ...

example (p = 1/6, the first 6 on a die):
  P(X = 1) = (5/6)^0 * 1/6 = 0.1667
  P(X = 2) = (5/6)^1 * 1/6 = 0.1389
  P(X = 3) = (5/6)^2 * 1/6 = 0.1157
  ...probabilities shrink by a factor of 5/6 each step

幾何分配的機率質量函數：失敗以乘冪的形式累積，最後一次成功收尾。每一項都是前一項的 5/6——這是一個等比（幾何）數列，名字正是由此而來。

注意這些數字描出的形狀。最可能的單一數值永遠是 k = 1：立刻成功是機率最高的單一結果，即使 p 很小也是如此，因為每一個更後面的數值都得先熬過額外的失敗。從那裡開始，機率以等比的方式遞減，但永遠不會真正達到零。這就是為什麼支撐集涵蓋所有正整數——你總有一點點微小的機會要等很久很久。而這些項相加恰好等於 1，因為無窮和 p + p(1-p) + p(1-p)^2 + …… 是一個等比級數，總和為 p / (1 - (1-p)) = 1，這是模型自洽的一個令人安心的訊號。

你應該預期要等多久？

幾何隨機變數的期望值漂亮地簡單：E[X] = 1/p。如果成功每 p 分之一會發生一次，那麼平均要試 1/p 次才會看到它。擲骰子等第一個 6，你預期要擲 1/(1/6) = 6 次。瞄準一個 p = 0.01 的事件，你預期大約要嘗試 100 次。這完全符合直覺——越罕見的成功讓你等得成比例地更久——而且它為任何等待問題提供了一個快速的合理性檢驗數字。

但光看平均值會藏住一個重要的警告，正是這個階段一再強調的那種：等待時間的離散程度非常巨大。幾何分配的變異數是 Var(X) = (1-p)/p^2，當 p 很小時大約是 1/p^2——所以標準差大約是 1/p，幾乎和平均值一樣大。當 p = 0.01 時你預期 100 次試驗，但接近 100 的標準差意味著等 30 次或 250 次都完全稀鬆平常。幾何分配是右偏且長尾的；只報「平均 100」會嚴重低估實際等待可能擺盪得多麼劇烈。

E[X]   = 1 / p                 (expected number of trials)
Var(X) = (1 - p) / p^2         (spread, large for small p)

p = 1/6 :  E[X] = 6,    SD = sqrt((5/6)/(1/36)) = sqrt(30) ~ 5.48
p = 0.01:  E[X] = 100,  SD ~ 99.5  (almost as big as the mean!)

幾何分配的平均與變異數。標準差幾乎和平均值一樣快地增長，所以等待時間遠比 1/p 這個單一數字所暗示的更難預測。

驚人的「無記憶性」

這就是讓幾何分配出名的性質，而它幾乎讓每個人第一次都絆倒。假設你已經擲了 10 次骰子，一個 6 都沒出現。還要再擲幾次才會出現第一個 6？誠實的答案是：平均仍然是 6 次，就好像你根本沒擲過一樣。過去的失敗沒有為你買到任何東西。形式上這就是無記憶性：對任意正整數 m 和 n，P(X > m + n given X > m) = P(X > n)。幾何分配是*唯一*具有這個性質的離散分配。

為什麼會這樣？因為試驗彼此獨立，骰子根本不知道、也不在乎先前發生過什麼。每一次新的擲骰都是一個全新的白努利試驗，成功機率同樣是 p，所以直到成功為止*額外*的擲骰次數，和你從乾淨狀態開始時擁有完全相同的幾何分配。你甚至可以在代數裡看到它：P(X > n) = (1-p)^n（前 n 次試驗全部失敗的機率），而 (1-p)^(m+n) / (1-p)^m = (1-p)^n，所以 m 完全約掉了。

等待第 r 次成功：負二項分配

幾何分配等待的是*第一次*成功。最自然的推廣是等待*第 r 次*成功，這就得到負二項分配，也就是本階段第 4 篇指南的主角。這個連結很乾淨，值得記在腦海裡：幾何分配恰好就是 r = 1 的負二項分配。而且，就像二項分配的計數是一堆獨立白努利指示變數之和，負二項分配的等待是 r 個獨立幾何等待之和——等到第一次成功，重置，再等下一次，如此重複 r 次。

這個分解不只是個趣味知識，它是一個工具。因為期望值具有線性，等到 r 次成功的期望等待，就是單次成功等待的 r 份：E = r/p。獨立部分的變異數也會相加，得到 Var = r(1-p)/p^2。你完全不必另外去背負二項分配的平均與變異數——它們就是幾何分配的數字乘上 r。把分配拆成較簡單的獨立片段、再把它們的平均與變異數相加，這個習慣會在整條學習階梯上一次又一次地回報你。

確認你觀察的是成功機率同為 p 的重複獨立試驗——也就是白努利引擎。如果 p 在各次試驗間漂移，幾何模型就不適用。
問問你在等的是什麼。第一次成功就是幾何分配（r = 1）；第 r 次成功就是負二項分配。
要算精確機率，用 P(X = k) = (1-p)^(k-1) * p，或把它加總得到像 P(X > n) = (1-p)^n 這樣的尾端機率。
要快速憑感覺檢驗，平均用 E[X] = 1/p，並記住離散程度很大，所以別把平均當成精準的預測。

幾何模型何時合身——又何時會撒謊

只要你真的擁有一串相同且獨立的是非試驗，又在乎等到第一個「是」的時間，幾何分配就值回票價。但它的誠實取決於兩個現實世界最愛打破的假設，而認出這些破壞，就是選擇正確離散模型這項技能的一半。第一，試驗必須獨立——如果一通失敗的推銷電話讓你下一通更熟練（或更氣餒），各次試驗就會互相影響，無記憶性也就失效了。第二，p 必須保持不變——如果成功機率隨時間改變，就沒有單一的幾何模型能描述整串試驗。

一個近乎合身卻又差一點的常見真實例子：從一副牌裡一張一張抽，直到抽出第一張 A。每次抽牌都是成功或失敗，但因為你不把牌放回去，每抽一張之後抽到 A 的機率就會改變——這是取後不放回的抽樣，屬於第 4 篇指南的超幾何分配家族，而非幾何分配。幾何分配是*取後放回*的等待模型。把這個區別保持清晰，正是本階段最後一篇指南要訓練的那種判斷力。

最後，一個呼應整個階段精神的提醒：乾淨的公式並不能保證乾淨的模型。不論你餵給它什麼 p，幾何分配的機率質量函數都會樂意算出一個數字，即使底層的試驗其實並不獨立、也不同分配。公式對數學是誠實的，但無法替你檢查你的假設。在你信任 P(X = k) = (1-p)^(k-1) * p 之前，先問問眼前的試驗是否真的是獨立的白努利重複。如果是，幾何分配就是你所擁有的最優雅、最可靠的工具之一。