把二項分配的問題倒過來問
在上一篇指南裡,你把試驗次數固定在某個 n,然後問其中有幾次是成功——這個次數就是二項分配。二項分配和我們現在要遇見的模型,都是由同一種原料打造的:一長串相同且獨立的白努利試驗,每一次都是一個成功機率為 p 的是非實驗。改變的是問題。我們不再固定試驗次數去數成功,而是固定目標——第一次成功——再去數要試幾次才能達到。
這正是一大類真實問題的自然形狀。要打幾通推銷電話才會聽到第一個「好」?要擲幾次骰子才會出現第一個 6?一個不穩定的網頁要重新載入幾次才終於成功?每一個情況裡,試驗都在相同條件下反覆進行,而你在等待第一次成功。幾何分配正是這個等待問題的答案,也是離散模型動物園裡最簡單的一員,它的故事講的是「何時」,而不是「幾個」。
一次一個失敗,建出機率質量函數
你只用獨立試驗的乘法規則,就能從零推導出整個機率質量函數。要讓第一次成功恰好落在第 k 次試驗,必須依序發生兩件事:前 k-1 次試驗全部失敗,而且第 k 次試驗成功。單一次失敗的機率是 1-p,而且這些試驗彼此獨立,所以連續 k-1 次失敗的機率是 (1-p)^(k-1)。再乘上最後終於到來的那次成功的機率 p,你就得到答案了。
P(X = k) = (1 - p)^(k-1) * p for k = 1, 2, 3, ... example (p = 1/6, the first 6 on a die): P(X = 1) = (5/6)^0 * 1/6 = 0.1667 P(X = 2) = (5/6)^1 * 1/6 = 0.1389 P(X = 3) = (5/6)^2 * 1/6 = 0.1157 ...probabilities shrink by a factor of 5/6 each step
注意這些數字描出的形狀。最可能的單一數值永遠是 k = 1:立刻成功是機率最高的單一結果,即使 p 很小也是如此,因為每一個更後面的數值都得先熬過額外的失敗。從那裡開始,機率以等比的方式遞減,但永遠不會真正達到零。這就是為什麼支撐集涵蓋所有正整數——你總有一點點微小的機會要等很久很久。而這些項相加恰好等於 1,因為無窮和 p + p(1-p) + p(1-p)^2 + …… 是一個等比級數,總和為 p / (1 - (1-p)) = 1,這是模型自洽的一個令人安心的訊號。
你應該預期要等多久?
幾何隨機變數的期望值漂亮地簡單:E[X] = 1/p。如果成功每 p 分之一會發生一次,那麼平均要試 1/p 次才會看到它。擲骰子等第一個 6,你預期要擲 1/(1/6) = 6 次。瞄準一個 p = 0.01 的事件,你預期大約要嘗試 100 次。這完全符合直覺——越罕見的成功讓你等得成比例地更久——而且它為任何等待問題提供了一個快速的合理性檢驗數字。
但光看平均值會藏住一個重要的警告,正是這個階段一再強調的那種:等待時間的離散程度非常巨大。幾何分配的變異數是 Var(X) = (1-p)/p^2,當 p 很小時大約是 1/p^2——所以標準差大約是 1/p,幾乎和平均值一樣大。當 p = 0.01 時你預期 100 次試驗,但接近 100 的標準差意味著等 30 次或 250 次都完全稀鬆平常。幾何分配是右偏且長尾的;只報「平均 100」會嚴重低估實際等待可能擺盪得多麼劇烈。
E[X] = 1 / p (expected number of trials) Var(X) = (1 - p) / p^2 (spread, large for small p) p = 1/6 : E[X] = 6, SD = sqrt((5/6)/(1/36)) = sqrt(30) ~ 5.48 p = 0.01: E[X] = 100, SD ~ 99.5 (almost as big as the mean!)
驚人的「無記憶性」
這就是讓幾何分配出名的性質,而它幾乎讓每個人第一次都絆倒。假設你已經擲了 10 次骰子,一個 6 都沒出現。還要再擲幾次才會出現第一個 6?誠實的答案是:平均仍然是 6 次,就好像你根本沒擲過一樣。過去的失敗沒有為你買到任何東西。形式上這就是無記憶性:對任意正整數 m 和 n,P(X > m + n given X > m) = P(X > n)。幾何分配是*唯一*具有這個性質的離散分配。
為什麼會這樣?因為試驗彼此獨立,骰子根本不知道、也不在乎先前發生過什麼。每一次新的擲骰都是一個全新的白努利試驗,成功機率同樣是 p,所以直到成功為止*額外*的擲骰次數,和你從乾淨狀態開始時擁有完全相同的幾何分配。你甚至可以在代數裡看到它:P(X > n) = (1-p)^n(前 n 次試驗全部失敗的機率),而 (1-p)^(m+n) / (1-p)^m = (1-p)^n,所以 m 完全約掉了。
等待第 r 次成功:負二項分配
幾何分配等待的是*第一次*成功。最自然的推廣是等待*第 r 次*成功,這就得到負二項分配,也就是本階段第 4 篇指南的主角。這個連結很乾淨,值得記在腦海裡:幾何分配恰好就是 r = 1 的負二項分配。而且,就像二項分配的計數是一堆獨立白努利指示變數之和,負二項分配的等待是 r 個獨立幾何等待之和——等到第一次成功,重置,再等下一次,如此重複 r 次。
這個分解不只是個趣味知識,它是一個工具。因為期望值具有線性,等到 r 次成功的期望等待,就是單次成功等待的 r 份:E = r/p。獨立部分的變異數也會相加,得到 Var = r(1-p)/p^2。你完全不必另外去背負二項分配的平均與變異數——它們就是幾何分配的數字乘上 r。把分配拆成較簡單的獨立片段、再把它們的平均與變異數相加,這個習慣會在整條學習階梯上一次又一次地回報你。
- 確認你觀察的是成功機率同為 p 的重複獨立試驗——也就是白努利引擎。如果 p 在各次試驗間漂移,幾何模型就不適用。
- 問問你在等的是什麼。第一次成功就是幾何分配(r = 1);第 r 次成功就是負二項分配。
- 要算精確機率,用 P(X = k) = (1-p)^(k-1) * p,或把它加總得到像 P(X > n) = (1-p)^n 這樣的尾端機率。
- 要快速憑感覺檢驗,平均用 E[X] = 1/p,並記住離散程度很大,所以別把平均當成精準的預測。
幾何模型何時合身——又何時會撒謊
只要你真的擁有一串相同且獨立的是非試驗,又在乎等到第一個「是」的時間,幾何分配就值回票價。但它的誠實取決於兩個現實世界最愛打破的假設,而認出這些破壞,就是選擇正確離散模型這項技能的一半。第一,試驗必須獨立——如果一通失敗的推銷電話讓你下一通更熟練(或更氣餒),各次試驗就會互相影響,無記憶性也就失效了。第二,p 必須保持不變——如果成功機率隨時間改變,就沒有單一的幾何模型能描述整串試驗。
一個近乎合身卻又差一點的常見真實例子:從一副牌裡一張一張抽,直到抽出第一張 A。每次抽牌都是成功或失敗,但因為你不把牌放回去,每抽一張之後抽到 A 的機率就會改變——這是取後不放回的抽樣,屬於第 4 篇指南的超幾何分配家族,而非幾何分配。幾何分配是*取後放回*的等待模型。把這個區別保持清晰,正是本階段最後一篇指南要訓練的那種判斷力。
最後,一個呼應整個階段精神的提醒:乾淨的公式並不能保證乾淨的模型。不論你餵給它什麼 p,幾何分配的機率質量函數都會樂意算出一個數字,即使底層的試驗其實並不獨立、也不同分配。公式對數學是誠實的,但無法替你檢查你的假設。在你信任 P(X = k) = (1-p)^(k-1) * p 之前,先問問眼前的試驗是否真的是獨立的白努利重複。如果是,幾何分配就是你所擁有的最優雅、最可靠的工具之一。