資訊改變了問題
在前面的階段裡,你把機率當成固定不變的:擲一顆公正的骰子,P(出現 6) = 1/6,就這樣。但真實生活會餵給你部分資訊,而這些資訊本該挪動你的數字。假設一位朋友在屏風後擲骰子,只告訴你「擲出的是偶數」。原本誠實的 1/6 如今已經過時了。在已知結果為偶數的前提下,剩下的可能只有 2、4、6,而 6 是三個同樣可能的倖存者之一,所以機率是 1/3。骰子本身沒有任何改變——改變的是你所知道的事。
這個量——在你已知另一個事件發生後,某一個事件的機率——就是前者在後者發生下的條件機率,寫成 P(A given B)。把它念出來就是「在 B 發生的前提下,A 的機率」。它是整個機率論中最有用的一個概念,因為幾乎所有有趣的問題其實都是條件式的:不是「這位病人生病了嗎?」而是「在檢驗呈陽性的前提下,這位病人生病了嗎?」;不是「會下雨嗎?」而是「在天空這麼灰的前提下,會下雨嗎?」
定義:縮小樣本空間
這是每一個條件機率背後的圖像,值得永遠記在腦海裡。你原本的樣本空間是所有結果的全集,每個結果都帶著某個機率。當你得知 B 發生了,你做了一件激烈的事:把 B 以外的每一個結果整個丟掉。世界就這麼字面意義地縮小成了 B。這就是條件化縮小樣本空間的概念——B 成了你新的、更小的宇宙。
但縮小宇宙會擾亂帳本。倖存下來的結果(也就是 B 裡的那些)彼此之間只承載了 P(B) 那麼多的機率,而不是完整的 1。為了讓它們重新成為一個有效的機率——在新宇宙上加總為 1——你要除以 P(B) 來重新標準化。A 中倖存下來的那一塊,是「A 而且 B」的重疊部分,所以在新世界裡 A 的機率,就是 B 之中同時也屬於 A 的那一份。這就給出了定義。
P(A given B) = P(A and B) / P(B), defined only when P(B) > 0
whole sample space condition on B (shrink to B)
+---------------------+ +---------------------+
| A | | | B |
| +------+ | | +----+----+ |
| | A&B | B | ---> | |A&B | (rest |
| +------+----+ | | +----+ of B) |
| | | | | | B |
+----------+----+-----+ +---------------------+
P(A given B) = fraction of B that also lies in A請注意這條公式裡寫著一行小卻關鍵的細則:它要求 P(B) > 0。你不能對一個機率為零的事件做條件化,因為除以零毫無意義——而且憑直覺,你也無法重新標準化一個沒有任何機率質量可分配的宇宙。(對機率為零的事件做條件化,可以用更重的工具來賦予意義,但那遠在階梯的上方;在這裡,永遠堅持 P(B) > 0。)
一個實際的計數讓它具體起來
讓我們用一個小巧、可以完全數清的例子把它釘牢。一副標準牌有 52 張,其中 4 張是 K。抽一張牌。P(K) = 4/52 = 1/13。現在一位好心的旁觀者告訴你這張是人頭牌(J、Q 或 K)。人頭牌有 12 張,所以 B =「人頭牌」的 P(B) = 12/52。既是 K 又是人頭牌的——嗯,4 張 K 全都是人頭牌,所以「A 而且 B」就只是那 4 張 K,P(A and B) = 4/52。
代入:P(K given 人頭牌) = P(A and B) / P(B) = (4/52) / (12/52) = 4/12 = 1/3。52 約掉了,留下乾淨的計數:在 12 張同樣可能的人頭牌中,有 4 張是 K。「人頭牌」這個資訊把抽到 K 的機率從 1/13 一路抬升到 1/3,因為它丟掉了那 40 張一直把機率往下拖的非人頭牌。公式和「縮小樣本空間」的圖像說的是同一件事——在同樣可能的情況下,P(A given B) 就是(A 而且 B 的結果數)/(B 的結果數)。
反過來讀定義:乘法法則
定義 P(A given B) = P(A and B) / P(B) 最出名的是正著讀,但它日常的主力形式來自把兩邊同乘 P(B)。這個重排給出 P(A and B) = P(B) * P(A given B),也就是乘法法則。用白話說:A 與 B 都發生的機會,等於 B 發生的機會,乘以在 B 已經發生的前提下 A 發生的機會。你一階段一階段地建構一個聯合事件,每一階段都以它之前的階段為條件。
這種分階段的觀點自然地串連到更多事件,這也是為什麼它又叫連鎖法則:P(A and B and C) = P(A) * P(B given A) * P(C given A and B)。拿牌來試試。不放回地抽 2 張牌;P(兩張都是 A) 是多少?第一階段:P(第一張是 A) = 4/52。第二階段,以第一張 A 已經抽走為條件:P(第二張是 A given 第一張是 A) = 3/51。相乘:(4/52) * (3/51) = 12/2652 = 1/221。那個條件機率 3/51 就是乘法法則悄悄在為縮小的牌堆記帳——正是你在上一階段遇過的不放回計數,如今換上了機率的外衣。
當資訊什麼都沒改變:獨立性
條件化通常會挪動機率,但有時候不會——而這個特例有個名字。當得知其中一個發生並不會動到另一個的機率時,這兩個事件就是獨立的:P(A given B) = P(A)。把這個代入乘法法則,雜亂的部分就消失了,留下那個著名的乘積形式:P(A and B) = P(A) * P(B)。這就是獨立事件的正式定義,而且它是對稱的——如果 B 對 A 什麼都沒說,那麼 A 對 B 也什麼都沒說。
擲其中一顆骰子和擲另一顆骰子是獨立的:知道第一顆出現了 6,對第二顆什麼都沒透露,所以 P(第二顆是 6 given 第一顆是 6) 仍然是 1/6。但要當心它招來的一個迷思——賭徒謬誤。一顆公正的骰子連續擲出五個 6 之後,第六次擲出 6 的機率仍然恰好是 1/6。骰子沒有記憶;獨立的試驗不會在短期內「自我平衡」來償還一段連勝。真正讓長期頻率安頓在 1/6 附近的那條定律,談的是許多次擲骰的平均,而不是某一次即將到來的擲骰「該輪到」了。
為什麼這個概念是整個階段的錨
接下來四篇指南裡的一切,都從這一條公式 P(A given B) = P(A and B) / P(B) 生長出來。當你把一個複雜的事件依照它可能發生的所有途徑拆開,再把各個條件部分加起來,你就得到全機率定律(第 2 篇)。當你把一個條件機率從 P(B given A) 翻轉成你真正想要的答案 P(A given B),你就得到貝氏定理(第 3 篇)。當條件化什麼都沒改變,你就得到獨立性(第 4 篇)。而當人的直覺與算術打架時,你就得到那些著名的謎題與謬誤(第 5 篇)。
- 把兩個事件清楚命名:A 是你想求機率的對象;B 是你被告知已發生的事。
- 確認 P(B) > 0——你只能對一件真的可能發生的事做條件化。
- 找出重疊部分 P(A and B) 以及 P(B);在同樣可能的情境下,直接數結果即可。
- 相除:P(A given B) = P(A and B) / P(B)。檢查一下答案是否尊重縮小後的宇宙 B。
- 問問答案是否等於 P(A)。如果是,A 與 B 獨立;如果不是,B 就帶有關於 A 的真實資訊。
往上爬的時候,緊抓住這個核心圖像:條件機率就是你刪去不可能、再把其餘部分重新標準化之後所剩下的東西。上面那些花俏的定理,全都只是對這一個動作做仔細的算術。把「縮小樣本空間,然後重新標準化」練到精熟,這個階段剩下的部分就站在堅實的地基上了。