條件機率：依資訊更新

資訊改變了問題

在前面的階段裡，你把機率當成固定不變的：擲一顆公正的骰子，P(出現 6) = 1/6，就這樣。但真實生活會餵給你部分資訊，而這些資訊本該挪動你的數字。假設一位朋友在屏風後擲骰子，只告訴你「擲出的是偶數」。原本誠實的 1/6 如今已經過時了。在已知結果為偶數的前提下，剩下的可能只有 2、4、6，而 6 是三個同樣可能的倖存者之一，所以機率是 1/3。骰子本身沒有任何改變——改變的是你所知道的事。

這個量——在你已知另一個事件發生後，某一個事件的機率——就是前者在後者發生下的條件機率，寫成 P(A given B)。把它念出來就是「在 B 發生的前提下，A 的機率」。它是整個機率論中最有用的一個概念，因為幾乎所有有趣的問題其實都是條件式的：不是「這位病人生病了嗎？」而是「在檢驗呈陽性的前提下，這位病人生病了嗎？」；不是「會下雨嗎？」而是「在天空這麼灰的前提下，會下雨嗎？」

定義：縮小樣本空間

這是每一個條件機率背後的圖像，值得永遠記在腦海裡。你原本的樣本空間是所有結果的全集，每個結果都帶著某個機率。當你得知 B 發生了，你做了一件激烈的事：把 B 以外的每一個結果整個丟掉。世界就這麼字面意義地縮小成了 B。這就是條件化縮小樣本空間的概念——B 成了你新的、更小的宇宙。

但縮小宇宙會擾亂帳本。倖存下來的結果（也就是 B 裡的那些）彼此之間只承載了 P(B) 那麼多的機率，而不是完整的 1。為了讓它們重新成為一個有效的機率——在新宇宙上加總為 1——你要除以 P(B) 來重新標準化。A 中倖存下來的那一塊，是「A 而且 B」的重疊部分，所以在新世界裡 A 的機率，就是 B 之中同時也屬於 A 的那一份。這就給出了定義。

P(A given B) = P(A and B) / P(B),    defined only when P(B) > 0

     whole sample space            condition on B (shrink to B)
   +---------------------+        +---------------------+
   |    A                |        |          | B        |
   |   +------+          |        |     +----+----+     |
   |   |  A&B |   B      |  --->  |     |A&B | (rest    |
   |   +------+----+     |        |     +----+  of B)   |
   |          |    |     |        |          | B        |
   +----------+----+-----+        +---------------------+

   P(A given B) = fraction of B that also lies in A

對 B 做條件化會刪去 B 以外的一切，再除以 P(B) 重新標準化，使倖存者加總為 1。

請注意這條公式裡寫著一行小卻關鍵的細則：它要求 P(B) > 0。你不能對一個機率為零的事件做條件化，因為除以零毫無意義——而且憑直覺，你也無法重新標準化一個沒有任何機率質量可分配的宇宙。（對機率為零的事件做條件化，可以用更重的工具來賦予意義，但那遠在階梯的上方；在這裡，永遠堅持 P(B) > 0。）

一個實際的計數讓它具體起來

讓我們用一個小巧、可以完全數清的例子把它釘牢。一副標準牌有 52 張，其中 4 張是 K。抽一張牌。P(K) = 4/52 = 1/13。現在一位好心的旁觀者告訴你這張是人頭牌（J、Q 或 K）。人頭牌有 12 張，所以 B =「人頭牌」的 P(B) = 12/52。既是 K 又是人頭牌的——嗯，4 張 K 全都是人頭牌，所以「A 而且 B」就只是那 4 張 K，P(A and B) = 4/52。

代入：P(K given 人頭牌) = P(A and B) / P(B) = (4/52) / (12/52) = 4/12 = 1/3。52 約掉了，留下乾淨的計數：在 12 張同樣可能的人頭牌中，有 4 張是 K。「人頭牌」這個資訊把抽到 K 的機率從 1/13 一路抬升到 1/3，因為它丟掉了那 40 張一直把機率往下拖的非人頭牌。公式和「縮小樣本空間」的圖像說的是同一件事——在同樣可能的情況下，P(A given B) 就是（A 而且 B 的結果數）/（B 的結果數）。

反過來讀定義：乘法法則

定義 P(A given B) = P(A and B) / P(B) 最出名的是正著讀，但它日常的主力形式來自把兩邊同乘 P(B)。這個重排給出 P(A and B) = P(B) * P(A given B)，也就是乘法法則。用白話說：A 與 B 都發生的機會，等於 B 發生的機會，乘以在 B 已經發生的前提下 A 發生的機會。你一階段一階段地建構一個聯合事件，每一階段都以它之前的階段為條件。

這種分階段的觀點自然地串連到更多事件，這也是為什麼它又叫連鎖法則：P(A and B and C) = P(A) * P(B given A) * P(C given A and B)。拿牌來試試。不放回地抽 2 張牌；P(兩張都是 A) 是多少？第一階段：P(第一張是 A) = 4/52。第二階段，以第一張 A 已經抽走為條件：P(第二張是 A given 第一張是 A) = 3/51。相乘：(4/52) * (3/51) = 12/2652 = 1/221。那個條件機率 3/51 就是乘法法則悄悄在為縮小的牌堆記帳——正是你在上一階段遇過的不放回計數，如今換上了機率的外衣。

當資訊什麼都沒改變：獨立性

條件化通常會挪動機率，但有時候不會——而這個特例有個名字。當得知其中一個發生並不會動到另一個的機率時，這兩個事件就是獨立的：P(A given B) = P(A)。把這個代入乘法法則，雜亂的部分就消失了，留下那個著名的乘積形式：P(A and B) = P(A) * P(B)。這就是獨立事件的正式定義，而且它是對稱的——如果 B 對 A 什麼都沒說，那麼 A 對 B 也什麼都沒說。

擲其中一顆骰子和擲另一顆骰子是獨立的：知道第一顆出現了 6，對第二顆什麼都沒透露，所以 P(第二顆是 6 given 第一顆是 6) 仍然是 1/6。但要當心它招來的一個迷思——賭徒謬誤。一顆公正的骰子連續擲出五個 6 之後，第六次擲出 6 的機率仍然恰好是 1/6。骰子沒有記憶；獨立的試驗不會在短期內「自我平衡」來償還一段連勝。真正讓長期頻率安頓在 1/6 附近的那條定律，談的是許多次擲骰的平均，而不是某一次即將到來的擲骰「該輪到」了。

為什麼這個概念是整個階段的錨

接下來四篇指南裡的一切，都從這一條公式 P(A given B) = P(A and B) / P(B) 生長出來。當你把一個複雜的事件依照它可能發生的所有途徑拆開，再把各個條件部分加起來，你就得到全機率定律（第 2 篇）。當你把一個條件機率從 P(B given A) 翻轉成你真正想要的答案 P(A given B)，你就得到貝氏定理（第 3 篇）。當條件化什麼都沒改變，你就得到獨立性（第 4 篇）。而當人的直覺與算術打架時，你就得到那些著名的謎題與謬誤（第 5 篇）。

把兩個事件清楚命名：A 是你想求機率的對象；B 是你被告知已發生的事。
確認 P(B) > 0——你只能對一件真的可能發生的事做條件化。
找出重疊部分 P(A and B) 以及 P(B)；在同樣可能的情境下，直接數結果即可。
相除：P(A given B) = P(A and B) / P(B)。檢查一下答案是否尊重縮小後的宇宙 B。
問問答案是否等於 P(A)。如果是，A 與 B 獨立；如果不是，B 就帶有關於 A 的真實資訊。

往上爬的時候，緊抓住這個核心圖像：條件機率就是你刪去不可能、再把其餘部分重新標準化之後所剩下的東西。上面那些花俏的定理，全都只是對這一個動作做仔細的算術。把「縮小樣本空間，然後重新標準化」練到精熟，這個階段剩下的部分就站在堅實的地基上了。