機率公理 — JOVANA Education

從事件到數字

你已經認識了所有的角色。有樣本空間，也就是所有可能發生之事的集合；也有事件，它們是樣本空間的子集。你也懂得用事件的代數來組合事件——聯集、交集、補集。你還沒有的，是一種說出某事件有多「可能」的方法。這正是缺失的一塊：一條把事件轉換成單一數字（機率）的規則。

把 P 想成一個量測儀器。將它對準事件 A，它就讀出 P(A)，一個落在 0 到 1 刻度上的數字。零代表「實質上不可能」，一代表「實質上必然」，而介於兩者之間的，都是某種程度的合理性。本篇的核心問題是：這樣的儀器必須遵守哪些規則，才配得上「機率」這個名字？令人驚訝的是，只要三條簡短的要求就足夠了。

柯爾莫哥洛夫的三條公理

1933 年，安德雷·柯爾莫哥洛夫寫下了整個現代學科所依據的規則。它們被稱為柯爾莫哥洛夫公理，共有三條。第一，非負性：每個事件得到的機率至少為零，也就是 P(A) >= 0。你永遠不會讀到負的可能性。第二，正規化：整個樣本空間的機率為一，P(S) = 1。S 裡一定會發生某件事，所以總權重恰好是一——不多也不少。

第三條公理是真正有力的一條：可加性。如果兩個事件 A 和 B 是互斥的——它們不能同時發生，所以 A 與 B 沒有共同的結果——那麼 P(A 或 B) = P(A) + P(B)。互不相交的機會就是直接相加。擲一顆骰子：「出 2 或出 5」的機率是 1/6 + 1/6 = 2/6，因為一次擲出不可能同時是兩者。這就是把分散的可能性彙整成總和的引擎。

Axiom 1 (non-negativity):   P(A) >= 0  for every event A
Axiom 2 (normalization):    P(S) = 1
Axiom 3 (additivity):       A, B disjoint  =>  P(A or B) = P(A) + P(B)

(full form, countable additivity:)
  A_1, A_2, ... pairwise disjoint  =>  P(A_1 or A_2 or ...) = P(A_1) + P(A_2) + ...

三條公理；當模型為無限時，第三條會加強為可數的加總。

當樣本空間是無限的——比方說一小時內的來電數，可能是 0、1、2，一直延續下去——可加性會被加強為可數可加性：它不只要對兩個互斥事件成立，而要對任何一串可數的互斥事件都成立。正是這個更強的版本，讓機率能乾淨俐落地處理極限與無窮和，並且在你日後會遇到的幾乎每個連續分配背後默默運作。樣本空間、事件，以及遵守這些規則的 P 所組成的三元組，正是整個學科賴以存在的機率空間。

其餘一切都是定理

從這麼少的規則出發，妙處在於：其他每一條關於機率的熟悉事實，現在都是被「推導」出來的，而非預設的。以補集規則為例：事件 A 與它的補集（A 不發生）互斥，而且合起來填滿整個 S。所以 P(A) + P(非 A) = P(S) = 1，重新整理就得到 P(非 A) = 1 - P(A)。不下雨的機率，就是一減去下雨的機率——而這是一條定理，是從公理 2 與公理 3 擠出來的。

不可能事件的機率為零：空集合與 S 互斥，且 S 或（空無）= S，因此 P(空集合) = 0。（但要小心——反過來並不保證成立；下文會回到這點。）
單調性：若 A 包含於 B，則 P(A) <= P(B)。較大的事件不可能比嵌在其中的較小事件更不可能——參見單調性。
每個機率至多為一：由於 A 包含於 S，單調性給出 P(A) <= P(S) = 1。所以恆有 0 <= P(A) <= 1——那條著名的範圍本身是個推論，而非公理。
一般加法規則：對於可能重疊的事件，P(A 或 B) = P(A) + P(B) - P(A 且 B)。你扣掉共同的部分以免重複計算——這是排容原理最小的情形。

留意一般加法規則如何把第三條公理當成特例包含進來：當 A 與 B 互斥時，P(A 且 B) = 0，修正項消失，只剩下單純的 P(A) + P(B)。公理是種子，這類結果是樹。一旦你信任這三條規則，需要時就能自己證明，而不必死記一長串清單。

誠實地解讀公理

有幾個微妙之處值得早早弄清楚，否則會困擾人好幾年。第一：「不可能」與「機率為零」不是同一回事。每個不可能事件的機率都是零，但在無限模型裡反過來並不成立——從區間 [0, 1] 均勻地挑一個數，恰好落在 0.5 的機率是零，然而 0.5 是個完全可能的結果。機率為零意味著「在總量中可忽略」，而非「被禁止」。對應的說法在另一端也成立：機率為一意味著「幾乎必然」，而非嚴格保證。

第二：可加性「只」適用於互斥事件。一個誘人的錯誤，是對可以同時發生的事件寫下 P(A 或 B) = P(A) + P(B)。問抽到的牌是紅心或人頭牌的機率，你不能直接把 13/52 + 12/52 加起來——紅心的 K、Q、J 被算了兩次。你必須扣掉重疊的部分 P(A 且 B) = 3/52，得到 22/52。每當你想用加號時，務必確認那些部分真的不可能同時發生。

公理留下的開放問題

值得說清楚的是，這三條規則刻意「不」處理哪些事。它們對數字從何而來保持沉默。下一篇我們會看到古典定義——當各結果等可能時，P(A) 就是有利結果數除以總結果數——但那只是一個與公理相容的「模型」，並不是第四條公理。等可能是你選擇做出的假設，對公平的骰子為真，對圖釘是否釘尖朝上落地則為假。

公理對「意義」同樣保持沉默。P(A) 是 A 在多次重複下的長期頻率，還是某種被量化的信念程度？無論哪一種，數學都運作得一模一樣，這也正是為什麼同一套架構能同時服務賭徒、物理學家與預測者。這個詮釋的選擇，是本層最後一篇的主題。現在，先抱著這個令人滿足的想法：所有的機率——你將遇到的每個分配、每條定理——都建立在一個你能用三行寫完的基礎之上。