JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

機率公理

三條簡短的規則,把事件的代數變成真正的數字。我們認識柯爾莫哥洛夫公理,看清楚由它們推導出的結論,並學會什麼樣的機率指派才算合法。

從事件到數字

你已經認識了所有的角色。有樣本空間,也就是所有可能發生之事的集合;也有事件,它們是樣本空間的子集。你也懂得用事件的代數來組合事件——聯集、交集、補集。你還沒有的,是一種說出某事件有多「可能」的方法。這正是缺失的一塊:一條把事件轉換成單一數字(機率)的規則。

把 P 想成一個量測儀器。將它對準事件 A,它就讀出 P(A),一個落在 0 到 1 刻度上的數字。零代表「實質上不可能」,一代表「實質上必然」,而介於兩者之間的,都是某種程度的合理性。本篇的核心問題是:這樣的儀器必須遵守哪些規則,才配得上「機率」這個名字?令人驚訝的是,只要三條簡短的要求就足夠了。

柯爾莫哥洛夫的三條公理

1933 年,安德雷·柯爾莫哥洛夫寫下了整個現代學科所依據的規則。它們被稱為柯爾莫哥洛夫公理,共有三條。第一,非負性:每個事件得到的機率至少為零,也就是 P(A) >= 0。你永遠不會讀到負的可能性。第二,正規化:整個樣本空間的機率為一,P(S) = 1。S 裡一定會發生某件事,所以總權重恰好是一——不多也不少。

第三條公理是真正有力的一條:可加性。如果兩個事件 A 和 B 是互斥的——它們不能同時發生,所以 A 與 B 沒有共同的結果——那麼 P(A 或 B) = P(A) + P(B)。互不相交的機會就是直接相加。擲一顆骰子:「出 2 或出 5」的機率是 1/6 + 1/6 = 2/6,因為一次擲出不可能同時是兩者。這就是把分散的可能性彙整成總和的引擎。

Axiom 1 (non-negativity):   P(A) >= 0  for every event A
Axiom 2 (normalization):    P(S) = 1
Axiom 3 (additivity):       A, B disjoint  =>  P(A or B) = P(A) + P(B)

(full form, countable additivity:)
  A_1, A_2, ... pairwise disjoint  =>  P(A_1 or A_2 or ...) = P(A_1) + P(A_2) + ...
三條公理;當模型為無限時,第三條會加強為可數的加總。

當樣本空間是無限的——比方說一小時內的來電數,可能是 0、1、2,一直延續下去——可加性會被加強為可數可加性:它不只要對兩個互斥事件成立,而要對任何一串可數的互斥事件都成立。正是這個更強的版本,讓機率能乾淨俐落地處理極限與無窮和,並且在你日後會遇到的幾乎每個連續分配背後默默運作。樣本空間、事件,以及遵守這些規則的 P 所組成的三元組,正是整個學科賴以存在的機率空間

其餘一切都是定理

從這麼少的規則出發,妙處在於:其他每一條關於機率的熟悉事實,現在都是被「推導」出來的,而非預設的。以補集規則為例:事件 A 與它的補集(A 不發生)互斥,而且合起來填滿整個 S。所以 P(A) + P(非 A) = P(S) = 1,重新整理就得到 P(非 A) = 1 - P(A)。不下雨的機率,就是一減去下雨的機率——而這是一條定理,是從公理 2 與公理 3 擠出來的。

  1. 不可能事件的機率為零:空集合與 S 互斥,且 S 或(空無)= S,因此 P(空集合) = 0。(但要小心——反過來並不保證成立;下文會回到這點。)
  2. 單調性:若 A 包含於 B,則 P(A) <= P(B)。較大的事件不可能比嵌在其中的較小事件更不可能——參見單調性
  3. 每個機率至多為一:由於 A 包含於 S,單調性給出 P(A) <= P(S) = 1。所以恆有 0 <= P(A) <= 1——那條著名的範圍本身是個推論,而非公理。
  4. 一般加法規則:對於可能重疊的事件,P(A 或 B) = P(A) + P(B) - P(A 且 B)。你扣掉共同的部分以免重複計算——這是排容原理最小的情形。

留意一般加法規則如何把第三條公理當成特例包含進來:當 A 與 B 互斥時,P(A 且 B) = 0,修正項消失,只剩下單純的 P(A) + P(B)。公理是種子,這類結果是樹。一旦你信任這三條規則,需要時就能自己證明,而不必死記一長串清單。

誠實地解讀公理

有幾個微妙之處值得早早弄清楚,否則會困擾人好幾年。第一:「不可能」與「機率為零」不是同一回事。每個不可能事件的機率都是零,但在無限模型裡反過來並不成立——從區間 [0, 1] 均勻地挑一個數,恰好落在 0.5 的機率是零,然而 0.5 是個完全可能的結果。機率為零意味著「在總量中可忽略」,而非「被禁止」。對應的說法在另一端也成立:機率為一意味著「幾乎必然」,而非嚴格保證。

第二:可加性「只」適用於互斥事件。一個誘人的錯誤,是對可以同時發生的事件寫下 P(A 或 B) = P(A) + P(B)。問抽到的牌是紅心或人頭牌的機率,你不能直接把 13/52 + 12/52 加起來——紅心的 K、Q、J 被算了兩次。你必須扣掉重疊的部分 P(A 且 B) = 3/52,得到 22/52。每當你想用加號時,務必確認那些部分真的不可能同時發生。

公理留下的開放問題

值得說清楚的是,這三條規則刻意「不」處理哪些事。它們對數字從何而來保持沉默。下一篇我們會看到古典定義——當各結果等可能時,P(A) 就是有利結果數除以總結果數——但那只是一個與公理相容的「模型」,並不是第四條公理。等可能是你選擇做出的假設,對公平的骰子為真,對圖釘是否釘尖朝上落地則為假。

公理對「意義」同樣保持沉默。P(A) 是 A 在多次重複下的長期頻率,還是某種被量化的信念程度?無論哪一種,數學都運作得一模一樣,這也正是為什麼同一套架構能同時服務賭徒、物理學家與預測者。這個詮釋的選擇,是本層最後一篇的主題。現在,先抱著這個令人滿足的想法:所有的機率——你將遇到的每個分配、每條定理——都建立在一個你能用三行寫完的基礎之上。