機率到底是什麼意思？

一個算得出來、卻指不出來的數字

到現在你已經能做真正的事了。你能擺出樣本空間、把它切成一個個事件、檢查公理，而當各結果等可能時，你能用「有利結果數除以總數」讀出一個數字。一顆公正的骰子擲出六點的機率是 P(六) = 1/6 ≈ 0.167。這一點已經敲定。但有一個問題，前面四篇悄悄繞過去了：當你寫下 P(六) = 1/6 時，*你在主張什麼是真的？* 骰子此刻就靜靜躺在桌上，沒有在滾動。那個 1/6 在哪裡？

這不是腦筋急轉彎，也不是無聊的哲學。同一個符號——P(明天下雨) = 0.7、P(這枚硬幣正面) = 0.5、P(被告有罪) = 0.9——在紙上看起來一模一樣，可它們似乎在講截然不同的東西：一次性的未來、可重複的試驗、以及一件早已非真即假的事實。機率不是你看得見、秤得出的東西。所以在我們把整個學科建立在它之上以前，誠實地問一句它到底是什麼*意思*，是值得的。結果是：有三種站得住腳的答案，而成熟的看法是——它們是看同一個想法的三面鏡子，而不是三個拚個你死我活的對手。

第一種答案：數對稱的情形

最古老的答案，就是你已經用過的古典答案。如果一個設置可拆成一些對稱的結果——按試驗的設計本身就可以互換——那麼每個結果都該分到同樣的機率，而 P(A) 不過就是讓 A 發生的那些結果所佔的比例。一顆公正的骰子有六個面，沒有任何理由偏愛哪一面，所以每面各得 1/6。當它適用時，這很美：你完全不需要做實驗，只要小心地數一數，這也正是古典定義能驅動所有骰子、紙牌與彩券計算的原因。

但要誠實面對它的破綻：這個答案倚靠的一個詞，偷偷把機率又夾帶了回來。「等可能」本身*就是*一句機率陳述。所以古典定義無法從零開始定義機率——它需要有人免費把對稱性遞到它手上。而世界上大多數事情並不對稱。「明天下雨」沒有一組等可能的「面」，「新藥是否有效」也沒有可互換的情形。古典這面鏡子鋒利卻狹窄：它能極清晰地看進那些刻意設計成對稱的博弈遊戲，可一旦對稱性用盡，它立刻就瞎了。我們需要在毫無對稱可言時仍管用的答案。

第二種答案：長期的頻率

頻率派的答案說：P(A) 是——若你能在同樣條件下永遠重複這個試驗——A 會發生的次數比例。P(正面) = 0.5 的意思是：在極大量的拋擲中，大約一半會是正面——而那個「大約」會隨著拋擲次數變多而越收越緊。這是最有「實感」的意義，因為你幾乎看得見它。拋硬幣 10 次，你可能拿到 7 個正面（70%）；拋 10,000 次，比例會落在離 50% 近得多的地方。機率，就是這個運行中的比例正在趨近的那個值。

而這不是一廂情願——它是一條定理。大數法則證明：若你把獨立重複的結果取平均，這個平均會收斂到真正的機率。正是這一點，讓頻率派的圖像不只是空想：長期頻率確實會逼近一個固定的數。所以當對稱性失效時，你仍能用笨辦法釘住 P(A)——靠重複與觀察。保險公司、賭場、品管實驗室，活的正是這個世界。

不過頻率這面鏡子也有它自己誠實的極限。它只對你能「在同樣條件下」重複的事情才有意義。*這一場特定*選舉的長期頻率是多少？某一顆行星上存在生命的長期頻率又是多少？這些事各只有一個；你無法重跑。逼到底，頻率派要嘛拒絕對一次性事件指派機率，要嘛訴諸一串永遠不會真正發生的、想像中的無窮序列。那道縫隙，正是第三種答案登場之處。

第三種答案：一種被度量的相信程度

主觀派、也就是貝氏派的答案說：P(A) 是*你*相信 A 為真的程度，落在 0（確定為假）到 1（確定為真）的尺度上。這是唯一能從容處理 P(去年這座城市在這個確切日期下過雨) 的答案——那是一件早已固定、只是你不知道的事實。事件本身不是隨機的；隨機的是*你的資訊*不完整，而機率度量的正是這份不完整。當氣象員說「70% 機率會下雨」，這就是它誠實的讀法：在所有模型已知的資訊之下，0.7 的信心是有依據的。

「相信」聽起來危險地鬆散，所以這裡有一道把它救回來的紀律。你的相信只有在服從同一套柯爾莫哥洛夫公理時，才有資格算作機率。其理據是「荷蘭賭局」（Dutch book）：若你開出的賠率違反規則——譬如你同時接受了隱含 P(A) = 0.6 與 P(非 A) = 0.6 的賭注——一個聰明的對手就能設計一組賭注，每一注你都覺得公平，但合起來卻保證你無論結果如何都會輸錢。一個榨不出這種錢的「融貫」相信，*必然*滿足公理。這就是為何一個相信程度是貨真價實的機率，而不只是一種心情。

當然，這是有代價的。兩個受過同樣訓練、但背景資訊不同的講理之人，可能對同一個主張指派不同的機率，而誰都不是單純「錯了」——他們持有不同的先驗。在頻率派眼中這像是在承認任意性；在貝氏派眼中這只是誠實地面對「機率相對於你所知道的東西」這件事。挽救之處——下一階梯會探討——在於證據會把分歧的先驗拉攏起來：把同樣的資料透過貝氏定理餵給兩人，他們的結論通常會收斂。

三者為何一致，以及如何讀一個數字

這裡有一個調和的洞見，把整個詮釋問題綁在一起。三種答案服從*同一套*公理，所以一旦數字定下來，這整門課裡的每一條定理——你日後會證的每一條公式——無論你偏愛哪種詮釋，都一模一樣地成立。數學不在乎。詮釋之間的分歧，只在於如何*指派*起始的數字、以及如何*描述*它們的意思，而不在於如何*運算*它們。這就是為何這場爭論再激烈，也幾乎從不改變一道計算。

而這三面鏡子在實務上往往指向同一處。當對稱性存在時，古典的數數、長期頻率、以及一個資訊充足的相信，對一顆公正骰子都落在 1/6。當你手上有資料時，頻率與一個依該資料更新過的融貫相信會一致。它們是通往同一個數字的三條路，分別適合三種處境：對稱（古典）、重複（頻率）、對一次性事件的資訊不完整（貝氏）。一個流利的機率讀者，會在心裡默默挑出題目所要的那面鏡子。

把三者並排放在同一句陳述上，會很有幫助。用每一面鏡子去讀同一個機率，能讓差異變得具體——也顯示出那是「意義」上的差異，而非「算術」上的。

Statement:  P(A) = 0.7

Classical    : 7 out of 10 symmetric outcomes make A happen.
               (Needs equally-likely cases. Often unavailable.)

Frequentist  : repeat forever -> A happens ~70% of the time.
               (Needs a repeatable experiment. Law of large numbers.)

Bayesian     : given what I know, my coherent belief in A is 0.7.
               (Works for one-off events. Must obey the axioms.)

All three obey the SAME axioms => every later theorem is unaffected.

一個數字，三種誠實的讀法——在意義上分歧，在數學上一致。

讀這個刻度盤：0、1 與中間究竟在說什麼

無論你用哪面鏡子，機率都活在一個從 0 到 1 的固定刻度盤上，而誠實地讀這個盤是值得的。P(A) = 0 並不總是「不可能」，P(A) = 1 也不總是「保證發生」。在有限的世界裡它們是——但只要你允許有無窮多個結果，一個事件就可以機率為 0 卻仍然可能。在 0 與 1 之間均勻地挑一個實數：恰好命中 0.5 的機率是 0，因為連續統中的單獨一點沒有寬度，然而確實會有某個單一的數出現。這是你日後會碰到的一個深刻想法的初次暗示：密度不是機率，而一個單點可以帶著零機率卻並不被禁止。

一個小卻有力的習慣：當你想比較或更新相信時，把機率翻譯成*勝算（odds）*。P(A) = 0.7 等同於 7 比 3 的有利勝算，亦即 0.7/0.3 ≈ 2.33 比 1。勝算讓貝氏推理變得鮮活，因為證據是把勝算乘上一個概似比，而不是直接去擺弄機率。你不必在機率與勝算之間二選一——它們是同一份資訊穿著兩套衣服——但換套衣服，往往正是讓一次困難的更新變得輕鬆的關鍵。

地基到此完工。你已經有了一個機率空間：一個由結果組成的樣本空間、一套事件的代數、以及一個服從公理的 P——而現在你也知道這個 P 究竟在主張什麼，在三種誠實的意義上皆然。從這裡往上的一切，都是用這些零件搭起來的。緊接著的下一階梯，要面對這個刻度盤自己回答不了的最重要問題：當你學到新東西時，一個機率該如何*改變*？