一個算得出來、卻指不出來的數字
到現在你已經能做真正的事了。你能擺出樣本空間、把它切成一個個事件、檢查公理,而當各結果等可能時,你能用「有利結果數除以總數」讀出一個數字。一顆公正的骰子擲出六點的機率是 P(六) = 1/6 ≈ 0.167。這一點已經敲定。但有一個問題,前面四篇悄悄繞過去了:當你寫下 P(六) = 1/6 時,*你在主張什麼是真的?* 骰子此刻就靜靜躺在桌上,沒有在滾動。那個 1/6 在哪裡?
這不是腦筋急轉彎,也不是無聊的哲學。同一個符號——P(明天下雨) = 0.7、P(這枚硬幣正面) = 0.5、P(被告有罪) = 0.9——在紙上看起來一模一樣,可它們似乎在講截然不同的東西:一次性的未來、可重複的試驗、以及一件早已非真即假的事實。機率不是你看得見、秤得出的東西。所以在我們把整個學科建立在它之上以前,誠實地問一句它到底是什麼*意思*,是值得的。結果是:有三種站得住腳的答案,而成熟的看法是——它們是看同一個想法的三面鏡子,而不是三個拚個你死我活的對手。
第一種答案:數對稱的情形
最古老的答案,就是你已經用過的古典答案。如果一個設置可拆成一些對稱的結果——按試驗的設計本身就可以互換——那麼每個結果都該分到同樣的機率,而 P(A) 不過就是讓 A 發生的那些結果所佔的比例。一顆公正的骰子有六個面,沒有任何理由偏愛哪一面,所以每面各得 1/6。當它適用時,這很美:你完全不需要做實驗,只要小心地數一數,這也正是古典定義能驅動所有骰子、紙牌與彩券計算的原因。
但要誠實面對它的破綻:這個答案倚靠的一個詞,偷偷把機率又夾帶了回來。「等可能」本身*就是*一句機率陳述。所以古典定義無法從零開始定義機率——它需要有人免費把對稱性遞到它手上。而世界上大多數事情並不對稱。「明天下雨」沒有一組等可能的「面」,「新藥是否有效」也沒有可互換的情形。古典這面鏡子鋒利卻狹窄:它能極清晰地看進那些刻意設計成對稱的博弈遊戲,可一旦對稱性用盡,它立刻就瞎了。我們需要在毫無對稱可言時仍管用的答案。
第二種答案:長期的頻率
頻率派的答案說:P(A) 是——若你能在同樣條件下永遠重複這個試驗——A 會發生的次數比例。P(正面) = 0.5 的意思是:在極大量的拋擲中,大約一半會是正面——而那個「大約」會隨著拋擲次數變多而越收越緊。這是最有「實感」的意義,因為你幾乎看得見它。拋硬幣 10 次,你可能拿到 7 個正面(70%);拋 10,000 次,比例會落在離 50% 近得多的地方。機率,就是這個運行中的比例正在趨近的那個值。
而這不是一廂情願——它是一條定理。大數法則證明:若你把獨立重複的結果取平均,這個平均會收斂到真正的機率。正是這一點,讓頻率派的圖像不只是空想:長期頻率確實會逼近一個固定的數。所以當對稱性失效時,你仍能用笨辦法釘住 P(A)——靠重複與觀察。保險公司、賭場、品管實驗室,活的正是這個世界。
不過頻率這面鏡子也有它自己誠實的極限。它只對你能「在同樣條件下」重複的事情才有意義。*這一場特定*選舉的長期頻率是多少?某一顆行星上存在生命的長期頻率又是多少?這些事各只有一個;你無法重跑。逼到底,頻率派要嘛拒絕對一次性事件指派機率,要嘛訴諸一串永遠不會真正發生的、想像中的無窮序列。那道縫隙,正是第三種答案登場之處。
第三種答案:一種被度量的相信程度
主觀派、也就是貝氏派的答案說:P(A) 是*你*相信 A 為真的程度,落在 0(確定為假)到 1(確定為真)的尺度上。這是唯一能從容處理 P(去年這座城市在這個確切日期下過雨) 的答案——那是一件早已固定、只是你不知道的事實。事件本身不是隨機的;隨機的是*你的資訊*不完整,而機率度量的正是這份不完整。當氣象員說「70% 機率會下雨」,這就是它誠實的讀法:在所有模型已知的資訊之下,0.7 的信心是有依據的。
「相信」聽起來危險地鬆散,所以這裡有一道把它救回來的紀律。你的相信只有在服從同一套柯爾莫哥洛夫公理時,才有資格算作機率。其理據是「荷蘭賭局」(Dutch book):若你開出的賠率違反規則——譬如你同時接受了隱含 P(A) = 0.6 與 P(非 A) = 0.6 的賭注——一個聰明的對手就能設計一組賭注,每一注你都覺得公平,但合起來卻保證你無論結果如何都會輸錢。一個榨不出這種錢的「融貫」相信,*必然*滿足公理。這就是為何一個相信程度是貨真價實的機率,而不只是一種心情。
當然,這是有代價的。兩個受過同樣訓練、但背景資訊不同的講理之人,可能對同一個主張指派不同的機率,而誰都不是單純「錯了」——他們持有不同的先驗。在頻率派眼中這像是在承認任意性;在貝氏派眼中這只是誠實地面對「機率相對於你所知道的東西」這件事。挽救之處——下一階梯會探討——在於證據會把分歧的先驗拉攏起來:把同樣的資料透過貝氏定理餵給兩人,他們的結論通常會收斂。
三者為何一致,以及如何讀一個數字
這裡有一個調和的洞見,把整個詮釋問題綁在一起。三種答案服從*同一套*公理,所以一旦數字定下來,這整門課裡的每一條定理——你日後會證的每一條公式——無論你偏愛哪種詮釋,都一模一樣地成立。數學不在乎。詮釋之間的分歧,只在於如何*指派*起始的數字、以及如何*描述*它們的意思,而不在於如何*運算*它們。這就是為何這場爭論再激烈,也幾乎從不改變一道計算。
而這三面鏡子在實務上往往指向同一處。當對稱性存在時,古典的數數、長期頻率、以及一個資訊充足的相信,對一顆公正骰子都落在 1/6。當你手上有資料時,頻率與一個依該資料更新過的融貫相信會一致。它們是通往同一個數字的三條路,分別適合三種處境:對稱(古典)、重複(頻率)、對一次性事件的資訊不完整(貝氏)。一個流利的機率讀者,會在心裡默默挑出題目所要的那面鏡子。
把三者並排放在同一句陳述上,會很有幫助。用每一面鏡子去讀同一個機率,能讓差異變得具體——也顯示出那是「意義」上的差異,而非「算術」上的。
Statement: P(A) = 0.7
Classical : 7 out of 10 symmetric outcomes make A happen.
(Needs equally-likely cases. Often unavailable.)
Frequentist : repeat forever -> A happens ~70% of the time.
(Needs a repeatable experiment. Law of large numbers.)
Bayesian : given what I know, my coherent belief in A is 0.7.
(Works for one-off events. Must obey the axioms.)
All three obey the SAME axioms => every later theorem is unaffected.讀這個刻度盤:0、1 與中間究竟在說什麼
無論你用哪面鏡子,機率都活在一個從 0 到 1 的固定刻度盤上,而誠實地讀這個盤是值得的。P(A) = 0 並不總是「不可能」,P(A) = 1 也不總是「保證發生」。在有限的世界裡它們是——但只要你允許有無窮多個結果,一個事件就可以機率為 0 卻仍然可能。在 0 與 1 之間均勻地挑一個實數:恰好命中 0.5 的機率是 0,因為連續統中的單獨一點沒有寬度,然而確實會有某個單一的數出現。這是你日後會碰到的一個深刻想法的初次暗示:密度不是機率,而一個單點可以帶著零機率卻並不被禁止。
一個小卻有力的習慣:當你想比較或更新相信時,把機率翻譯成*勝算(odds)*。P(A) = 0.7 等同於 7 比 3 的有利勝算,亦即 0.7/0.3 ≈ 2.33 比 1。勝算讓貝氏推理變得鮮活,因為證據是把勝算乘上一個概似比,而不是直接去擺弄機率。你不必在機率與勝算之間二選一——它們是同一份資訊穿著兩套衣服——但換套衣服,往往正是讓一次困難的更新變得輕鬆的關鍵。
地基到此完工。你已經有了一個機率空間:一個由結果組成的樣本空間、一套事件的代數、以及一個服從公理的 P——而現在你也知道這個 P 究竟在主張什麼,在三種誠實的意義上皆然。從這裡往上的一切,都是用這些零件搭起來的。緊接著的下一階梯,要面對這個刻度盤自己回答不了的最重要問題:當你學到新東西時,一個機率該如何*改變*?