樸素機率一直在賒帳
你已經爬了很長一段路。你懂柯爾莫哥洛夫公理,你會用密度計算,你證過強大數法則與中央極限定理,你也信任像 E[aX + bY] = a E[X] + b E[Y] 這樣的公式。這些全都沒有錯。但其中每一個結果,都悄悄倚靠著兩個我們其實從未真正兌現的承諾:任何樣本空間的子集都能被指派一個機率,以及任何函數都能積分而得到一個期望值。在有限或可數的樣本空間上,這兩個承諾不花成本。但在實數線上——連續隨機變數所居住的地方——它們並不免費,有時甚至根本不可能。
帳單最先到期的地方,是這個最簡單的場景。從區間 [0, 1] 中均勻隨機取一個點。它落在某個集合 A 裡的機率是多少?對於像 A = [0.2, 0.5] 這樣的區間,答案顯然就是它的長度 0.3。但公理同時要求可數可加性:可數多個互斥小塊的聯集,其機率必須等於各塊機率之和。試著對 [0, 1] 的每一個可想像的子集 A 都兌現這一點,你就會一頭撞上一堵牆。
那堵牆:一個你無法測量的集合
這堵牆有個名字:[[prob-non-measurable-set|不可測集]]。有一道食譜(維塔利建構)能把 [0, 1] 切成可數多個互斥的小塊,而它們在某種意義上彼此完全相同——每一塊都只是同一個基底集合 V 的一份平移副本。如果我們能給 V 指派一個長度 p,可加性就會迫使 [0, 1] 的總長度等於 p + p + p + ...——也就是把同一個數字加上可數多次。但這個無窮和不是 0(當 p = 0 時)就是無限大(當 p > 0 時)。兩者都不等於 1。因此根本沒有任何一致的長度可以指派給 V。對於「落在 V 裡的機率是多少?」這個問題,真的沒有任何好答案。
留意「事件」這個詞剛剛發生了什麼變化。在基礎那一階段,事件是樣本空間的任意子集。正是這個樸素的等同關係出了問題。從現在起,事件不再是任意子集——它是一個可測子集,是那個被挑選出來的家族中的一員。這是整個階段裡第一個、也是最重要的態度轉變:機率是定義在一個受限制的集合族上的函數,而不是定義在所有集合上。
三個物件,一份契約:機率空間
測度論給了我們一個乾淨的替代品,來取代那個會漏水的樸素設定。它是一個三元組——[[probability-space|機率空間]]——寫作 (Omega, F, P)。Omega 是樣本空間,是所有可想像結果的集合。F 是 [[prob-sigma-algebra|σ-代數]]:我們被允許稱為事件的那個子集家族。而 P 是 [[probability-measure|機率測度]]:把 F 中每個事件指派一個介於 0 與 1 之間的數的規則,並恰好遵守柯爾莫哥洛夫公理(P(Omega) = 1 與可數可加性)。其巧妙之處在於:P 永遠只會被問到 F 中的集合,所以它永遠不必回答關於 V 的那個不可能的問題。
(Omega, F, P)
Omega : sample space all possible outcomes
F : sigma-algebra the events we may ask about
P : probability measure P : F -> [0, 1], P(Omega) = 1,
countably additive on F這並不是為了官僚而官僚。同一個三元組驅動了一套關於「大小」的統一理論。在 [0, 1] 上配上長度測度,P([a, b]) = b - a 就還原成均勻分配;在有限的 Omega 上配上計數權重,就還原成你一開始學的離散機率。長度、面積、體積與機率全都是同一種物件——一個測度——而對測度證明一次某件事,就等於一次在所有地方都證明了它。你在基礎階段非正式用過的、對遞嵌事件成立的連續性 P(A_n) -> P(A),用這套語言來看,不過就是一條關於測度與極限的定理。
被修好的隨機變數與積分
一旦事件被限制在 F 之內,隨機變數也就不能是從 Omega 到實數的任意函數了。光是要問「P(X <= 3) 是多少?」,我們就需要「使 X <= 3 成立的那組結果」是一個貨真價實的事件——是 F 中的一員。對每一個門檻都具有這個性質的函數,稱為[[random-variable-as-measurable-function|可測函數]],而這正是隨機變數誠實的定義。它是一座橋,讓一個關於數字的問題(X <= 3)能由住在 Omega 上的測度 P 來回答。本階段的第 3 篇會仔細搭起這座橋。
第二個破掉的承諾——任何函數都能積分——由 [[lebesgue-integral-expectation|勒貝格積分]]修好。你在微積分裡學的黎曼積分,是把 x 軸切成一條條細長的垂直長條。勒貝格的點子是改切 y 軸:把所有會讓 X 落入某個窄值帶的結果歸成一組,問測度 P 這一組有多大,再把「值乘以測度」加起來。期望值 E[X] 恰恰就是 X 對 P 的這個積分。按值(而非按位置)來切,正是這個積分能應付極度不連續函數的原因——也正是為什麼期望值、變異數,以及你算過的每一個平均,終於都站在了堅實的地基上。
- 選定你的三個物件:樣本空間 Omega、可採用事件構成的 σ-代數 F,以及 F 上的一個機率測度 P。
- 要求每個隨機變數 X 都是可測的,使得對每個門檻 t,{X <= t} 都是 F 中的一個事件——唯有如此,P(X <= t) 才有意義。
- 把期望值定義為 X 對 P 的勒貝格積分,按值切分,使得 E[X] 對遠比黎曼積分能處理的更多變數都存在。
- 接著用收斂定理交換極限與積分的次序——這正是讓整套機器值得搭建的回報。
回報:你終於被允許取的那些極限
為什麼要忍受這整套機器?因為你一直憑信心做著一個反覆出現、卻很危險的動作:把極限和積分對調,lim E[X_n] = E[lim X_n]。這並不總是合法的。想像一根又高又細的機率尖峰,隨著 n 變大而變得更高更窄,使它的面積始終是 1,同時往無限遠處滑開。每個 X_n 都有 E[X_n] = 1,然而逐點極限卻是期望值為 0 的零函數。平均的極限是 1;極限的平均是 0。樸素地對調,會對你說謊。
測度論給你的,是「何時對調安全」的精確許可證。[[dominated-convergence-theorem|控制收斂定理]]說:如果你的 X_n 始終待在一個固定的可積上限之下(而那根逃逸的尖峰並沒有),對調就合法。它的兄弟姊妹——單調收斂定理(給只往上爬的變數)與法圖引理(一張單邊的安全網)——把工具箱補齊。這些不是為抽象而抽象——它們正是強大數法則與中央極限定理之所以為真、而非僅僅看似合理的精確原因。
什麼變了,什麼沒變
覺得不安是合理的:你辛苦掌握的舊機率,是不是剛被拆掉了?並沒有。你為骰子、硬幣、常態與卜瓦松過程算出的一切,依然完全正確。對一個離散或行為良好的連續問題,測度論不會改動任何一個答案。它改變的是底下的地基,把「這肯定行得通」換成「這可被證明行得通,而且這裡精確地說明了它何時不行」。日常公式絲毫未動;只是它們的保固如今銅牆鐵壁。
帶著兩個誠實的但書往前走。第一,這個階段裡幾乎所有事物,都只在「至多差一個機率為零的集合」的意義下成立——許多陳述會被冠上「幾乎必然」,因為單一點、或任何可忽略的集合,都可以略去不計。第二,這份嚴謹對日常計算是殺雞用牛刀:你不會為了求二項分配的平均而搬出一個 σ-代數。測度論是牆內承重的結構,不是你天天使用的家具。知道它就在那裡,正是讓房子其餘部分得以站立的原因。