為什麼我們需要測度論

樸素機率一直在賒帳

你已經爬了很長一段路。你懂柯爾莫哥洛夫公理，你會用密度計算，你證過強大數法則與中央極限定理，你也信任像 E[aX + bY] = a E[X] + b E[Y] 這樣的公式。這些全都沒有錯。但其中每一個結果，都悄悄倚靠著兩個我們其實從未真正兌現的承諾：任何樣本空間的子集都能被指派一個機率，以及任何函數都能積分而得到一個期望值。在有限或可數的樣本空間上，這兩個承諾不花成本。但在實數線上——連續隨機變數所居住的地方——它們並不免費，有時甚至根本不可能。

帳單最先到期的地方，是這個最簡單的場景。從區間 [0, 1] 中均勻隨機取一個點。它落在某個集合 A 裡的機率是多少？對於像 A = [0.2, 0.5] 這樣的區間，答案顯然就是它的長度 0.3。但公理同時要求可數可加性：可數多個互斥小塊的聯集，其機率必須等於各塊機率之和。試著對 [0, 1] 的每一個可想像的子集 A 都兌現這一點，你就會一頭撞上一堵牆。

那堵牆：一個你無法測量的集合

這堵牆有個名字：[[prob-non-measurable-set|不可測集]]。有一道食譜（維塔利建構）能把 [0, 1] 切成可數多個互斥的小塊，而它們在某種意義上彼此完全相同——每一塊都只是同一個基底集合 V 的一份平移副本。如果我們能給 V 指派一個長度 p，可加性就會迫使 [0, 1] 的總長度等於 p + p + p + ...——也就是把同一個數字加上可數多次。但這個無窮和不是 0（當 p = 0 時）就是無限大（當 p > 0 時）。兩者都不等於 1。因此根本沒有任何一致的長度可以指派給 V。對於「落在 V 裡的機率是多少？」這個問題，真的沒有任何好答案。

留意「事件」這個詞剛剛發生了什麼變化。在基礎那一階段，事件是樣本空間的任意子集。正是這個樸素的等同關係出了問題。從現在起，事件不再是任意子集——它是一個可測子集，是那個被挑選出來的家族中的一員。這是整個階段裡第一個、也是最重要的態度轉變：機率是定義在一個受限制的集合族上的函數，而不是定義在所有集合上。

三個物件，一份契約：機率空間

測度論給了我們一個乾淨的替代品，來取代那個會漏水的樸素設定。它是一個三元組——[[probability-space|機率空間]]——寫作 (Omega, F, P)。Omega 是樣本空間，是所有可想像結果的集合。F 是 [[prob-sigma-algebra|σ-代數]]：我們被允許稱為事件的那個子集家族。而 P 是 [[probability-measure|機率測度]]：把 F 中每個事件指派一個介於 0 與 1 之間的數的規則，並恰好遵守柯爾莫哥洛夫公理（P(Omega) = 1 與可數可加性）。其巧妙之處在於：P 永遠只會被問到 F 中的集合，所以它永遠不必回答關於 V 的那個不可能的問題。

(Omega, F, P)
  Omega : sample space        all possible outcomes
  F     : sigma-algebra       the events we may ask about
  P     : probability measure P : F -> [0, 1], P(Omega) = 1,
                              countably additive on F

機率空間——每一個嚴謹的機率陳述都是依著這份契約寫成的。

這並不是為了官僚而官僚。同一個三元組驅動了一套關於「大小」的統一理論。在 [0, 1] 上配上長度測度，P([a, b]) = b - a 就還原成均勻分配；在有限的 Omega 上配上計數權重，就還原成你一開始學的離散機率。長度、面積、體積與機率全都是同一種物件——一個測度——而對測度證明一次某件事，就等於一次在所有地方都證明了它。你在基礎階段非正式用過的、對遞嵌事件成立的連續性 P(A_n) -> P(A)，用這套語言來看，不過就是一條關於測度與極限的定理。

被修好的隨機變數與積分

一旦事件被限制在 F 之內，隨機變數也就不能是從 Omega 到實數的任意函數了。光是要問「P(X <= 3) 是多少？」，我們就需要「使 X <= 3 成立的那組結果」是一個貨真價實的事件——是 F 中的一員。對每一個門檻都具有這個性質的函數，稱為[[random-variable-as-measurable-function|可測函數]]，而這正是隨機變數誠實的定義。它是一座橋，讓一個關於數字的問題（X <= 3）能由住在 Omega 上的測度 P 來回答。本階段的第 3 篇會仔細搭起這座橋。

第二個破掉的承諾——任何函數都能積分——由 [[lebesgue-integral-expectation|勒貝格積分]]修好。你在微積分裡學的黎曼積分，是把 x 軸切成一條條細長的垂直長條。勒貝格的點子是改切 y 軸：把所有會讓 X 落入某個窄值帶的結果歸成一組，問測度 P 這一組有多大，再把「值乘以測度」加起來。期望值 E[X] 恰恰就是 X 對 P 的這個積分。按值（而非按位置）來切，正是這個積分能應付極度不連續函數的原因——也正是為什麼期望值、變異數，以及你算過的每一個平均，終於都站在了堅實的地基上。

選定你的三個物件：樣本空間 Omega、可採用事件構成的 σ-代數 F，以及 F 上的一個機率測度 P。
要求每個隨機變數 X 都是可測的，使得對每個門檻 t，{X <= t} 都是 F 中的一個事件——唯有如此，P(X <= t) 才有意義。
把期望值定義為 X 對 P 的勒貝格積分，按值切分，使得 E[X] 對遠比黎曼積分能處理的更多變數都存在。
接著用收斂定理交換極限與積分的次序——這正是讓整套機器值得搭建的回報。

回報：你終於被允許取的那些極限

為什麼要忍受這整套機器？因為你一直憑信心做著一個反覆出現、卻很危險的動作：把極限和積分對調，lim E[X_n] = E[lim X_n]。這並不總是合法的。想像一根又高又細的機率尖峰，隨著 n 變大而變得更高更窄，使它的面積始終是 1，同時往無限遠處滑開。每個 X_n 都有 E[X_n] = 1，然而逐點極限卻是期望值為 0 的零函數。平均的極限是 1；極限的平均是 0。樸素地對調，會對你說謊。

測度論給你的，是「何時對調安全」的精確許可證。[[dominated-convergence-theorem|控制收斂定理]]說：如果你的 X_n 始終待在一個固定的可積上限之下（而那根逃逸的尖峰並沒有），對調就合法。它的兄弟姊妹——單調收斂定理（給只往上爬的變數）與法圖引理（一張單邊的安全網）——把工具箱補齊。這些不是為抽象而抽象——它們正是強大數法則與中央極限定理之所以為真、而非僅僅看似合理的精確原因。

什麼變了，什麼沒變

覺得不安是合理的：你辛苦掌握的舊機率，是不是剛被拆掉了？並沒有。你為骰子、硬幣、常態與卜瓦松過程算出的一切，依然完全正確。對一個離散或行為良好的連續問題，測度論不會改動任何一個答案。它改變的是底下的地基，把「這肯定行得通」換成「這可被證明行得通，而且這裡精確地說明了它何時不行」。日常公式絲毫未動；只是它們的保固如今銅牆鐵壁。

帶著兩個誠實的但書往前走。第一，這個階段裡幾乎所有事物，都只在「至多差一個機率為零的集合」的意義下成立——許多陳述會被冠上「幾乎必然」，因為單一點、或任何可忽略的集合，都可以略去不計。第二，這份嚴謹對日常計算是殺雞用牛刀：你不會為了求二項分配的平均而搬出一個 σ-代數。測度論是牆內承重的結構，不是你天天使用的家具。知道它就在那裡，正是讓房子其餘部分得以站立的原因。