勒貝格積分就是被正確定義的期望值

一個概念兩條公式，以及這為何困擾著所有人

在前面幾個階層裡，你一直用兩種方式計算期望值。對離散變數，你把「值乘以機率」加起來，E[X] = sum of x * P(X = x)。對連續變數，你把「值乘以密度」積起來，E[X] = integral of x * f(x) dx。它們給出的答案都合理，卻來自完全分開的機器——一個是對原子求和，另一個是把密度餵進黎曼積分——更糟的是，兩者都應付不了一半是塊、一半是抹開的混合分配。一個以機率 1/2 取 0、否則均勻分佈在 [0, 1] 上的變數，既沒有乾淨的機率質量函數，也沒有乾淨的機率密度函數，但它顯然有平均。我們一直在打補丁。

回想本階層稍早講過的：一個隨機變數就是一個可測函數 X，定義在某個機率空間 (Omega, F, P) 上。期望值理應只是一件事：那個函數對測度 P 取的平均。麻煩在於，你在微積分裡學的黎曼積分是切水平軸——它把定義域剁成一條條細的垂直長條，再問函數在每條上的高度。這對平滑的曲線管用，但只要函數劇烈不連續，它就崩潰——而那正是一般隨機變數丟給你的情形。解法是換個方向切。

勒貝格的妙招：切值的軸，而不是切輸入的軸

亨利·勒貝格用一個硬幣比喻描述他的構想。要算口袋裡有多少錢，黎曼是按遇到的順序一枚一枚撿起硬幣、邊撿邊加。勒貝格則是先把硬幣按面額分堆——一角的堆這裡，兩角五的堆那裡——再把每個面額乘上那個面額有幾枚。總額一樣，但勒貝格的記帳完全不在乎硬幣出現的雜亂順序。換到函數上：你不再問「在每個 x 之上的高度是多少？」，而是問「有多少輸入大致映到每個輸出層級 y？」，再把 y 乘上那個輸入集合的大小加起來。

那個「輸入集合的大小」，正是你在前幾篇指南裡建好的測度。在機率空間裡，相關的大小就是 P，所以集合 { X 接近 y } 的大小就只是一個機率。這就是為什麼這個構造對我們如此自然：勒貝格積分用「落在那裡的機率」去為每個輸出層級加權，而那正是「平均」的字面意義。這個定義是用三層誠實的層級堆起來的，每一層都倚在前一層上，值得親眼看一看。

指示函數。對單一事件 A，把指示函數 1_A 的積分定義為 P(A)。這是種子：「A 發生則為 1、否則為 0」的平均，就只是 A 的機率。
簡單函數。一個有限組合 s = sum of a_k * 1_{A_k}（它只取有限多個值）的期望定為 E[s] = sum of a_k * P(A_k)。這正是你早已信任的離散公式，現在被讀成一個用測度加權的和。
非負函數，由下方逼近。對任何 X >= 0，把 E[X] 定為所有滿足 0 <= s <= X 的簡單函數 s 之 E[s] 的上確界。你用一級級階梯從下方擠近 X 再取極限；這個值總是存在（可能是 +infinity）。
一般函數，靠拆解。把 X = X_plus - X_minus 拆成正部與負部，各自積分（它們都非負），再相減。只要 E[X_plus] 與 E[X_minus] 不同時為無限，E[X] 就有定義——而當 E[|X|] 有限時，X 才被稱為可積。

真正的回報：何時可以交換極限與積分？

這裡有一個驅動著幾乎整個機率論的問題：如果 X_n 收斂到 X，那麼 E[X_n] 會收斂到 E[X] 嗎？換句話說，你能不能把極限穿過積分符號？在黎曼積分下，答案常常是「不行，或者要驗證起來太痛苦」。這不是吹毛求疵——你遇過的每一條極限定理，包括大數法則與中央極限定理，骨子裡都是一句關於「交換極限與期望」的陳述。所以勒貝格積分的價值，幾乎完全是用「它讓你多乾淨地完成那個交換」來衡量的。

而這個交換確實可能失敗，所以我們不能就這樣放它過關。想像一根會移動的尖峰：令 X_n 在區間 (0, 1/n) 上為 n、其餘地方為 0，輸入在 [0, 1] 上均勻。對每個固定的點，那根尖峰終究會滑過去、把它留在 0，所以 X_n 逐點收斂到 X = 0，且 E[X] = 0。但每一個 X_n 都有 E[X_n] = n * (1/n) = 1，永遠如此。於是 lim E[X_n] = 1，而 E[lim X_n] = 0——質量逃向無限的速度，比窗口縮小的速度還快。那幾條收斂定理，正是用來禁止這種洩漏的前提。

三條讓極限得以通過的定理

三個結果，按有用程度由低到高，給你交換的許可。單調收斂定理（MCT）說：若 0 <= X_1 <= X_2 <= ... 遞增到 X，則 E[X_n] 遞增到 E[X]，毫無例外。單調、非負的增長在往上爬的途中絕不可能損失質量，所以極限總會跟著來。這正是上面那個構造第 3 步所倚賴的定理，也是為什麼即使有無限多個非負項，E[sum of X_k] = sum of E[X_k] 依然成立。

法圖引理是那位謹慎的表親：對任何非負的 X_n，它不保證相等，只給出單邊的 E[lim inf X_n] <= lim inf E[X_n]。對照那根移動的尖峰，法圖說的是 0 <= 1，這是對的，並告訴你：在極限中質量只可能洩漏掉，絕不會憑空冒出來。法圖幾乎不要任何前提，所以在你別無所知時，它是安全的第一步；只有當更強的定理適用時，你才去爭取相等。

真正的主力是主導收斂定理（DCT）。如果 X_n 收斂到 X（逐點，或幾乎處處），而且存在單一個可積的 Y 使得對所有 n 都有 |X_n| <= Y，那麼 E[X_n] 收斂到 E[X]——完全相等。那個主導的 Y 是一個固定的天花板，所有 X_n 都住在它底下，而正是這個天花板擋住了質量偷溜向無限。那根移動的尖峰沒有這種天花板：唯一蓋過每一根尖峰的 Y 是 (0,1] 上的函數 1/x，其積分無限，所以 DCT 正確地拒絕適用。只要你能拿出一個積分有限的主導函數，這個交換就是你的了。

MCT  : 0 <= X_1 <= X_2 <= ... -> X      =>  lim E[X_n] = E[X]      (equality, monotone up)
Fatou: X_n >= 0                          =>  E[lim inf X_n] <= lim inf E[X_n]   (one-sided)
DCT  : X_n -> X  and  |X_n| <= Y, E[Y]<inf =>  lim E[X_n] = E[X]      (equality, with a ceiling)

moving-spike test:  X_n = n on (0, 1/n), else 0,   X_n -> 0
   E[X_n] = 1 for all n,  E[0] = 0
   MCT? no (not monotone)   DCT? no (smallest ceiling is 1/x, integral = inf)
   Fatou: 0 <= 1   <- the only one of the three that still applies, and it holds

同一個例子，過一遍三條定理。只有法圖適用於這根會洩漏的尖峰，而它給出的是誠實的不等式，而不是錯誤的相等。

誠實的附註細則，以及這些定理悄悄修好了什麼

幾點提醒能讓你免於麻煩。第一，勒貝格積分確實看不見一個機率為零的集合：在這種集合上改動 X，永遠不會改變 E[X]。這正是「單獨一個點機率為零」的正式歸宿——一個連續變數在任何單一數值上的值，對它的平均毫無影響。所以這三條定理都只需要它們的前提幾乎處處（以機率 1）成立，而不是字面上每一個點都成立。這不是漏洞；它正是這套理論之所以穩健的全部原因。

第二，DCT 裡的主導函數必須是單獨一個固定的 Y，要一次對每個 n 都管用——對每個 n 各自找一個不同的有限天花板是不夠的，而大多數失敗的交換就藏在這個微妙的縫隙裡。第三，這一切都不與你接下來會遇到的「依分配收斂」事實矛盾；變數的逐點或幾乎處處收斂，是比依分配收斂更強、更實在的概念，而這些收斂定理是為前者準備的工具。粗心使用時，這個交換就只是錯的，正如那根尖峰所示——這些定理是許可證，不是包山包海的保證。