JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

勒貝格積分就是被正確定義的期望值

你早就把 E[X] 當成一個和、或一個黎曼積分了——但這兩條公式長得惱人地不一樣。勒貝格積分是隱藏在兩者背後的同一個定義,也是唯一穩健到能在取極限時存活下來的定義,所以它的收斂定理才是現代機率真正的引擎。

一個概念兩條公式,以及這為何困擾著所有人

在前面幾個階層裡,你一直用兩種方式計算期望值。對離散變數,你把「值乘以機率」加起來,E[X] = sum of x * P(X = x)。對連續變數,你把「值乘以密度」積起來,E[X] = integral of x * f(x) dx。它們給出的答案都合理,卻來自完全分開的機器——一個是對原子求和,另一個是把密度餵進黎曼積分——更糟的是,兩者都應付不了一半是塊、一半是抹開的混合分配。一個以機率 1/2 取 0、否則均勻分佈在 [0, 1] 上的變數,既沒有乾淨的機率質量函數,也沒有乾淨的機率密度函數,但它顯然有平均。我們一直在打補丁。

回想本階層稍早講過的:一個隨機變數就是一個可測函數 X,定義在某個機率空間 (Omega, F, P) 上。期望值理應只是一件事:那個函數對測度 P 取的平均。麻煩在於,你在微積分裡學的黎曼積分是切水平軸——它把定義域剁成一條條細的垂直長條,再問函數在每條上的高度。這對平滑的曲線管用,但只要函數劇烈不連續,它就崩潰——而那正是一般隨機變數丟給你的情形。解法是換個方向切。

勒貝格的妙招:切值的軸,而不是切輸入的軸

亨利·勒貝格用一個硬幣比喻描述他的構想。要算口袋裡有多少錢,黎曼是按遇到的順序一枚一枚撿起硬幣、邊撿邊加。勒貝格則是先把硬幣按面額分堆——一角的堆這裡,兩角五的堆那裡——再把每個面額乘上那個面額有幾枚。總額一樣,但勒貝格的記帳完全不在乎硬幣出現的雜亂順序。換到函數上:你不再問「在每個 x 之上的高度是多少?」,而是問「有多少輸入大致映到每個輸出層級 y?」,再把 y 乘上那個輸入集合的大小加起來。

那個「輸入集合的大小」,正是你在前幾篇指南裡建好的測度。在機率空間裡,相關的大小就是 P,所以集合 { X 接近 y } 的大小就只是一個機率。這就是為什麼這個構造對我們如此自然:勒貝格積分用「落在那裡的機率」去為每個輸出層級加權,而那正是「平均」的字面意義。這個定義是用三層誠實的層級堆起來的,每一層都倚在前一層上,值得親眼看一看。

  1. 指示函數。對單一事件 A,把指示函數 1_A 的積分定義為 P(A)。這是種子:「A 發生則為 1、否則為 0」的平均,就只是 A 的機率。
  2. 簡單函數。一個有限組合 s = sum of a_k * 1_{A_k}(它只取有限多個值)的期望定為 E[s] = sum of a_k * P(A_k)。這正是你早已信任的離散公式,現在被讀成一個用測度加權的和。
  3. 非負函數,由下方逼近。對任何 X >= 0,把 E[X] 定為所有滿足 0 <= s <= X 的簡單函數 s 之 E[s] 的上確界。你用一級級階梯從下方擠近 X 再取極限;這個值總是存在(可能是 +infinity)。
  4. 一般函數,靠拆解。把 X = X_plus - X_minus 拆成正部與負部,各自積分(它們都非負),再相減。只要 E[X_plus] 與 E[X_minus] 不同時為無限,E[X] 就有定義——而當 E[|X|] 有限時,X 才被稱為可積。

真正的回報:何時可以交換極限與積分?

這裡有一個驅動著幾乎整個機率論的問題:如果 X_n 收斂到 X,那麼 E[X_n] 會收斂到 E[X] 嗎?換句話說,你能不能把極限穿過積分符號?在黎曼積分下,答案常常是「不行,或者要驗證起來太痛苦」。這不是吹毛求疵——你遇過的每一條極限定理,包括大數法則與中央極限定理,骨子裡都是一句關於「交換極限與期望」的陳述。所以勒貝格積分的價值,幾乎完全是用「它讓你多乾淨地完成那個交換」來衡量的。

而這個交換確實可能失敗,所以我們不能就這樣放它過關。想像一根會移動的尖峰:令 X_n 在區間 (0, 1/n) 上為 n、其餘地方為 0,輸入在 [0, 1] 上均勻。對每個固定的點,那根尖峰終究會滑過去、把它留在 0,所以 X_n 逐點收斂到 X = 0,且 E[X] = 0。但每一個 X_n 都有 E[X_n] = n * (1/n) = 1,永遠如此。於是 lim E[X_n] = 1,而 E[lim X_n] = 0——質量逃向無限的速度,比窗口縮小的速度還快。那幾條收斂定理,正是用來禁止這種洩漏的前提。

三條讓極限得以通過的定理

三個結果,按有用程度由低到高,給你交換的許可。單調收斂定理(MCT)說:若 0 <= X_1 <= X_2 <= ... 遞增到 X,則 E[X_n] 遞增到 E[X],毫無例外。單調、非負的增長在往上爬的途中絕不可能損失質量,所以極限總會跟著來。這正是上面那個構造第 3 步所倚賴的定理,也是為什麼即使有無限多個非負項,E[sum of X_k] = sum of E[X_k] 依然成立。

法圖引理是那位謹慎的表親:對任何非負的 X_n,它不保證相等,只給出單邊的 E[lim inf X_n] <= lim inf E[X_n]。對照那根移動的尖峰,法圖說的是 0 <= 1,這是對的,並告訴你:在極限中質量只可能洩漏掉,絕不會憑空冒出來。法圖幾乎不要任何前提,所以在你別無所知時,它是安全的第一步;只有當更強的定理適用時,你才去爭取相等。

真正的主力是主導收斂定理(DCT)。如果 X_n 收斂到 X(逐點,或幾乎處處),而且存在單一個可積的 Y 使得對所有 n 都有 |X_n| <= Y,那麼 E[X_n] 收斂到 E[X]——完全相等。那個主導的 Y 是一個固定的天花板,所有 X_n 都住在它底下,而正是這個天花板擋住了質量偷溜向無限。那根移動的尖峰沒有這種天花板:唯一蓋過每一根尖峰的 Y 是 (0,1] 上的函數 1/x,其積分無限,所以 DCT 正確地拒絕適用。只要你能拿出一個積分有限的主導函數,這個交換就是你的了。

MCT  : 0 <= X_1 <= X_2 <= ... -> X      =>  lim E[X_n] = E[X]      (equality, monotone up)
Fatou: X_n >= 0                          =>  E[lim inf X_n] <= lim inf E[X_n]   (one-sided)
DCT  : X_n -> X  and  |X_n| <= Y, E[Y]<inf =>  lim E[X_n] = E[X]      (equality, with a ceiling)

moving-spike test:  X_n = n on (0, 1/n), else 0,   X_n -> 0
   E[X_n] = 1 for all n,  E[0] = 0
   MCT? no (not monotone)   DCT? no (smallest ceiling is 1/x, integral = inf)
   Fatou: 0 <= 1   <- the only one of the three that still applies, and it holds
同一個例子,過一遍三條定理。只有法圖適用於這根會洩漏的尖峰,而它給出的是誠實的不等式,而不是錯誤的相等。

誠實的附註細則,以及這些定理悄悄修好了什麼

幾點提醒能讓你免於麻煩。第一,勒貝格積分確實看不見一個機率為零的集合:在這種集合上改動 X,永遠不會改變 E[X]。這正是「單獨一個點機率為零」的正式歸宿——一個連續變數在任何單一數值上的值,對它的平均毫無影響。所以這三條定理都只需要它們的前提幾乎處處(以機率 1)成立,而不是字面上每一個點都成立。這不是漏洞;它正是這套理論之所以穩健的全部原因。

第二,DCT 裡的主導函數必須是單獨一個固定的 Y,要一次對每個 n 都管用——對每個 n 各自找一個不同的有限天花板是不夠的,而大多數失敗的交換就藏在這個微妙的縫隙裡。第三,這一切都不與你接下來會遇到的「依分配收斂」事實矛盾;變數的逐點或幾乎處處收斂,是比依分配收斂更強、更實在的概念,而這些收斂定理是為前者準備的工具。粗心使用時,這個交換就只是錯的,正如那根尖峰所示——這些定理是許可證,不是包山包海的保證。