你已經會的,和還缺的
從前面的階梯,你已能熟練地對事件取條件機率:一旦得知 B 發生,你就在 B 之內重新計算一切,用 P(A given B) = P(A and B) / P(B)。圖像很清楚——知道 B 發生會把樣本空間縮小到 B,並把機率重新標準化,讓它們在那個較小的世界裡又加總為一。你也認識了對事件取條件的期望值 E[X given B],也就是在那個縮小世界裡計算的 X 普通期望值。這一切每問一個問題就給你一個數字。
但很快你會想要一個更豐富的東西,尤其當你走到鞅與隨機過程的時候。這次不是被告知某個特定事件發生,而是被告知另一個隨機變數 Y 的值——然後問:我們現在期望 X 是多少?這就是對變數取條件的期望值,記作 E[X given Y]。關鍵的轉折在於:你通常並不知道 Y 會出現哪個值,所以自然的答案不是單一數字,而是一整條規則:對每個可能的 y 都給一個數。取條件的輸出開始看起來像一個函數——而那正是通往整個本階的大門。
對變數取條件,逐值來看
用很小的數字把它具體化。擲一顆公正骰子,令 X 為點數。令 Y 在奇數時為 0、偶數時為 1。對事件 {Y = 0}(奇數點)取條件,把世界縮到 {1, 3, 5},各自機率現為 1/3,所以 E[X given Y = 0] = (1 + 3 + 5) / 3 = 3。對 {Y = 1}(偶數點)取條件,得到世界 {2, 4, 6},且 E[X given Y = 1] = (2 + 4 + 6) / 3 = 4。兩個事件、兩個普通的條件期望值——目前還沒有新東西。
現在做那件大膽的事:不要事先選定 Y 的值。定義一個新物件 E[X given Y],它在 Y 結果為奇數時回傳 3、為偶數時回傳 4。因為 Y 本身是隨機的,這個物件是一個隨機變數,而非一個數字——它以機率 1/2 取值 3、以機率 1/2 取值 4。這是本階最重要的一次思維轉換:對資訊取條件會產生一個隨機變數,其值取決於你收到哪份資訊。熟悉的數字 E[X given Y = y] 不過是這個隨機變數在某個特定 y 處讀出的值。
資訊是一個分割——也是一個 σ-代數
退一步問:知道 Y 究竟換來什麼?在骰子例子裡,Y 並不讓你區分 1、3、5——三個奇數結果都給出 Y = 0,所以 Y 把它們併在一起。同樣地它也分不開 2、4、6。於是觀察 Y 把樣本空間切成 {1, 3, 5} 與 {2, 4, 6} 兩組。這恰好是樣本空間的一個分割:一堆互不相交、合起來蓋住全部的區塊。Y 所攜帶的資訊,正是「能說出你身在哪個區塊」的能力——再細就沒有了。
接著是那個統一的飛躍。把那個分割對「聯集與補集」封閉——把你能用區塊拼出的所有集合都丟進去,像 {1, 3, 5}、{2, 4, 6}、整個空間、空集。你得到的就是一個 σ-代數,正是當機率被放上嚴謹基礎時你遇過的那個結構。σ-代數最好別讀成枯燥的簿記,而要讀成「你能回答的問題」的精確帳本:一個事件在其中,恰好當「依你的資訊,你能對該事件是否發生下是或否的判定」時。所以一個 σ-代數 G 就是資訊,包裝成讓數學能處理的形式。
這個重新框定,正是本階標題說「對資訊取條件」的原因。對變數 Y 取條件,等同於對「由 Y 生成的 σ-代數」取條件——也就是 Y 能解決的所有是非題的帳本。用 σ-代數語言的好處是一般性:隨機過程裡的過濾(filtration)是一條不斷增長的 σ-代數鏈,每個時刻一個,記錄至今所知的一切。一旦你能對 σ-代數取條件,你就能對一個過程的整段過去取條件,而這正是鞅背後的引擎。
把一切綁在一起的平均原則
有一條規則悄悄統御著一切,現在用它最簡單的樣貌先看一眼很值得。若你取 E[X given Y] 這個隨機變數,再對 Y 的隨機性求平均,你會拿回那個普通的 E[X]。在骰子例子裡:E[X given Y] 有一半時間是 3、一半時間是 4,所以它的平均是 3 乘 1/2 加 4 乘 1/2 = 3.5——恰好就是公正骰子的 E[X]。取條件是在各區塊之間重新編排平均;它既不創造也不毀掉平均。
這就是全期望定律,E[E[X given Y]] = E[X],而在 σ-代數的世界裡它會長成塔性質,是接下來兩篇的主力。直覺上它說:分兩段預測——先用粗略資訊去猜 X,再把那些猜值平均——你會落在「一次到位的整體平均」會落到的地方。它是你已熟知的全機率定律的條件版本,把機率換成期望值。
Die example, X = roll, Y = 0 if odd / 1 if even E[X | Y = 0] = (1 + 3 + 5)/3 = 3 P(Y = 0) = 1/2 E[X | Y = 1] = (2 + 4 + 6)/3 = 4 P(Y = 1) = 1/2 E[X | Y] is the RANDOM VARIABLE: 3 (when odd), 4 (when even) Average it back: E[ E[X | Y] ] = 3*(1/2) + 4*(1/2) = 3.5 = E[X] (law of total expectation)
更深入之前的誠實提醒
現在先點名幾個陷阱,免得之後咬人。第一,別把數字和變數搞混:若 Y 從不等於 3.5,那 E[X given Y = 3.5] 就毫無意義,但作為函數的 E[X given Y] 在 Y 落腳之處處處都有良好定義。第二,E[X given Y] 是 Y 的函數,絕不是 X 的函數——一旦你知道身在哪個區塊,X 在該區塊內仍可能擺動,而條件期望只回報區塊內的平均,並非 X 本身。
第三,取條件與獨立是真真切切不同的兩回事。若知道 Y 完全不告訴你關於 X 的任何事——也就是 X 與 Y 在適當意義下獨立——那麼 E[X given Y] 會塌縮成常數 E[X],因為每個區塊的區塊內平均都一樣。但那是特殊而無趣的情形。條件期望的全部要點,恰恰在於各區塊不同、資訊真的會移動你預測的那個有趣情形。別假設取條件不改變任何事;除非獨立另有交代,否則就假設它會改變。
有了這些護欄,前路便清晰了。下一篇會對一般的 σ-代數 G,用它的定義性質——可測性與一個平均條件——把 E[X given G] 釘死,使它連對連續的 Y 都成立;那時區塊縮成單點,而樸素的比值 P(A and B) / P(B) 因為 P(B) 為零而失效。之後我們會操練塔性質與「把已知的提出來」這條規則,接著遇見一個美麗的事實:E[X given G] 在最小平方意義下是 X 的最佳預測,並有它自己乾淨的幾何。你剛剛打好的,正是這一切立足的地基。