從對事件取條件到對資訊取條件

你已經會的，和還缺的

從前面的階梯，你已能熟練地對事件取條件機率：一旦得知 B 發生，你就在 B 之內重新計算一切，用 P(A given B) = P(A and B) / P(B)。圖像很清楚——知道 B 發生會把樣本空間縮小到 B，並把機率重新標準化，讓它們在那個較小的世界裡又加總為一。你也認識了對事件取條件的期望值 E[X given B]，也就是在那個縮小世界裡計算的 X 普通期望值。這一切每問一個問題就給你一個數字。

但很快你會想要一個更豐富的東西，尤其當你走到鞅與隨機過程的時候。這次不是被告知某個特定事件發生，而是被告知另一個隨機變數 Y 的值——然後問：我們現在期望 X 是多少？這就是對變數取條件的期望值，記作 E[X given Y]。關鍵的轉折在於：你通常並不知道 Y 會出現哪個值，所以自然的答案不是單一數字，而是一整條規則：對每個可能的 y 都給一個數。取條件的輸出開始看起來像一個函數——而那正是通往整個本階的大門。

對變數取條件，逐值來看

用很小的數字把它具體化。擲一顆公正骰子，令 X 為點數。令 Y 在奇數時為 0、偶數時為 1。對事件 {Y = 0}（奇數點）取條件，把世界縮到 {1, 3, 5}，各自機率現為 1/3，所以 E[X given Y = 0] = (1 + 3 + 5) / 3 = 3。對 {Y = 1}（偶數點）取條件，得到世界 {2, 4, 6}，且 E[X given Y = 1] = (2 + 4 + 6) / 3 = 4。兩個事件、兩個普通的條件期望值——目前還沒有新東西。

現在做那件大膽的事：不要事先選定 Y 的值。定義一個新物件 E[X given Y]，它在 Y 結果為奇數時回傳 3、為偶數時回傳 4。因為 Y 本身是隨機的，這個物件是一個隨機變數，而非一個數字——它以機率 1/2 取值 3、以機率 1/2 取值 4。這是本階最重要的一次思維轉換：對資訊取條件會產生一個隨機變數，其值取決於你收到哪份資訊。熟悉的數字 E[X given Y = y] 不過是這個隨機變數在某個特定 y 處讀出的值。

資訊是一個分割——也是一個 σ-代數

退一步問：知道 Y 究竟換來什麼？在骰子例子裡，Y 並不讓你區分 1、3、5——三個奇數結果都給出 Y = 0，所以 Y 把它們併在一起。同樣地它也分不開 2、4、6。於是觀察 Y 把樣本空間切成 {1, 3, 5} 與 {2, 4, 6} 兩組。這恰好是樣本空間的一個分割：一堆互不相交、合起來蓋住全部的區塊。Y 所攜帶的資訊，正是「能說出你身在哪個區塊」的能力——再細就沒有了。

接著是那個統一的飛躍。把那個分割對「聯集與補集」封閉——把你能用區塊拼出的所有集合都丟進去，像 {1, 3, 5}、{2, 4, 6}、整個空間、空集。你得到的就是一個 σ-代數，正是當機率被放上嚴謹基礎時你遇過的那個結構。σ-代數最好別讀成枯燥的簿記，而要讀成「你能回答的問題」的精確帳本：一個事件在其中，恰好當「依你的資訊，你能對該事件是否發生下是或否的判定」時。所以一個 σ-代數 G 就是資訊，包裝成讓數學能處理的形式。

這個重新框定，正是本階標題說「對資訊取條件」的原因。對變數 Y 取條件，等同於對「由 Y 生成的 σ-代數」取條件——也就是 Y 能解決的所有是非題的帳本。用 σ-代數語言的好處是一般性：隨機過程裡的過濾（filtration）是一條不斷增長的 σ-代數鏈，每個時刻一個，記錄至今所知的一切。一旦你能對 σ-代數取條件，你就能對一個過程的整段過去取條件，而這正是鞅背後的引擎。

把一切綁在一起的平均原則

有一條規則悄悄統御著一切，現在用它最簡單的樣貌先看一眼很值得。若你取 E[X given Y] 這個隨機變數，再對 Y 的隨機性求平均，你會拿回那個普通的 E[X]。在骰子例子裡：E[X given Y] 有一半時間是 3、一半時間是 4，所以它的平均是 3 乘 1/2 加 4 乘 1/2 = 3.5——恰好就是公正骰子的 E[X]。取條件是在各區塊之間重新編排平均；它既不創造也不毀掉平均。

這就是全期望定律，E[E[X given Y]] = E[X]，而在 σ-代數的世界裡它會長成塔性質，是接下來兩篇的主力。直覺上它說：分兩段預測——先用粗略資訊去猜 X，再把那些猜值平均——你會落在「一次到位的整體平均」會落到的地方。它是你已熟知的全機率定律的條件版本，把機率換成期望值。

Die example, X = roll, Y = 0 if odd / 1 if even

  E[X | Y = 0] = (1 + 3 + 5)/3 = 3      P(Y = 0) = 1/2
  E[X | Y = 1] = (2 + 4 + 6)/3 = 4      P(Y = 1) = 1/2

  E[X | Y]  is the RANDOM VARIABLE:   3 (when odd),  4 (when even)

  Average it back:
  E[ E[X | Y] ] = 3*(1/2) + 4*(1/2) = 3.5 = E[X]   (law of total expectation)

E[X given Y] 是隨機變數；對 Y 把它平均回去，就還原出無條件的 E[X]。

更深入之前的誠實提醒

現在先點名幾個陷阱，免得之後咬人。第一，別把數字和變數搞混：若 Y 從不等於 3.5，那 E[X given Y = 3.5] 就毫無意義，但作為函數的 E[X given Y] 在 Y 落腳之處處處都有良好定義。第二，E[X given Y] 是 Y 的函數，絕不是 X 的函數——一旦你知道身在哪個區塊，X 在該區塊內仍可能擺動，而條件期望只回報區塊內的平均，並非 X 本身。

第三，取條件與獨立是真真切切不同的兩回事。若知道 Y 完全不告訴你關於 X 的任何事——也就是 X 與 Y 在適當意義下獨立——那麼 E[X given Y] 會塌縮成常數 E[X]，因為每個區塊的區塊內平均都一樣。但那是特殊而無趣的情形。條件期望的全部要點，恰恰在於各區塊不同、資訊真的會移動你預測的那個有趣情形。別假設取條件不改變任何事；除非獨立另有交代，否則就假設它會改變。

有了這些護欄，前路便清晰了。下一篇會對一般的 σ-代數 G，用它的定義性質——可測性與一個平均條件——把 E[X given G] 釘死，使它連對連續的 Y 都成立；那時區塊縮成單點，而樸素的比值 P(A and B) / P(B) 因為 P(B) 為零而失效。之後我們會操練塔性質與「把已知的提出來」這條規則，接著遇見一個美麗的事實：E[X given G] 在最小平方意義下是 X 的最佳預測，並有它自己乾淨的幾何。你剛剛打好的，正是這一切立足的地基。