給定一個 sigma 代數下的條件期望

從一個數，變成一個隨機變數

在前一篇指南中，你看到了「以整個 sigma 代數 G 為條件」意味著以一整體的資訊為條件，而非以單一事件為條件。現在我們要把這份直覺變成一個精確的對象。第一個必須完成的心態轉換——也正是本篇的全部重點——是：給定一個 sigma 代數下的條件期望，記為 E[X given G]，並不是一個數。它是一個隨機變數：定義在同一個樣本空間上的新函數，其值取決於發生了哪個結果。單純的 E[X] 把 X 壓成一個數；E[X given G] 卻保留下一個函數，一個被磨平到 G 所能看見之解析度的函數。

想像樣本空間被 G 所含的資訊切成許多塊。在每一塊內部，G 無法分辨這些結果——就 G 而言它們是不可區分的。於是 E[X given G] 被迫在每一塊上取固定值，而它在那塊上所取的常數，正是 X 在那塊上的普通平均。如果你的資訊粗到極點（G = {空集合, 整個空間}），那就只有一塊，這塊上的平均就只是 E[X]：條件期望退回成普通的平均數。如果你的資訊完整無缺（G = 一切），那每個結果各自成一塊，於是 E[X given G] = X 恰好相等。每個誠實的 G 都落在這兩端之間，給出一張在某個選定銳利度下、X 的模糊肖像。

兩條定義性質

塊狀的圖像是正確的直覺，但對於一般（可能是連續）的 sigma 代數而言，「塊」這個詞太粗糙了，因為條件資訊也許根本不會把空間切成整齊的團塊。現代的定義以一對乾淨的要求取代了塊。我們稱 Y = E[X given G] 為條件期望，若 Y 同時滿足兩條定義性質：(1) Y 對 G 可測，以及 (2) 對每個住在 G 裡的事件 A，Y 在 A 上的平均等於 X 在 A 上的平均。性質 (2) 就是部分平均性質，它是這一切的引擎。

Y = E[X | G]  is THE conditional expectation iff:

  (1) Measurability:   Y is G-measurable
                       (Y depends only on the information in G)

  (2) Partial averaging:   for every A in G,
         E[ Y * 1_A ]  =  E[ X * 1_A ]
      i.e.  integral of Y over A  =  integral of X over A

  Special case A = whole space:   E[Y] = E[X]

唯一釘死 E[X given G] 的兩個條件（在機率為零的事件上可差異）。

慢慢讀性質 (2)，因為它抓住了整個觀念：「在你被允許詢問的每個集合上，Y 帶有與 X 相同的總量」。你也許無法從 G 逐一還原出 X，但你可以要求 Y 在每個可分辨的區域上對齊 X 的累積值。這正是「X 在此解析度下的平均」應有的意思。兩條性質合起來，逼使 Y 在 G 能分辨的最細片塊上取固定值，而那個常數等於 X 在該處的平均——只要塊存在，就還原出塊狀圖像，而在塊不存在的情形下，也優雅地一併涵蓋。

為什麼它存在：投影論證

寫下兩條性質是一回事；知道真有一個滿足它們的隨機變數、而且唯一，又是另一回事。最乾淨的存在性證明——至少對變異數有限的變數而言——來自幾何。把所有變異數有限的隨機變數想成一個空間裡的向量，在那裡 X 的「長度平方」是 E[X^2]，而 X 與 Y 的內積是 E[XY]。這是一個貨真價實的希爾伯特空間，而所有對 G 可測的變數構成其中一個閉子空間：也就是「你光憑 G 就能知道之事物」的子空間。

在任何這樣的空間裡，每個向量在一個閉子空間裡都有唯一一個最近的點——它的正交投影。條件期望 E[X given G] 正是 X 投影到「對 G 可測的變數」這個子空間上。從幾何上看，它是 X 投在「G 能看見的世界」上的影子：與 X 最接近的那個 G 可測變數。誤差 X - E[X given G] 與整個子空間正交，意思是對每個 G 可測的 Z 都有 E[ (X - E[X given G]) * Z ] = 0。取 Z = 1_A，你就恰好還原出部分平均性質——所以幾何定義與兩性質定義，是同一個陳述從兩個角度看到的樣子。

兩條誠實的提醒。那個漂亮的投影證明需要 X 有有限變異數，才能讓它住在 L^2 空間裡；對僅僅可積的 X（平均數有限但變異數可能無限）而言，存在性仍然成立，但靠的是另一個論證，奠基在你於測度論階段見過的拉東-尼科迪姆定理上。而且這個投影是均方意義下的，不是逐點的——E[X given G] 是那個「與 X 的平均平方距離」最小的變數，這直接連到本階段第 4 篇指南裡的「最佳預測子」故事。眼下的收穫只是：這個對象存在、在機率為零之差異下唯一，而且從幾何上看，它是 X 最近的那個 G 可測影子。

一個小小的算例

數字能讓抽象落地。擲一顆公正的骰子，於是 X 是點數，在 {1, 2, 3, 4, 5, 6} 上均勻，E[X] = 3.5。令 G 為「結果是偶數還是奇數？」這份資訊——一個只有兩個實質塊的小 sigma 代數：奇數 {1, 3, 5} 與偶數 {2, 4, 6}。要建造 E[X given G]，我們在每一塊內部平均 X。在奇數上，(1 + 3 + 5)/3 = 3；在偶數上，(2 + 4 + 6)/3 = 4。所以 E[X given G] 是這樣一個隨機變數：擲出奇數時等於 3，擲出偶數時等於 4。

檢查可測性：取 3 還是 4，只取決於奇偶性，而這正是 G 裡的資訊。通過。
在 A = 奇數上檢查部分平均：Y 在奇數上的平均是 3，X 在奇數上的平均是 (1+3+5)/3 = 3。對齊。
在 A = 偶數上檢查部分平均：Y 的平均是 4，X 的平均是 (2+4+6)/3 = 4。對齊。
檢查整體平均：E[Y] = (1/2)(3) + (1/2)(4) = 3.5 = E[X]。磨平保住了整體平均，理所當然。

注意分散程度發生了什麼。X 跨越六個值；E[X given G] 只取兩個，3 與 4，緊緊貼近中心 3.5。這是普遍現象：磨成較低解析度只會縮小變異數，絕不會放大——Var(E[X given G]) <= Var(X)。消失的那部分變異數，正是 G 再也看不見的「塊內散布」，而追蹤這塊失落的部分，就是第 5 篇指南中條件變異數的主題。這也乾淨地展示了 E[X given G] 作為條件變數之函數的樣子，亦即 G 由單一變數 Y（這裡是奇偶性）生成時的特例 E[X given Y]。

陷阱，以及接下來

有幾個誤解幾乎絆倒每個人。第一個、也是最響亮的：E[X given G] 是一個隨機變數，不是一個數——只有 E[X] 以及對固定事件 A 的 E[X given A] 才是數。一旦你以整個 sigma 代數（或整個變數）為條件，答案就是結果的一個函數。第二，別把「對 G 可測」與「與 G 獨立」搞混。如果 X 本身就對 G 可測（G 已經知道 X），那麼 E[X given G] = X——沒有任何東西還需要被平均掉。在另一端，如果 X 與 G 獨立，那麼以它為條件什麼也告訴不了你，E[X given G] = E[X]，一個常數。多數變數落在中間，而這兩個端點就是合理性的定錨。

第三，當心別把部分平均性質讀成「Y 在 A 上等於 X」。它說的是在 A 上的積分對齊，而非逐點的值；E[X given G] 在幾乎每個個別結果上通常都與 X 不同，只在 G 集合上的累積總量上一致。第四，別指望光憑 G 的標籤、不知道 X 的分配就能算出 E[X given G]——標籤告訴你身在哪一塊，但你仍需要 X 在每塊內部的平均，才能填進那些值。

把這個對象牢牢定義好之後，本階段其餘部分就是要學會流暢地運用它。第 3 篇發展兩條主力規則——塔性質（對「細磨之後再粗磨」取平均，就只得到那個粗磨）以及「取出已知者」（任何 G 已經看得見的因子都可以拉到條件期望之外）。第 4 篇把投影圖像兌現，證明 E[X given G] 字面上就是從 G 出發對 X 的最佳均方預測子；第 5 篇則以條件變異數量度殘留的散布。下游的一切，都奠基在你剛剛拆解過的這個唯一定義上：那個唯一的、對 G 可測、且在 G 所能分辨的每個集合上都與 X 平均對齊的變數。