JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

給定一個 sigma 代數下的條件期望

條件期望的成熟版定義:它不是一個數,而是一個隨機變數,由兩條乾淨的規則釘死,並以投影的身分保證存在。我們會拆解 E[X given G] 究竟是什麼、為何它是在你能分辨的每個集合上都與 X 對齊的平均,以及為何 L^2 的圖像讓它成為 X 最近的影子。

從一個數,變成一個隨機變數

在前一篇指南中,你看到了「以整個 sigma 代數 G 為條件」意味著以一整體的資訊為條件,而非以單一事件為條件。現在我們要把這份直覺變成一個精確的對象。第一個必須完成的心態轉換——也正是本篇的全部重點——是:給定一個 sigma 代數下的條件期望,記為 E[X given G],並不是一個數。它是一個隨機變數:定義在同一個樣本空間上的新函數,其值取決於發生了哪個結果。單純的 E[X] 把 X 壓成一個數;E[X given G] 卻保留下一個函數,一個被磨平到 G 所能看見之解析度的函數。

想像樣本空間被 G 所含的資訊切成許多塊。在每一塊內部,G 無法分辨這些結果——就 G 而言它們是不可區分的。於是 E[X given G] 被迫在每一塊上取固定值,而它在那塊上所取的常數,正是 X 在那塊上的普通平均。如果你的資訊粗到極點(G = {空集合, 整個空間}),那就只有一塊,這塊上的平均就只是 E[X]:條件期望退回成普通的平均數。如果你的資訊完整無缺(G = 一切),那每個結果各自成一塊,於是 E[X given G] = X 恰好相等。每個誠實的 G 都落在這兩端之間,給出一張在某個選定銳利度下、X 的模糊肖像。

兩條定義性質

塊狀的圖像是正確的直覺,但對於一般(可能是連續)的 sigma 代數而言,「塊」這個詞太粗糙了,因為條件資訊也許根本不會把空間切成整齊的團塊。現代的定義以一對乾淨的要求取代了塊。我們稱 Y = E[X given G] 為條件期望,若 Y 同時滿足兩條定義性質:(1) Y 對 G 可測,以及 (2) 對每個住在 G 裡的事件 A,Y 在 A 上的平均等於 X 在 A 上的平均。性質 (2) 就是部分平均性質,它是這一切的引擎。

Y = E[X | G]  is THE conditional expectation iff:

  (1) Measurability:   Y is G-measurable
                       (Y depends only on the information in G)

  (2) Partial averaging:   for every A in G,
         E[ Y * 1_A ]  =  E[ X * 1_A ]
      i.e.  integral of Y over A  =  integral of X over A

  Special case A = whole space:   E[Y] = E[X]
唯一釘死 E[X given G] 的兩個條件(在機率為零的事件上可差異)。

慢慢讀性質 (2),因為它抓住了整個觀念:「在你被允許詢問的每個集合上,Y 帶有與 X 相同的總量」。你也許無法從 G 逐一還原出 X,但你可以要求 Y 在每個可分辨的區域上對齊 X 的累積值。這正是「X 在此解析度下的平均」應有的意思。兩條性質合起來,逼使 Y 在 G 能分辨的最細片塊上取固定值,而那個常數等於 X 在該處的平均——只要塊存在,就還原出塊狀圖像,而在塊不存在的情形下,也優雅地一併涵蓋。

為什麼它存在:投影論證

寫下兩條性質是一回事;知道真有一個滿足它們的隨機變數、而且唯一,又是另一回事。最乾淨的存在性證明——至少對變異數有限的變數而言——來自幾何。把所有變異數有限的隨機變數想成一個空間裡的向量,在那裡 X 的「長度平方」是 E[X^2],而 X 與 Y 的內積是 E[XY]。這是一個貨真價實的希爾伯特空間,而所有對 G 可測的變數構成其中一個閉子空間:也就是「你光憑 G 就能知道之事物」的子空間。

在任何這樣的空間裡,每個向量在一個閉子空間裡都有唯一一個最近的點——它的正交投影。條件期望 E[X given G] 正是 X 投影到「對 G 可測的變數」這個子空間上。從幾何上看,它是 X 投在「G 能看見的世界」上的影子:與 X 最接近的那個 G 可測變數。誤差 X - E[X given G] 與整個子空間正交,意思是對每個 G 可測的 Z 都有 E[ (X - E[X given G]) * Z ] = 0。取 Z = 1_A,你就恰好還原出部分平均性質——所以幾何定義與兩性質定義,是同一個陳述從兩個角度看到的樣子。

兩條誠實的提醒。那個漂亮的投影證明需要 X 有有限變異數,才能讓它住在 L^2 空間裡;對僅僅可積的 X(平均數有限但變異數可能無限)而言,存在性仍然成立,但靠的是另一個論證,奠基在你於測度論階段見過的拉東-尼科迪姆定理上。而且這個投影是均方意義下的,不是逐點的——E[X given G] 是那個「與 X 的平均平方距離」最小的變數,這直接連到本階段第 4 篇指南裡的「最佳預測子」故事。眼下的收穫只是:這個對象存在、在機率為零之差異下唯一,而且從幾何上看,它是 X 最近的那個 G 可測影子。

一個小小的算例

數字能讓抽象落地。擲一顆公正的骰子,於是 X 是點數,在 {1, 2, 3, 4, 5, 6} 上均勻,E[X] = 3.5。令 G 為「結果是偶數還是奇數?」這份資訊——一個只有兩個實質塊的小 sigma 代數:奇數 {1, 3, 5} 與偶數 {2, 4, 6}。要建造 E[X given G],我們在每一塊內部平均 X。在奇數上,(1 + 3 + 5)/3 = 3;在偶數上,(2 + 4 + 6)/3 = 4。所以 E[X given G] 是這樣一個隨機變數:擲出奇數時等於 3,擲出偶數時等於 4。

  1. 檢查可測性:取 3 還是 4,只取決於奇偶性,而這正是 G 裡的資訊。通過。
  2. 在 A = 奇數上檢查部分平均:Y 在奇數上的平均是 3,X 在奇數上的平均是 (1+3+5)/3 = 3。對齊。
  3. 在 A = 偶數上檢查部分平均:Y 的平均是 4,X 的平均是 (2+4+6)/3 = 4。對齊。
  4. 檢查整體平均:E[Y] = (1/2)(3) + (1/2)(4) = 3.5 = E[X]。磨平保住了整體平均,理所當然。

注意分散程度發生了什麼。X 跨越六個值;E[X given G] 只取兩個,3 與 4,緊緊貼近中心 3.5。這是普遍現象:磨成較低解析度只會縮小變異數,絕不會放大——Var(E[X given G]) <= Var(X)。消失的那部分變異數,正是 G 再也看不見的「塊內散布」,而追蹤這塊失落的部分,就是第 5 篇指南中條件變異數的主題。這也乾淨地展示了 E[X given G] 作為條件變數之函數的樣子,亦即 G 由單一變數 Y(這裡是奇偶性)生成時的特例 E[X given Y]。

陷阱,以及接下來

有幾個誤解幾乎絆倒每個人。第一個、也是最響亮的:E[X given G] 是一個隨機變數,不是一個數——只有 E[X] 以及對固定事件 A 的 E[X given A] 才是數。一旦你以整個 sigma 代數(或整個變數)為條件,答案就是結果的一個函數。第二,別把「對 G 可測」與「與 G 獨立」搞混。如果 X 本身就對 G 可測(G 已經知道 X),那麼 E[X given G] = X——沒有任何東西還需要被平均掉。在另一端,如果 X 與 G 獨立,那麼以它為條件什麼也告訴不了你,E[X given G] = E[X],一個常數。多數變數落在中間,而這兩個端點就是合理性的定錨。

第三,當心別把部分平均性質讀成「Y 在 A 上等於 X」。它說的是在 A 上的積分對齊,而非逐點的值;E[X given G] 在幾乎每個個別結果上通常都與 X 不同,只在 G 集合上的累積總量上一致。第四,別指望光憑 G 的標籤、不知道 X 的分配就能算出 E[X given G]——標籤告訴你身在哪一塊,但你仍需要 X 在每塊內部的平均,才能填進那些值。

把這個對象牢牢定義好之後,本階段其餘部分就是要學會流暢地運用它。第 3 篇發展兩條主力規則——塔性質(對「細磨之後再粗磨」取平均,就只得到那個粗磨)以及「取出已知者」(任何 G 已經看得見的因子都可以拉到條件期望之外)。第 4 篇把投影圖像兌現,證明 E[X given G] 字面上就是從 G 出發對 X 的最佳均方預測子;第 5 篇則以條件變異數量度殘留的散布。下游的一切,都奠基在你剛剛拆解過的這個唯一定義上:那個唯一的、對 G 可測、且在 G 所能分辨的每個集合上都與 X 平均對齊的變數。