塔性質與「把已知的提出來」

我們走到哪了：把條件期望當作隨機變數

在前一篇指南裡，我們把條件期望從一個數字升格成一個隨機變數。給定一個編碼了「你手上有什麼資訊」的 σ-代數 G，E[X given G] 本身就是一個隨機變數：它是 G-可測的（你光靠 G 裡的資訊就能把它算出來），而且它具有平均性質——在 G 裡的每一個事件上，E[X given G] 積分起來的總量都跟 X 一樣。這兩個條款就是它的全部定義——本指南裡的一切，都是從這兩條擠出來的。

請從頭到尾記住一幅具體的畫面。設 X 是一個人的身高，G 是「他住在哪個國家」這項資訊。那麼 E[X given G] 就是這樣一個隨機變數：對每一個人，它回傳他所在國家的平均身高。它在每個國家內部是常數（這正是這裡 G-可測的意思——它只能依賴於國家），而且在每個國家內部，它平均起來會吻合真實身高。底下這兩條規則，塔性質和把已知的提出來，不過就是你能對這種「國家平均」變數做的兩件最有用的事。

塔性質：對平均再取平均

塔性質說的是：如果你先取條件平均，再對它取一次平均，你就會把原本的平均拿回來：E[ E[X given G] ] = E[X]。在身高這幅畫面裡，這幾乎是顯然的。把每個國家的平均身高，依各國人口加權平均起來，你就還原出整體的平均身高。繞道經過「國家」並沒有創造或銷毀任何資訊——對各國平均再取平均，只是把整個母體重新拼回去而已。這個特例——你把 E[X given G] 一路平均成一個數字——正是你在前一個階段認識的全期望定律，只是現在改用 σ-代數而非分割來陳述。

塔性質的完整威力，要在你有兩層巢狀資訊時才會展現。假設 H 比 G 粗——H 知道得比較少，比方說只知道「哪一洲」，而 G 知道「哪一國」。那麼塔性質寫成 E[ E[X given G] given H ] = E[X given H]。它的口號是粗的那一個獲勝：把一個細的平均，再對較粗的資訊取條件，會直接塌縮成那個粗的平均。把每一洲之內的各國平均再平均，你拿到的就只是該洲的平均。中間那道較細的步驟，沒有留下任何痕跡。

Heights X, H = continent (coarse), G = country (fine):

  X (person)   country avg = E[X|G]   continent
  --------------------------------------------------
  Ann   172      Japan  168            Asia
  Bo    164      Japan  168            Asia
  Cy    180      Spain  180            Europe

  E[X|H = Asia]   = (172+164)/2 = 168     <- direct
  E[E[X|G]|H=Asia]= (168+168)/2 = 168     <- via country avgs
  same number: the coarser sigma-algebra (continent) wins.

把細的各國平均在一洲之內再平均，會直接重現該洲的平均。中間那道（較細的）步驟消失了。

把已知的提出來

第二條主力規則是把已知的提出來，有時也叫「把可測因子拉出來」。如果一個隨機變數 Y 已經被 G 裡的資訊所決定——也就是 Y 是 G-可測的——那麼在「給定 G」的條件期望裡，Y 的表現就完全像一個常數：E[ Y * X given G ] = Y * E[X given G]。直覺很清楚。一旦 G 已知，Y 就完全不再是隨機的了；你已經知道它的值，所以它會像常數 7 從普通期望裡滑出來那樣滑出去，正如 E[7X] = 7 E[X]。

回到身高。假設 Y 是「你所在國家的平均所得」——也是一個國家層級的量，因此是 G-可測的。要算 E[ Y * X given G ]，也就是國家內部「所得乘身高」的條件平均，你不需要再對 Y 取一次平均，因為在單一國家之內 Y 就是一個固定的數字。你只要把那個固定的 Y，乘上該國的平均身高 E[X given G] 就好。知道了國家，就把 Y 完全釘死，所以它對平均化毫無影響。一個 G-可測的因子，對條件平均而言是「死重」；它就掛在外面一起走。

獨立的資訊什麼都沒加

有一條夥伴規則把整幅圖補完。「把已知的提出來」說 G-可測的變數會變成常數。它的鏡像陳述——對獨立資訊取條件——則說：如果 X 與 G 獨立，那麼知道 G 完全不會告訴你關於 X 的任何事，所以 E[X given G] = E[X]，也就是那個普通的無條件平均。知道某人住在哪一國，只有在身高與國家相關時，才會改變你對其身高的猜測；如果兩者真的毫不相關，各國平均處處相同，且都等於全球平均。

這裡要小心，因為經典陷阱就埋在這裡。是「獨立」讓條件期望塌縮成無條件平均——而獨立嚴格強於「僅僅不相關」。兩個變數可以零相關，卻仍然彼此相依，這時即便 Cov(X, Y) = 0，E[X given G] 仍會真實地隨 G 變動。所以你不可以只因為 X 與生成 G 的那個變數不相關，就抄捷徑寫 E[X given G] = E[X]；你需要的是真正的獨立。反過來，獨立的變數一定不相關，所以這個蘊含只朝一個方向走。

幾何觀：投影到你所知的世界

一旦你把這一切放進 L^2 空間——也就是「二階動差有限」的隨機變數所構成的世界，其中 X 的「長度」是 E[X^2] 的平方根，X 與 Y 之間的「角度」由 E[XY] 主導——所有東西就會扣合成單一幅畫面。在這個幾何裡，[[conditional-expectation-as-l2-projection|E[X given G] 是 X 對所有 G-可測變數所成子空間的正交投影]]——也就是離 X 最近的那個 G-可測變數。這正是它之所以是最佳預測的深層理由，下一篇指南會完整鋪陳：投影就是垂足，是「你能夠知道的一切」這片平面上離 X 最近的那一點。

從這一幅單一影像，兩條主力規則都化為幾何而自然落下。塔性質是「重複投影」：先投影到細的子空間，再投影到它內部那個較粗的子空間，等同於直接投影到粗的子空間——而粗的那個獲勝，因為它是最後的落腳處。「把已知的提出來」則是投影在「已經躺在子空間裡的方向」上的線性：一個 G-可測的因子是一個本來就在平面內的向量，所以它只是縮放投影，而不會被投影所彎折。誤差 X 減 E[X given G] 與 G 裡的一切正交——這個正交性，就是平均性質穿上幾何的衣服。

關於適用範圍，要誠實地提一個警告。這幅俐落的投影畫面活在 L^2 裡，需要 X 有有限的二階動差，E[X^2] < 無窮。條件期望本身更一般——只要 E[|X|] < 無窮就有定義，並不要求二階動差——而塔性質與「提出來」這兩條規則在那個更寬的 L^1 世界裡同樣成立。所以幾何是看清這些規則的最美方式，也是值得隨身攜帶的正確直覺，但它是一個特例，不是定義。這些規則為真的範圍，比解釋它們的那幅畫面還要寬。

讓規則上工

看這些規則在一個小問題上聯手。你擲一顆公正的骰子，令 N 為點數，然後丟 N 枚公正的硬幣，令 X 為正面的數目。我們想求 E[X]。對 N 取條件很自然，因為 N 一旦固定，X 就只是 Binomial(N, 1/2)，其平均為 N/2。所以 E[X given N] = N/2——這裡 N 是資訊，而 N/2 是 G-可測的，一個乾淨的條件平均。現在塔性質一筆收尾：E[X] = E[ E[X given N] ] = E[N/2] = (1/2) E[N] = (1/2)(3.5) = 1.75。

選擇要取條件的資訊，讓內層問題變簡單。這裡對骰子 N 取條件，X 就變成單純的二項分配。
算出內層的條件期望 E[X given N] = N/2，它是已知量 N 的函數——這就是「提出來」／可測性那一步。
套用塔性質：對 N 平均掉內層的答案。E[N/2] = (1/2)E[N]，其中常數 1/2 因線性而被提出來。
代入 E[N] = 3.5，得到 E[X] = 1.75——兩條條件化規則加一個已知的平均，不必對「骰子與硬幣」所有結果做雜亂的雙重加總。

兩條收尾的線索指向前方。第一，這些規則是鞅跳動的心臟——鞅是一種隨機過程，它「在今天已知的一切之下，對明天取的條件期望」等於今天的值；塔性質正是讓「公平賭局」能跨時間保持一致的東西，在後面的階段你會不斷倚賴它。第二，條件期望透過條件詹森不等式尊重凸函數：對凸的 g，E[g(X) given G] >= g(E[X given G])，它是普通詹森不等式的條件版雙胞胎。這個不等式，配上「把已知的提出來」，正是接下來幾篇指南所需的工具——用來證明 E[X given G] 是最佳均方預測，並撬開條件變異數。