JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

塔性質與「把已知的提出來」

兩條主力規則,把條件期望從一個定義變成一台計算機器:塔性質把層層巢狀的條件化收攏成一個乾淨的期望,而「把已知的提出來」則把你已經知道的任何東西當成常數對待。我們會看清每一條為何成立、把它們想成投影,並用很小的數字實際操作一遍。

我們走到哪了:把條件期望當作隨機變數

在前一篇指南裡,我們把條件期望從一個數字升格成一個隨機變數。給定一個編碼了「你手上有什麼資訊」的 σ-代數 G,E[X given G] 本身就是一個隨機變數:它是 G-可測的(你光靠 G 裡的資訊就能把它算出來),而且它具有平均性質——在 G 裡的每一個事件上,E[X given G] 積分起來的總量都跟 X 一樣。這兩個條款就是它的全部定義——本指南裡的一切,都是從這兩條擠出來的。

請從頭到尾記住一幅具體的畫面。設 X 是一個人的身高,G 是「他住在哪個國家」這項資訊。那麼 E[X given G] 就是這樣一個隨機變數:對每一個人,它回傳他所在國家的平均身高。它在每個國家內部是常數(這正是這裡 G-可測的意思——它只能依賴於國家),而且在每個國家內部,它平均起來會吻合真實身高。底下這兩條規則,塔性質把已知的提出來,不過就是你能對這種「國家平均」變數做的兩件最有用的事。

塔性質:對平均再取平均

塔性質說的是:如果你先取條件平均,再對它取一次平均,你就會把原本的平均拿回來:E[ E[X given G] ] = E[X]。在身高這幅畫面裡,這幾乎是顯然的。把每個國家的平均身高,依各國人口加權平均起來,你就還原出整體的平均身高。繞道經過「國家」並沒有創造或銷毀任何資訊——對各國平均再取平均,只是把整個母體重新拼回去而已。這個特例——你把 E[X given G] 一路平均成一個數字——正是你在前一個階段認識的全期望定律,只是現在改用 σ-代數而非分割來陳述。

塔性質的完整威力,要在你有兩層巢狀資訊時才會展現。假設 H 比 G 粗——H 知道得比較少,比方說只知道「哪一洲」,而 G 知道「哪一國」。那麼塔性質寫成 E[ E[X given G] given H ] = E[X given H]。它的口號是粗的那一個獲勝:把一個細的平均,再對較粗的資訊取條件,會直接塌縮成那個粗的平均。把每一洲之內的各國平均再平均,你拿到的就只是該洲的平均。中間那道較細的步驟,沒有留下任何痕跡。

Heights X, H = continent (coarse), G = country (fine):

  X (person)   country avg = E[X|G]   continent
  --------------------------------------------------
  Ann   172      Japan  168            Asia
  Bo    164      Japan  168            Asia
  Cy    180      Spain  180            Europe

  E[X|H = Asia]   = (172+164)/2 = 168     <- direct
  E[E[X|G]|H=Asia]= (168+168)/2 = 168     <- via country avgs
  same number: the coarser sigma-algebra (continent) wins.
把細的各國平均在一洲之內再平均,會直接重現該洲的平均。中間那道(較細的)步驟消失了。

把已知的提出來

第二條主力規則是把已知的提出來,有時也叫「把可測因子拉出來」。如果一個隨機變數 Y 已經被 G 裡的資訊所決定——也就是 Y 是 G-可測的——那麼在「給定 G」的條件期望裡,Y 的表現就完全像一個常數:E[ Y * X given G ] = Y * E[X given G]。直覺很清楚。一旦 G 已知,Y 就完全不再是隨機的了;你已經知道它的值,所以它會像常數 7 從普通期望裡滑出來那樣滑出去,正如 E[7X] = 7 E[X]。

回到身高。假設 Y 是「你所在國家的平均所得」——也是一個國家層級的量,因此是 G-可測的。要算 E[ Y * X given G ],也就是國家內部「所得乘身高」的條件平均,你不需要再對 Y 取一次平均,因為在單一國家之內 Y 就是一個固定的數字。你只要把那個固定的 Y,乘上該國的平均身高 E[X given G] 就好。知道了國家,就把 Y 完全釘死,所以它對平均化毫無影響。一個 G-可測的因子,對條件平均而言是「死重」;它就掛在外面一起走。

獨立的資訊什麼都沒加

有一條夥伴規則把整幅圖補完。「把已知的提出來」說 G-可測的變數會變成常數。它的鏡像陳述——對獨立資訊取條件——則說:如果 X 與 G 獨立,那麼知道 G 完全不會告訴你關於 X 的任何事,所以 E[X given G] = E[X],也就是那個普通的無條件平均。知道某人住在哪一國,只有在身高與國家相關時,才會改變你對其身高的猜測;如果兩者真的毫不相關,各國平均處處相同,且都等於全球平均。

這裡要小心,因為經典陷阱就埋在這裡。是「獨立」讓條件期望塌縮成無條件平均——而獨立嚴格強於「僅僅不相關」。兩個變數可以零相關,卻仍然彼此相依,這時即便 Cov(X, Y) = 0,E[X given G] 仍會真實地隨 G 變動。所以你不可以只因為 X 與生成 G 的那個變數不相關,就抄捷徑寫 E[X given G] = E[X];你需要的是真正的獨立。反過來,獨立的變數一定不相關,所以這個蘊含只朝一個方向走。

幾何觀:投影到你所知的世界

一旦你把這一切放進 L^2 空間——也就是「二階動差有限」的隨機變數所構成的世界,其中 X 的「長度」是 E[X^2] 的平方根,X 與 Y 之間的「角度」由 E[XY] 主導——所有東西就會扣合成單一幅畫面。在這個幾何裡,[[conditional-expectation-as-l2-projection|E[X given G] 是 X 對所有 G-可測變數所成子空間的正交投影]]——也就是離 X 最近的那個 G-可測變數。這正是它之所以是最佳預測的深層理由,下一篇指南會完整鋪陳:投影就是垂足,是「你能夠知道的一切」這片平面上離 X 最近的那一點。

從這一幅單一影像,兩條主力規則都化為幾何而自然落下。塔性質是「重複投影」:先投影到細的子空間,再投影到它內部那個較粗的子空間,等同於直接投影到粗的子空間——而粗的那個獲勝,因為它是最後的落腳處。「把已知的提出來」則是投影在「已經躺在子空間裡的方向」上的線性:一個 G-可測的因子是一個本來就在平面內的向量,所以它只是縮放投影,而不會被投影所彎折。誤差 X 減 E[X given G] 與 G 裡的一切正交——這個正交性,就是平均性質穿上幾何的衣服。

關於適用範圍,要誠實地提一個警告。這幅俐落的投影畫面活在 L^2 裡,需要 X 有有限的二階動差,E[X^2] < 無窮。條件期望本身更一般——只要 E[|X|] < 無窮就有定義,並不要求二階動差——而塔性質與「提出來」這兩條規則在那個更寬的 L^1 世界裡同樣成立。所以幾何是看清這些規則的最美方式,也是值得隨身攜帶的正確直覺,但它是一個特例,不是定義。這些規則為真的範圍,比解釋它們的那幅畫面還要寬。

讓規則上工

看這些規則在一個小問題上聯手。你擲一顆公正的骰子,令 N 為點數,然後丟 N 枚公正的硬幣,令 X 為正面的數目。我們想求 E[X]。對 N 取條件很自然,因為 N 一旦固定,X 就只是 Binomial(N, 1/2),其平均為 N/2。所以 E[X given N] = N/2——這裡 N 是資訊,而 N/2 是 G-可測的,一個乾淨的條件平均。現在塔性質一筆收尾:E[X] = E[ E[X given N] ] = E[N/2] = (1/2) E[N] = (1/2)(3.5) = 1.75。

  1. 選擇要取條件的資訊,讓內層問題變簡單。這裡對骰子 N 取條件,X 就變成單純的二項分配。
  2. 算出內層的條件期望 E[X given N] = N/2,它是已知量 N 的函數——這就是「提出來」/可測性那一步。
  3. 套用塔性質:對 N 平均掉內層的答案。E[N/2] = (1/2)E[N],其中常數 1/2 因線性而被提出來。
  4. 代入 E[N] = 3.5,得到 E[X] = 1.75——兩條條件化規則加一個已知的平均,不必對「骰子與硬幣」所有結果做雜亂的雙重加總。

兩條收尾的線索指向前方。第一,這些規則是跳動的心臟——鞅是一種隨機過程,它「在今天已知的一切之下,對明天取的條件期望」等於今天的值;塔性質正是讓「公平賭局」能跨時間保持一致的東西,在後面的階段你會不斷倚賴它。第二,條件期望透過條件詹森不等式尊重凸函數:對凸的 g,E[g(X) given G] >= g(E[X given G]),它是普通詹森不等式的條件版雙胞胎。這個不等式,配上「把已知的提出來」,正是接下來幾篇指南所需的工具——用來證明 E[X given G] 是最佳均方預測,並撬開條件變異數。