條件變異數與分解恆等式

從最佳猜測到剩下的散布

上一篇你學到 E[X given G] 是由資訊 G 所建出的 X 最佳預測——在最小平方意義下最貼近 X 的那個資料函數。最佳猜測自然引出下一個問題：它有多好？當你定下那個猜測後，X 還有多少是無法預測的？那個剩餘、那份殘留的擺動，正是條件變異數所度量的。它是條件期望的搭檔：一個說「給定資訊後 X 傾向落在哪」，另一個說「X 在那附近還散得多開」。

定義是你能想到最自然的東西：拿普通公式 [[prob-variance|Var(X) = E[X^2] - (E[X])^2]]，把眼前每個期望值都加上「given G」。於是 Var(X given G) 定義為 E[(X - E[X given G])^2 given G]，也就是「X 到其條件平均之距離的平方」的條件期望。等價地，用計算捷徑，Var(X given G) = E[X^2 given G] - (E[X given G])^2。和它的母體一樣，這個物件是隨機變數，不是數字——它會隨你收到的資訊改變而改變。

一個小小的計算例子

沿用前幾篇的骰子：擲一顆公正骰子，令 X 為點數，Y 在奇數時為 0、偶數時為 1。我們已算出 E[X given Y] 在奇數時為 3、偶數時為 4。現在計算每個區塊裡的散布。在奇數區塊 {1, 3, 5}，各值與其平均 3 的距離為 -2、0、+2，所以區塊內變異數是 (4 + 0 + 4) / 3 = 8/3。偶數區塊 {2, 4, 6} 環繞平均 4，形狀相同，同樣是 8/3。所以這裡 Var(X given Y) 在兩個區塊裡恰好都等於 8/3——不論你被告知身在哪一半，散布都一樣。

現在把這兩塊並排來看。條件平均 E[X given Y] 本身是個隨機變數，取 3 與 4、各機率 1/2——所以它有自己的散布：平均是 3.5、變異數是 (0.5)^2 取平均 = 0.25。同時，條件變異數 Var(X given Y) 在這裡是常數 8/3，所以它的平均就是 8/3。把「剩下散布的平均」加上「猜測的散布」：8/3 + 1/4 = 32/12 + 3/12 = 35/12。而公正骰子點數的普通變異數恰好就是 35/12。這不是巧合——這就是整篇要講的那條恆等式。

Die: X = roll, Y = 0 if odd / 1 if even

  Within-block means     E[X|Y]:   3 (odd),   4 (even)
  Within-block variances Var(X|Y):  8/3 (odd), 8/3 (even)

  E[ Var(X|Y) ]  = 8/3 * 1/2 + 8/3 * 1/2 = 8/3      (avg leftover spread)
  Var( E[X|Y] )  = (3-3.5)^2 *1/2 + (4-3.5)^2 *1/2 = 1/4   (spread of guesses)

  Sum = 8/3 + 1/4 = 35/12 = Var(X)    (law of total variance)

剩餘散布的平均，加上條件平均的散布，等於總變異數。

分解恆等式

例子裡的那個型態其實是一條定理，叫全變異數定律，有時稱為變異數分解或 Eve 定律。它說 Var(X) = E[Var(X given G)] + Var(E[X given G])。用白話講：X 的總變動量乾淨地拆成兩塊非負的量——「殘留在各區塊內、未被解釋的變動」之平均，加上「區塊與區塊之間預測本身」的變動。沒有重複計算、也沒有外漏；這本帳永遠平。

證明很短，而且完全靠你已握有的工具。從 Var(X) = E[X^2] - (E[X])^2 出發。對第一項，用塔性質剝開一層：E[X^2] = E[E[X^2 given G]]。在內層，寫 E[X^2 given G] = Var(X given G) + (E[X given G])^2，這是計算公式的條件版本。所以 E[X^2] = E[Var(X given G)] + E[(E[X given G])^2]。對第二項，全期望定律給出 E[X] = E[E[X given G]]，所以 (E[X])^2 = (E[E[X given G]])^2。相減：兩個平方項合併成 E[(E[X given G])^2] - (E[E[X given G]])^2，這恰是 Var(E[X given G])。剩下的就是 E[Var(X given G)]。證畢。

寫下 Var(X) = E[X^2] - (E[X])^2，也就是普通的計算公式。
對第一項用塔性質：E[X^2] = E[E[X^2 given G]]，再把內層展開為 E[X^2 given G] = Var(X given G) + (E[X given G])^2。
對平均用塔性質：E[X] = E[E[X given G]]，於是被減的平方是 (E[E[X given G]])^2。
把 (E[X given G])^2 那些項收進 Var(E[X given G])，便讀出 Var(X) = E[Var(X given G)] + Var(E[X given G])。

隨機變數空間裡的畢氏定理

上一篇證明了 E[X given G] 是 X 對「你能用 G 建出的隨機變數」所做的正交 L^2 投影。把平方可積的隨機變數想成向量，內積為 E[XY]、長度平方為 E[X^2]。把 X 投影到「G 可測變數」這個子空間，會把 X 拆成兩塊互相垂直的部分：影子 E[X given G]，住在子空間裡；以及殘差 X - E[X given G]，與子空間正交。這裡的正交不是比喻——殘差與該資訊能產生的每一個變數都不相關。

如今全變異數定律不過是這個直角三角形的畢氏定理。把一切以平均為中心：總散布 Var(X) 是「X 減其平均」的長度平方；一條直角邊 Var(E[X given G]) 是投影影子的長度平方（猜測散得多開）；另一條直角邊 E[Var(X given G)] 是殘差的長度平方（無法解釋的擺動）。因為兩條直角邊互相垂直，它們的長度平方相加等於斜邊——恰好就是 Var(X) = Var(E[X given G]) + E[Var(X given G)]。證明裡枯燥的代數，和這幅乾淨的圖，是同一個事實穿了兩套衣服。

解讀兩塊，與誠實的提醒

這個分解之所以真的有用，是因為兩項都有白話意義。E[Var(X given G)] 是未被解釋的、或組內變異數——即便你用盡資訊仍存活下來的散布；它是你最佳預測的不可化約噪聲。Var(E[X given G]) 是被解釋的、或組間變異數——也就是「條件平均隨資訊改變而移動」這件事，捕捉到 X 散布的多少。它們的比值 Var(E[X given G]) / Var(X) 就是被解釋變異數的比例——正是迴歸裡 R 平方、以及變異數分析裡 F 檢定背後的同一個想法。

用這條恆等式去算那些正面硬幹會很痛苦的變異數。設母雞下蛋數 N 服從平均為 lambda 的卜瓦松分配，每顆蛋以機率 p 獨立孵化，得到 X 隻小雞。給定 N = n 時，X 服從二項分配，所以 E[X given N] = pN、Var(X given N) = N p (1 - p)。於是 E[Var(X given N)] = p(1-p) E[N] = p(1-p) lambda，而 Var(E[X given N]) = Var(pN) = p^2 lambda。相加：Var(X) = p(1-p) lambda + p^2 lambda = p lambda。這套兩階段的記帳，用三行就做完了「正面硬攻複合分配」要費盡力氣的事。

幾個誠實的查核。整座建築需要 X 平方可積，也就是 E[X^2] 有限——對像柯西這類重尾分配，變異數根本沒有定義，這一切都不適用，正如中央極限定理本身在那裡也失效。也要把兩塊分清：組內變異數小，本身並不代表取條件有資訊量；被解釋變異數小，也不代表 X 幾乎是常數；你必須同時看兩條腿與它們的比值。最後，別把「被解釋」讀成「被造成」——這個分解純粹是變異數的代數，而且一如往常，相關性與被解釋變異數都不是因果。那份資訊也許只是某個真正在起作用之物的代理標記罷了。