從最佳猜測到剩下的散布
上一篇你學到 E[X given G] 是由資訊 G 所建出的 X 最佳預測——在最小平方意義下最貼近 X 的那個資料函數。最佳猜測自然引出下一個問題:它有多好?當你定下那個猜測後,X 還有多少是無法預測的?那個剩餘、那份殘留的擺動,正是條件變異數所度量的。它是條件期望的搭檔:一個說「給定資訊後 X 傾向落在哪」,另一個說「X 在那附近還散得多開」。
定義是你能想到最自然的東西:拿普通公式 [[prob-variance|Var(X) = E[X^2] - (E[X])^2]],把眼前每個期望值都加上「given G」。於是 Var(X given G) 定義為 E[(X - E[X given G])^2 given G],也就是「X 到其條件平均之距離的平方」的條件期望。等價地,用計算捷徑,Var(X given G) = E[X^2 given G] - (E[X given G])^2。和它的母體一樣,這個物件是隨機變數,不是數字——它會隨你收到的資訊改變而改變。
一個小小的計算例子
沿用前幾篇的骰子:擲一顆公正骰子,令 X 為點數,Y 在奇數時為 0、偶數時為 1。我們已算出 E[X given Y] 在奇數時為 3、偶數時為 4。現在計算每個區塊裡的散布。在奇數區塊 {1, 3, 5},各值與其平均 3 的距離為 -2、0、+2,所以區塊內變異數是 (4 + 0 + 4) / 3 = 8/3。偶數區塊 {2, 4, 6} 環繞平均 4,形狀相同,同樣是 8/3。所以這裡 Var(X given Y) 在兩個區塊裡恰好都等於 8/3——不論你被告知身在哪一半,散布都一樣。
現在把這兩塊並排來看。條件平均 E[X given Y] 本身是個隨機變數,取 3 與 4、各機率 1/2——所以它有自己的散布:平均是 3.5、變異數是 (0.5)^2 取平均 = 0.25。同時,條件變異數 Var(X given Y) 在這裡是常數 8/3,所以它的平均就是 8/3。把「剩下散布的平均」加上「猜測的散布」:8/3 + 1/4 = 32/12 + 3/12 = 35/12。而公正骰子點數的普通變異數恰好就是 35/12。這不是巧合——這就是整篇要講的那條恆等式。
Die: X = roll, Y = 0 if odd / 1 if even Within-block means E[X|Y]: 3 (odd), 4 (even) Within-block variances Var(X|Y): 8/3 (odd), 8/3 (even) E[ Var(X|Y) ] = 8/3 * 1/2 + 8/3 * 1/2 = 8/3 (avg leftover spread) Var( E[X|Y] ) = (3-3.5)^2 *1/2 + (4-3.5)^2 *1/2 = 1/4 (spread of guesses) Sum = 8/3 + 1/4 = 35/12 = Var(X) (law of total variance)
分解恆等式
例子裡的那個型態其實是一條定理,叫全變異數定律,有時稱為變異數分解或 Eve 定律。它說 Var(X) = E[Var(X given G)] + Var(E[X given G])。用白話講:X 的總變動量乾淨地拆成兩塊非負的量——「殘留在各區塊內、未被解釋的變動」之平均,加上「區塊與區塊之間預測本身」的變動。沒有重複計算、也沒有外漏;這本帳永遠平。
證明很短,而且完全靠你已握有的工具。從 Var(X) = E[X^2] - (E[X])^2 出發。對第一項,用塔性質剝開一層:E[X^2] = E[E[X^2 given G]]。在內層,寫 E[X^2 given G] = Var(X given G) + (E[X given G])^2,這是計算公式的條件版本。所以 E[X^2] = E[Var(X given G)] + E[(E[X given G])^2]。對第二項,全期望定律給出 E[X] = E[E[X given G]],所以 (E[X])^2 = (E[E[X given G]])^2。相減:兩個平方項合併成 E[(E[X given G])^2] - (E[E[X given G]])^2,這恰是 Var(E[X given G])。剩下的就是 E[Var(X given G)]。證畢。
- 寫下 Var(X) = E[X^2] - (E[X])^2,也就是普通的計算公式。
- 對第一項用塔性質:E[X^2] = E[E[X^2 given G]],再把內層展開為 E[X^2 given G] = Var(X given G) + (E[X given G])^2。
- 對平均用塔性質:E[X] = E[E[X given G]],於是被減的平方是 (E[E[X given G]])^2。
- 把 (E[X given G])^2 那些項收進 Var(E[X given G]),便讀出 Var(X) = E[Var(X given G)] + Var(E[X given G])。
隨機變數空間裡的畢氏定理
上一篇證明了 E[X given G] 是 X 對「你能用 G 建出的隨機變數」所做的正交 L^2 投影。把平方可積的隨機變數想成向量,內積為 E[XY]、長度平方為 E[X^2]。把 X 投影到「G 可測變數」這個子空間,會把 X 拆成兩塊互相垂直的部分:影子 E[X given G],住在子空間裡;以及殘差 X - E[X given G],與子空間正交。這裡的正交不是比喻——殘差與該資訊能產生的每一個變數都不相關。
如今全變異數定律不過是這個直角三角形的畢氏定理。把一切以平均為中心:總散布 Var(X) 是「X 減其平均」的長度平方;一條直角邊 Var(E[X given G]) 是投影影子的長度平方(猜測散得多開);另一條直角邊 E[Var(X given G)] 是殘差的長度平方(無法解釋的擺動)。因為兩條直角邊互相垂直,它們的長度平方相加等於斜邊——恰好就是 Var(X) = Var(E[X given G]) + E[Var(X given G)]。證明裡枯燥的代數,和這幅乾淨的圖,是同一個事實穿了兩套衣服。
解讀兩塊,與誠實的提醒
這個分解之所以真的有用,是因為兩項都有白話意義。E[Var(X given G)] 是未被解釋的、或組內變異數——即便你用盡資訊仍存活下來的散布;它是你最佳預測的不可化約噪聲。Var(E[X given G]) 是被解釋的、或組間變異數——也就是「條件平均隨資訊改變而移動」這件事,捕捉到 X 散布的多少。它們的比值 Var(E[X given G]) / Var(X) 就是被解釋變異數的比例——正是迴歸裡 R 平方、以及變異數分析裡 F 檢定背後的同一個想法。
用這條恆等式去算那些正面硬幹會很痛苦的變異數。設母雞下蛋數 N 服從平均為 lambda 的卜瓦松分配,每顆蛋以機率 p 獨立孵化,得到 X 隻小雞。給定 N = n 時,X 服從二項分配,所以 E[X given N] = pN、Var(X given N) = N p (1 - p)。於是 E[Var(X given N)] = p(1-p) E[N] = p(1-p) lambda,而 Var(E[X given N]) = Var(pN) = p^2 lambda。相加:Var(X) = p(1-p) lambda + p^2 lambda = p lambda。這套兩階段的記帳,用三行就做完了「正面硬攻複合分配」要費盡力氣的事。
幾個誠實的查核。整座建築需要 X 平方可積,也就是 E[X^2] 有限——對像柯西這類重尾分配,變異數根本沒有定義,這一切都不適用,正如中央極限定理本身在那裡也失效。也要把兩塊分清:組內變異數小,本身並不代表取條件有資訊量;被解釋變異數小,也不代表 X 幾乎是常數;你必須同時看兩條腿與它們的比值。最後,別把「被解釋」讀成「被造成」——這個分解純粹是變異數的代數,而且一如往常,相關性與被解釋變異數都不是因果。那份資訊也許只是某個真正在起作用之物的代理標記罷了。