JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

條件期望值作為最佳預測

在所有「只用某個 sigma-代數裡的資訊」去猜 X 的方式中,E[X given G] 是唯一最好的一個——好的意思是平均平方誤差最小。本篇把條件期望值化為幾何:一個投影、一個直角,以及一份你感受得到的回報。

「最佳」到底該是什麼意思

到這裡你已經會算 E[X given G],也看過它兩件日常工具——塔性質提出已知。本篇要回答一個不同而非常切身的問題:我們為什麼該在乎這個東西?誠實的動機是預測。你有一個看不見的隨機量 X——明天的需求、一個隱藏訊號、一個未來價格——但你握有一些資訊,打包成一個 sigma-代數 G。你的任務是只用 G 允許你知道的東西,給出對 X 的單一最佳猜測。整篇就是要把「最佳」釘清楚,並發現贏家恰恰是 E[X given G]。

一個猜測就是某個對 G 可測 的隨機變數 Y——意思是 Y 只憑 G 裡的資訊就能算出,絕不偷看 G 看不到的那部分世界。要替猜測打分,我們需要一個犯錯的懲罰。讓一切變漂亮的選擇是 均方誤差 MSE(Y) = E[(X - Y)^2]:取真值與猜測的差,平方它,於是高估與低估都要付代價、大失誤付很大代價,再取平均。最佳預測就是讓這個數字最小的那個 G-可測的 Y。平方是一個真實的建模選擇,並非唯一——但它正是把預測化為乾淨幾何的那一個,稍後就會看到。

條件平均勝出的乾淨證明

論證在此,短到可以記在腦裡。把候選者寫成 Xhat = E[X given G],令 Y 為任意其他 G-可測的猜測。插入 Xhat 把誤差拆成兩塊:X - Y = (X - Xhat) + (Xhat - Y)。第一塊 X - Xhat 是 殘差——X 中再多 G-資訊也解釋不了的部分。第二塊 Xhat - Y 是兩個 G-可測猜測之差,因此本身 G-可測。神奇之處在於:平方再取平均時,這兩塊互不干擾——交叉項消失。

交叉項為何死去?展開:E[(X - Y)^2] = E[(X - Xhat)^2] + 2·E[(X - Xhat)(Xhat - Y)] + E[(Xhat - Y)^2]。看中間項。因子 (Xhat - Y) 是 G-可測,所以由提出已知可把它穿過「在給定 G 下的條件期望」。而殘差的條件期望為零:E[X - Xhat given G] = E[X given G] - Xhat = 0,因為 Xhat 就是 E[X given G]。於是整個乘積的條件期望是 (Xhat - Y)·0 = 0,再由塔性質,它的普通期望也是 0。殘差在平均意義下與 G 能建造的任何東西都不相關。

MSE(Y) = E[(X - Y)^2]
       = E[(X - Xhat)^2]  +  E[(Xhat - Y)^2]
         \____________/      \____________/
         fixed cost          >= 0, zero only if Y = Xhat
         (irreducible)       (your avoidable error)

  where  Xhat = E[X given G]
誤差的畢氏分解。第一項在你掌控之外;第二項是你能消滅的,而消滅它的唯一辦法就是猜條件平均。

讀那個方框等式。MSE(Y) 等於不可約成本 E[(X - Xhat)^2],加上一個取決於你選擇的非負項 E[(Xhat - Y)^2]。既然第二項是平方,它至少為零,且只有當 Y = Xhat 時才等於零。因此每個猜測至少付 E[(X - Xhat)^2],而只有 Xhat = E[X given G] 恰好付到這個底線。這就是 E[X given G] 是 X 在給定 G 下最佳均方預測的精確意義:沒有任何其他 G-可測函數能做得更好,且任何偏離都要付出額外代價,代價大小就是你偏離了多遠。

幾何:一個投影與一個直角

那個分解其實是偽裝的畢氏定理,而認出這一點是本級最深的回報。把每個具有有限二階動差的隨機變數想成一個空間 L^2 裡的向量,其中向量 Z 的「長度平方」是 E[Z^2],兩向量的「內積」是 E[ZW]。在這個幾何裡,X 與猜測 Y 的距離是 E[(X - Y)^2] 的平方根——正是我們的誤差。所有 G-可測的隨機變數構成 L^2 裡的一個平直子空間:你可以想成一個平面。找最佳預測,就是找那個平面上離向量 X 最近的點。

而平面上離外部一點最近的點,永遠是垂足——正交投影。所以 E[X given G] 實實在在就是 X 投影到 G-可測變數子空間上的影子,這正是我們稱它為條件期望值即 L^2 投影的原因。殘差 X - Xhat 是從 X 垂落到平面的垂線,而這裡的「垂直」意思是:對每個 G-可測的 Z 都有 E[(X - Xhat)·Z] = 0——正是我們證過的「交叉項消失」。直角與交叉項消失是同一件事,從兩個方向看而已。

一個你抓得住的小範例

擲一顆公正骰子;令 X 為點數,故 E[X] = 3.5。沒有資訊時,你的最佳常數猜測是 3.5,平方誤差為 Var(X) = E[X^2] - (E[X])^2 = 91/6 - 12.25 ≈ 2.917。現在假設你拿到的唯一資訊 G 是奇偶:有人會告訴你是奇是偶,僅此而已。最佳預測必須只是奇偶的函數——奇給一個值、偶給一個值。投影說:在每個奇偶類上用條件平均。奇數面 1、3、5 平均為 3;偶數面 2、4、6 平均為 4。所以 E[X given 奇偶] 在奇數時等於 3、偶數時等於 4。

具體感受這份改善。投影後,剩下的平方誤差是每類內部的平均平方差距:奇數時 {1,3,5} 相對 3 的偏差是 -2、0、+2,平均平方失誤為 8/3;偶數時 {2,4,6} 相對 4 同樣是 8/3。在等機率的兩類間平均,剩下 8/3 ≈ 2.667。所以僅僅學到奇偶,就把誤差從約 2.917 降到約 2.667——一份真實、雖不大的收穫。你賺到的量約 0.25,恰是奇偶資訊所 *解釋* 的變異,而這筆帳——總誤差=已解釋+未解釋——正是你下一篇將遇到的條件變異數分解的種子。

  1. 辨認資訊 G 與它允許的猜測——這裡是任何在每個奇偶類上為常數的函數。
  2. 在 G 的每一塊上,算 X 的條件平均;那個值就是該塊上的投影。
  3. 把這些分塊平均拼成一個隨機變數——那就是 E[X given G],你的最佳預測。
  4. 替它打分:剩餘誤差是各塊內部變異的平均,而相對 Var(X) 的下降量就是資訊所解釋的變異。

誠實的界線與最後的重新框定

把「最佳」承諾與不承諾的東西講清楚。第一,它只是在用 G 建造的猜測中最佳——給預測器更多資訊(更細的 sigma-代數),它至少一樣好、絕不更差,因為更大的平面離 X 更近。第二,最優性在於平方誤差的平均;它並不保證 E[X given G] 在任何單次試驗上會接近。在骰子例中,偶數時最佳猜測是 4,但實際值可能是 2 或 6——每次都差 2。條件平均讓 *平均* 平方失誤最小,而非下一次投擲的失誤。混淆這兩者,與賭徒謬誤那種「期待平均控制個別結果」的錯誤是同宗。

再兩個誠實的提醒。平方誤差的框架要求 X 有有限的二階動差,E[X^2] < 無窮,使它真的住在 L^2 裡、投影才存在——一個重尾、變異數無窮的 X(卜瓦松不是、柯西才是課本上的元兇)會破壞這套幾何,儘管 E[X given G] 仍可透過它的定義性質更一般地定義。還有,別把「投影」過度解讀成「刻意丟掉雜訊的近似」:殘差 X - Xhat 不是你靠機巧本可避免的誤差——它是 X 相對於 G 真正不可預測的部分,任何假裝抓住它的猜測,只是在對看不見之物過度擬合。

退一步,本級就咬合成形。你早先遇到的定義性質——E[X given G] 是那個在每個 G-事件上平均都與 X 相符的 G-可測變數——是個代數要求。最佳預測定理揭示了那個要求暗地裡 *是* 什麼:它是一條垂線的方程,是剩餘誤差不再有任何可用分量的唯一方向。條件化不是一條要背的公式;它是把現實投影到你被允許知道之物上的動作。接下來我們度量剩下那部分的大小——條件變異數——並看著總變動乾淨地裂成「資訊已解釋的」與「資訊無能為力的」兩塊。