條件期望值作為最佳預測

「最佳」到底該是什麼意思

到這裡你已經會算 E[X given G]，也看過它兩件日常工具——塔性質與提出已知。本篇要回答一個不同而非常切身的問題：我們為什麼該在乎這個東西？誠實的動機是預測。你有一個看不見的隨機量 X——明天的需求、一個隱藏訊號、一個未來價格——但你握有一些資訊，打包成一個 sigma-代數 G。你的任務是只用 G 允許你知道的東西，給出對 X 的單一最佳猜測。整篇就是要把「最佳」釘清楚，並發現贏家恰恰是 E[X given G]。

一個猜測就是某個對 G 可測 的隨機變數 Y——意思是 Y 只憑 G 裡的資訊就能算出，絕不偷看 G 看不到的那部分世界。要替猜測打分，我們需要一個犯錯的懲罰。讓一切變漂亮的選擇是 均方誤差 MSE(Y) = E[(X - Y)^2]：取真值與猜測的差，平方它，於是高估與低估都要付代價、大失誤付很大代價，再取平均。最佳預測就是讓這個數字最小的那個 G-可測的 Y。平方是一個真實的建模選擇，並非唯一——但它正是把預測化為乾淨幾何的那一個，稍後就會看到。

條件平均勝出的乾淨證明

論證在此，短到可以記在腦裡。把候選者寫成 Xhat = E[X given G]，令 Y 為任意其他 G-可測的猜測。插入 Xhat 把誤差拆成兩塊：X - Y = (X - Xhat) + (Xhat - Y)。第一塊 X - Xhat 是殘差——X 中再多 G-資訊也解釋不了的部分。第二塊 Xhat - Y 是兩個 G-可測猜測之差，因此本身 G-可測。神奇之處在於：平方再取平均時，這兩塊互不干擾——交叉項消失。

交叉項為何死去？展開：E[(X - Y)^2] = E[(X - Xhat)^2] + 2·E[(X - Xhat)(Xhat - Y)] + E[(Xhat - Y)^2]。看中間項。因子 (Xhat - Y) 是 G-可測，所以由提出已知可把它穿過「在給定 G 下的條件期望」。而殘差的條件期望為零：E[X - Xhat given G] = E[X given G] - Xhat = 0，因為 Xhat 就是 E[X given G]。於是整個乘積的條件期望是 (Xhat - Y)·0 = 0，再由塔性質，它的普通期望也是 0。殘差在平均意義下與 G 能建造的任何東西都不相關。

MSE(Y) = E[(X - Y)^2]
       = E[(X - Xhat)^2]  +  E[(Xhat - Y)^2]
         \____________/      \____________/
         fixed cost          >= 0, zero only if Y = Xhat
         (irreducible)       (your avoidable error)

  where  Xhat = E[X given G]

誤差的畢氏分解。第一項在你掌控之外；第二項是你能消滅的，而消滅它的唯一辦法就是猜條件平均。

讀那個方框等式。MSE(Y) 等於不可約成本 E[(X - Xhat)^2]，加上一個取決於你選擇的非負項 E[(Xhat - Y)^2]。既然第二項是平方，它至少為零，且只有當 Y = Xhat 時才等於零。因此每個猜測至少付 E[(X - Xhat)^2]，而只有 Xhat = E[X given G] 恰好付到這個底線。這就是 E[X given G] 是 X 在給定 G 下最佳均方預測的精確意義：沒有任何其他 G-可測函數能做得更好，且任何偏離都要付出額外代價，代價大小就是你偏離了多遠。

幾何：一個投影與一個直角

那個分解其實是偽裝的畢氏定理，而認出這一點是本級最深的回報。把每個具有有限二階動差的隨機變數想成一個空間 L^2 裡的向量，其中向量 Z 的「長度平方」是 E[Z^2]，兩向量的「內積」是 E[ZW]。在這個幾何裡，X 與猜測 Y 的距離是 E[(X - Y)^2] 的平方根——正是我們的誤差。所有 G-可測的隨機變數構成 L^2 裡的一個平直子空間：你可以想成一個平面。找最佳預測，就是找那個平面上離向量 X 最近的點。

而平面上離外部一點最近的點，永遠是垂足——正交投影。所以 E[X given G] 實實在在就是 X 投影到 G-可測變數子空間上的影子，這正是我們稱它為條件期望值即 L^2 投影的原因。殘差 X - Xhat 是從 X 垂落到平面的垂線，而這裡的「垂直」意思是：對每個 G-可測的 Z 都有 E[(X - Xhat)·Z] = 0——正是我們證過的「交叉項消失」。直角與交叉項消失是同一件事，從兩個方向看而已。

一個你抓得住的小範例

擲一顆公正骰子；令 X 為點數，故 E[X] = 3.5。沒有資訊時，你的最佳常數猜測是 3.5，平方誤差為 Var(X) = E[X^2] - (E[X])^2 = 91/6 - 12.25 ≈ 2.917。現在假設你拿到的唯一資訊 G 是奇偶：有人會告訴你是奇是偶，僅此而已。最佳預測必須只是奇偶的函數——奇給一個值、偶給一個值。投影說：在每個奇偶類上用條件平均。奇數面 1、3、5 平均為 3；偶數面 2、4、6 平均為 4。所以 E[X given 奇偶] 在奇數時等於 3、偶數時等於 4。

具體感受這份改善。投影後，剩下的平方誤差是每類內部的平均平方差距：奇數時 {1,3,5} 相對 3 的偏差是 -2、0、+2，平均平方失誤為 8/3；偶數時 {2,4,6} 相對 4 同樣是 8/3。在等機率的兩類間平均，剩下 8/3 ≈ 2.667。所以僅僅學到奇偶，就把誤差從約 2.917 降到約 2.667——一份真實、雖不大的收穫。你賺到的量約 0.25，恰是奇偶資訊所 *解釋* 的變異，而這筆帳——總誤差＝已解釋＋未解釋——正是你下一篇將遇到的條件變異數分解的種子。

辨認資訊 G 與它允許的猜測——這裡是任何在每個奇偶類上為常數的函數。
在 G 的每一塊上，算 X 的條件平均；那個值就是該塊上的投影。
把這些分塊平均拼成一個隨機變數——那就是 E[X given G]，你的最佳預測。
替它打分：剩餘誤差是各塊內部變異的平均，而相對 Var(X) 的下降量就是資訊所解釋的變異。

誠實的界線與最後的重新框定

把「最佳」承諾與不承諾的東西講清楚。第一，它只是在用 G 建造的猜測中最佳——給預測器更多資訊（更細的 sigma-代數），它至少一樣好、絕不更差，因為更大的平面離 X 更近。第二，最優性在於平方誤差的平均；它並不保證 E[X given G] 在任何單次試驗上會接近。在骰子例中，偶數時最佳猜測是 4，但實際值可能是 2 或 6——每次都差 2。條件平均讓 *平均* 平方失誤最小，而非下一次投擲的失誤。混淆這兩者，與賭徒謬誤那種「期待平均控制個別結果」的錯誤是同宗。

再兩個誠實的提醒。平方誤差的框架要求 X 有有限的二階動差，E[X^2] < 無窮，使它真的住在 L^2 裡、投影才存在——一個重尾、變異數無窮的 X（卜瓦松不是、柯西才是課本上的元兇）會破壞這套幾何，儘管 E[X given G] 仍可透過它的定義性質更一般地定義。還有，別把「投影」過度解讀成「刻意丟掉雜訊的近似」：殘差 X - Xhat 不是你靠機巧本可避免的誤差——它是 X 相對於 G 真正不可預測的部分，任何假裝抓住它的猜測，只是在對看不見之物過度擬合。

退一步，本級就咬合成形。你早先遇到的定義性質——E[X given G] 是那個在每個 G-事件上平均都與 X 相符的 G-可測變數——是個代數要求。最佳預測定理揭示了那個要求暗地裡 *是* 什麼：它是一條垂線的方程，是剩餘誤差不再有任何可用分量的唯一方向。條件化不是一條要背的公式；它是把現實投影到你被允許知道之物上的動作。接下來我們度量剩下那部分的大小——條件變異數——並看著總變動乾淨地裂成「資訊已解釋的」與「資訊無能為力的」兩塊。