JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

無意識統計學家定律(LOTUS)

你已經知道 E[X] 是 X 的長期平均。但如果要平均 X^2、平均 sqrt(X)、或平均隨機變數的任何函數呢?LOTUS 給出一個漂亮又「偷懶」的答案:絕不去找出新分配——只要把舊分配重新加權就好。它是變異數、動差,以及你日後幾乎每一次期望值計算背後那位沉默的主力。

更上一層的平均問題

本階第 1 篇把期望值建立為一種長期平均:對隨機變數所能取的各個值做加權平均,每個值以其機率為權重。對離散的 X,你把「值乘機率」加總,E[X] = sum of x times P(X = x);對連續的,你把 x 對密度 f 積分,[[expectation-continuous-case|E[X] = integral of x f(x) dx]]。這回答了「X 的平均是多少?」但幾乎沒有什麼有趣的問題會只問 X 本身的平均。我們想要 X^2 的平均來量度離散程度、想要 e^(tX) 的平均來建立動差母函數、想要某個報酬 g(X) 的平均。問題悄悄變了:不是「平均 X」,而是「平均 X 的某個函數」

這裡有條顯而易見卻很痛苦的路。若 Y = g(X),則 Y 本身是個隨機變數,故依期望值定義,E[Y] = sum of y times P(Y = y)。但要用它,你得先求出 Y 的整個分配——弄清楚 Y 能命中哪些 y 值、各以多大機率,這可能意味著對 g 求反函數、追蹤多個 x 映到同一個 y 的重疊,以及(對連續變數)一個帶 Jacobian 的變數變換。這是一大塊工夫,而你到頭來只想要一個數字。一定有捷徑。

LOTUS:不必重新推導就能平均

這條捷徑就是無意識統計學家定律,即 LOTUS。它說:要平均 g(X),完全不必去碰 Y 的分配。保留 X 自己的機率,只要在平均之前把 g 套用到每個值上就好。對離散的 X,E[g(X)] = sum of g(x) times P(X = x);對連續的 X,E[g(X)] = integral of g(x) f(x) dx。你是用 X 原本的權重去為「函數的輸出」加權——從頭到尾都不需要 Y 的分配。

看著這份「偷懶」帶來回報。設 X 是一顆公正骰子,值 1 到 6 各以機率 1/6 出現,要求 E[X^2]。痛苦路線是:Y = X^2 取值 1、4、9、16、25、36,各以機率 1/6——所以在這裡你仍得列出 Y 的分配。LOTUS 跳過這份簿記,直接從 X 讀出來:E[X^2] = (1/6)(1 + 4 + 9 + 16 + 25 + 36) = 91/6 ~ 15.17。答案相同,但你從未停下來想「X^2 的分配」。對於非一對一的函數,這份省力極為可觀,因為 LOTUS 從不要求你去拆解「哪些 x 撞到了同一個 y」。

LOTUS 建構出變異數與各階動差

LOTUS 不是個花招——它是本階其餘部分底下的機械。X 的動差不過就是各次方的期望值:第 k 階動差是 E[X^k],用 LOTUS 取 g(x) = x^k 算出。第一階動差是平均數。第二階動差 E[X^2] 直接餵進「離散程度」。而動差母函數,也就是下一篇的主角,是 E[e^(tX)]——又一個 LOTUS 期望值,這次取 g(x) = e^(tx)。每一個都是同一個動作:選函數、用 X 的機率重新加權、加總或積分。

看最重要的例子:變異數,即「離平均數的平方距離」的平均。它的定義本身就是一個 LOTUS 期望值,Var(X) = E[(X - mu)^2],其中 mu = E[X]、g(x) = (x - mu)^2。從定義去算,就是把 (x - mu)^2 對 X 的各值平均。但 LOTUS 配上你將在第 3 篇遇到的線性性,會交給你那條著名捷徑 [[variance-computational-formula|Var(X) = E[X^2] - (E[X])^2]]:把平方展開、逐項平均,交叉項就坍縮掉了。於是變異數只需要兩個 LOTUS 平均——E[X] 與 E[X^2]——再加一次減法。

Variance of the fair die via LOTUS, in two averages:

  E[X]   = (1/6)(1+2+3+4+5+6)        = 21/6 = 3.5
  E[X^2] = (1/6)(1+4+9+16+25+36)     = 91/6 ~ 15.1667    (LOTUS, g(x)=x^2)

  Var(X) = E[X^2] - (E[X])^2
         = 91/6 - (3.5)^2
         = 15.1667 - 12.25
         = 2.9167                    (= 35/12)

  SD(X)  = sqrt(2.9167) ~ 1.71
兩個 LOTUS 平均再加一次減法就得到變異數——從未建構過 X^2 的分配。

路上的一道彎:Jensen 不等式

LOTUS 讓一件事昭然若揭,而它幾乎讓每個人第一次都栽跟頭:平均與套用函數並不可交換。E[g(X)] 通常不等於 g(E[X])。平方的平均不是平均的平方——事實上,上面的變異數公式正是那道落差 E[X^2] - (E[X])^2,而只要 X 有任何離散程度,它就是正的。把一個隨機變數塞進一個彎曲的函數,平均輸出就會偏離「平均輸入的函數值」。這不是算術出錯;這是曲率的結構性特徵。

Jensen 不等式把這份偏移化為一條精確、帶正負號的規則。若 g 是的(向上彎,如 x^2 或 e^x),則 E[g(X)] >= g(E[X])。若 g 是的(向下彎,如 ln x 或 sqrt x),不等號翻轉:E[g(X)] <= g(E[X])。等號只在無趣的情形成立——X 是常數,或 g 是直線——所以任何真正的隨機性穿過任何真正的曲線,都會在一個已知方向上製造出確定的落差。畫面是一條笑臉形的曲線:把輸入平均,你落在曲線上的一點;把輸出平均,曲線的碗形把你往上拉,拉到那一點之上。

用 LOTUS 而不踩空

在實務上,LOTUS 把幾乎任何期望值化約成一套固定步驟。藝術只在於選對 g,並記得你是用 X 原本的機率來加權,絕不是用任何關於 g(X) 的東西來加權。

  1. 為函數命名。把所求寫成 E[g(X)] 並讀出 g——變異數取 g(x) = (x - mu)^2,第 k 階動差取 g(x) = x^k,動差母函數取 g(x) = e^(tx)。
  2. 保留 X 自己的權重。離散時用 P(X = x),連續時用密度 f(x)。不要去推導 Y = g(X) 的分配;那正是 LOTUS 的全部意義。
  3. 加總或積分。計算 E[g(X)] = sum of g(x) P(X = x),或在 X 的支撐上計算 integral of g(x) f(x) dx。
  4. 檢驗答案。確認它是有限的(厚尾可能使 E[X^2] 或平均數變成無窮),並記得 E[g(X)] 不必等於 g(E[X])——用 Jensen 來預測落差會偏向哪一邊。

在倚賴它之前有兩個誠實的提醒。第一,只有當那個和或積分確實絕對收斂時,LOTUS 才交得出一個數;對厚尾的分配,相關的期望值可能是無窮或無定義,這時公式回報的是「沒有值」,而不是一個錯誤的值。第二,LOTUS 只給你 E[g(X)]、別無其他——它刻意丟掉了 g(X) 的形狀。若你需要像 P(g(X) > 5) 這樣的機率、需要一個分位數、或需要 g(X) 自身的變異數,那你就真的得去找出 g(X) 的分配;LOTUS 做的是平均,不是描述。把這兩道界限放在眼前,它就會成為整個學科裡使用最頻繁的那一件工具。