無意識統計學家定律（LOTUS）

更上一層的平均問題

本階第 1 篇把期望值建立為一種長期平均：對隨機變數所能取的各個值做加權平均，每個值以其機率為權重。對離散的 X，你把「值乘機率」加總，E[X] = sum of x times P(X = x)；對連續的，你把 x 對密度 f 積分，[[expectation-continuous-case|E[X] = integral of x f(x) dx]]。這回答了「X 的平均是多少？」但幾乎沒有什麼有趣的問題會只問 X 本身的平均。我們想要 X^2 的平均來量度離散程度、想要 e^(tX) 的平均來建立動差母函數、想要某個報酬 g(X) 的平均。問題悄悄變了：不是「平均 X」，而是「平均 X 的某個函數」。

這裡有條顯而易見卻很痛苦的路。若 Y = g(X)，則 Y 本身是個隨機變數，故依期望值定義，E[Y] = sum of y times P(Y = y)。但要用它，你得先求出 Y 的整個分配——弄清楚 Y 能命中哪些 y 值、各以多大機率，這可能意味著對 g 求反函數、追蹤多個 x 映到同一個 y 的重疊，以及（對連續變數）一個帶 Jacobian 的變數變換。這是一大塊工夫，而你到頭來只想要一個數字。一定有捷徑。

LOTUS：不必重新推導就能平均

這條捷徑就是無意識統計學家定律，即 LOTUS。它說：要平均 g(X)，完全不必去碰 Y 的分配。保留 X 自己的機率，只要在平均之前把 g 套用到每個值上就好。對離散的 X，E[g(X)] = sum of g(x) times P(X = x)；對連續的 X，E[g(X)] = integral of g(x) f(x) dx。你是用 X 原本的權重去為「函數的輸出」加權——從頭到尾都不需要 Y 的分配。

看著這份「偷懶」帶來回報。設 X 是一顆公正骰子，值 1 到 6 各以機率 1/6 出現，要求 E[X^2]。痛苦路線是：Y = X^2 取值 1、4、9、16、25、36，各以機率 1/6——所以在這裡你仍得列出 Y 的分配。LOTUS 跳過這份簿記，直接從 X 讀出來：E[X^2] = (1/6)(1 + 4 + 9 + 16 + 25 + 36) = 91/6 ~ 15.17。答案相同，但你從未停下來想「X^2 的分配」。對於非一對一的函數，這份省力極為可觀，因為 LOTUS 從不要求你去拆解「哪些 x 撞到了同一個 y」。

LOTUS 建構出變異數與各階動差

LOTUS 不是個花招——它是本階其餘部分底下的機械。X 的動差不過就是各次方的期望值：第 k 階動差是 E[X^k]，用 LOTUS 取 g(x) = x^k 算出。第一階動差是平均數。第二階動差 E[X^2] 直接餵進「離散程度」。而動差母函數，也就是下一篇的主角，是 E[e^(tX)]——又一個 LOTUS 期望值，這次取 g(x) = e^(tx)。每一個都是同一個動作：選函數、用 X 的機率重新加權、加總或積分。

看最重要的例子：變異數，即「離平均數的平方距離」的平均。它的定義本身就是一個 LOTUS 期望值，Var(X) = E[(X - mu)^2]，其中 mu = E[X]、g(x) = (x - mu)^2。從定義去算，就是把 (x - mu)^2 對 X 的各值平均。但 LOTUS 配上你將在第 3 篇遇到的線性性，會交給你那條著名捷徑 [[variance-computational-formula|Var(X) = E[X^2] - (E[X])^2]]：把平方展開、逐項平均，交叉項就坍縮掉了。於是變異數只需要兩個 LOTUS 平均——E[X] 與 E[X^2]——再加一次減法。

Variance of the fair die via LOTUS, in two averages:

  E[X]   = (1/6)(1+2+3+4+5+6)        = 21/6 = 3.5
  E[X^2] = (1/6)(1+4+9+16+25+36)     = 91/6 ~ 15.1667    (LOTUS, g(x)=x^2)

  Var(X) = E[X^2] - (E[X])^2
         = 91/6 - (3.5)^2
         = 15.1667 - 12.25
         = 2.9167                    (= 35/12)

  SD(X)  = sqrt(2.9167) ~ 1.71

兩個 LOTUS 平均再加一次減法就得到變異數——從未建構過 X^2 的分配。

路上的一道彎：Jensen 不等式

LOTUS 讓一件事昭然若揭，而它幾乎讓每個人第一次都栽跟頭：平均與套用函數並不可交換。E[g(X)] 通常不等於 g(E[X])。平方的平均不是平均的平方——事實上，上面的變異數公式正是那道落差 E[X^2] - (E[X])^2，而只要 X 有任何離散程度，它就是正的。把一個隨機變數塞進一個彎曲的函數，平均輸出就會偏離「平均輸入的函數值」。這不是算術出錯；這是曲率的結構性特徵。

Jensen 不等式把這份偏移化為一條精確、帶正負號的規則。若 g 是凸的（向上彎，如 x^2 或 e^x），則 E[g(X)] >= g(E[X])。若 g 是凹的（向下彎，如 ln x 或 sqrt x），不等號翻轉：E[g(X)] <= g(E[X])。等號只在無趣的情形成立——X 是常數，或 g 是直線——所以任何真正的隨機性穿過任何真正的曲線，都會在一個已知方向上製造出確定的落差。畫面是一條笑臉形的曲線：把輸入平均，你落在曲線上的一點；把輸出平均，曲線的碗形把你往上拉，拉到那一點之上。

用 LOTUS 而不踩空

在實務上，LOTUS 把幾乎任何期望值化約成一套固定步驟。藝術只在於選對 g，並記得你是用 X 原本的機率來加權，絕不是用任何關於 g(X) 的東西來加權。

為函數命名。把所求寫成 E[g(X)] 並讀出 g——變異數取 g(x) = (x - mu)^2，第 k 階動差取 g(x) = x^k，動差母函數取 g(x) = e^(tx)。
保留 X 自己的權重。離散時用 P(X = x)，連續時用密度 f(x)。不要去推導 Y = g(X) 的分配；那正是 LOTUS 的全部意義。
加總或積分。計算 E[g(X)] = sum of g(x) P(X = x)，或在 X 的支撐上計算 integral of g(x) f(x) dx。
檢驗答案。確認它是有限的（厚尾可能使 E[X^2] 或平均數變成無窮），並記得 E[g(X)] 不必等於 g(E[X])——用 Jensen 來預測落差會偏向哪一邊。

在倚賴它之前有兩個誠實的提醒。第一，只有當那個和或積分確實絕對收斂時，LOTUS 才交得出一個數；對厚尾的分配，相關的期望值可能是無窮或無定義，這時公式回報的是「沒有值」，而不是一個錯誤的值。第二，LOTUS 只給你 E[g(X)]、別無其他——它刻意丟掉了 g(X) 的形狀。若你需要像 P(g(X) > 5) 這樣的機率、需要一個分位數、或需要 g(X) 自身的變異數，那你就真的得去找出 g(X) 的分配；LOTUS 做的是平均，不是描述。把這兩道界限放在眼前，它就會成為整個學科裡使用最頻繁的那一件工具。