變異數與標準差

平均數不是故事的全部

到現在，E[X] 已經很熟悉了：長期的平均、一個分布的平衡點。但光靠平均數，可能把所有真正重要的東西都藏起來。想像兩個遊戲。遊戲 A 裡你每次都剛好贏 100 元。遊戲 B 裡你靠一次公平的擲幣贏到 0 元或 200 元。兩者的 E[X] = 100——平均完全一樣——但玩起來的感覺天差地別。遊戲 A 是穩當的；遊戲 B 是一場賭。平均數對這個差別視而不見，因為把 0 和 200 平均掉，就丟掉了「你其實從來不會真的拿到 100」這件事。

區分這兩個遊戲的是離散程度（spread）：結果通常偏離中心多遠。我們想要一個單一的數來捕捉它。第一個念頭——把「離均差」E[X - E[X]] 平均起來——立刻就失敗，因為這個平均永遠剛好是零：正向的超出與負向的不足，依照平衡點的定義彼此抵消。平均數就是翹翹板平衡之處，所以帶正負號的差距必然相加歸零。我們得設法阻止這個抵消。

有兩帖誠實的解方：取每個離均差的絕對值，或把它平方。平方勝出，而且不是隨意挑的。平方是平滑的（容易做微積分），它對大偏差的懲罰超過小偏差（偏差 4 貢獻 16，而不只是 4），而且——這點很關鍵——它讓「和」的代數運算乖乖配合，等我們把多個變數相加時就會看到。平均絕對離差是個完全合理、有時更穩健的離散度量；選擇平方，純粹是因為它解鎖了最乾淨的理論。

變異數：離均距離平方的期望值

定義在這裡。用 mu 代表平均數 E[X]。變異數是「離均距離平方」的平均：Var(X) = E[(X - mu)^2]。把它當作一道食譜慢慢讀：取 X 偏離其中心多遠，把這個差距平方使它不可能為負，再把這些平方差距在整個分布上平均，每一個以它的機率加權。緊貼其平均的變數，平方差距小、變異數小；把結果甩得老遠的變數，平方差距大、變異數大。變異數恰好就是離均差平方的期望值，不多也不少。

請注意這正是無意識統計學家定律（LOTUS）的實際運用。我們有一個分布已知的隨機變數 X，想求它某個函數的期望值——這裡函數是 g(x) = (x - mu)^2。LOTUS 說我們從不需要那個平方量本身的分布；我們只要用 X 自己的機率去加權 g(x)，再相加（或積分）即可。所以對離散的 X，Var(X) = 對各 x 求和 (x - mu)^2 乘 P(X = x)；對連續的 X，則積分 (x - mu)^2 乘密度。變異數不是一種新的運算——它就是某個特定函數的普通期望值。

我們用它把遊戲 B 釘死。X 是 0 或 200，各以機率 1/2 出現，mu = 100。兩個離均差平方是 (0 - 100)^2 = 10000 與 (200 - 100)^2 = 10000，各加權 1/2，所以 Var(X) = (1/2)(10000) + (1/2)(10000) = 10000。至於遊戲 A，X 永遠是 100，離均差永遠是 0，Var(X) = 0。用數字看就清楚了：穩當的遊戲變異數為零，賭的那個則很大，而兩者的平均——都是 100——從來分不出它們。變異數正是平均數所欠缺的那個刻度。

有兩個事實免費附送。變異數絕不可能為負：它是平方的平均，而平方永遠非負，所以恆有 Var(X) >= 0——根本沒有「負的離散程度」這回事。而 Var(X) = 0 只在最極端的情形發生：X 完全不偏離其平均，也就是 X 以機率 1 等於某個固定常數。任何真正的隨機性都會給出嚴格為正的變異數。

計算用公式

直接算 E[(X - mu)^2] 很笨拙——你得先求出 mu，再把這個 mu 揉進每一個平方差距裡，重新對每個結果求和。有一條友善得多的路，就是計算公式：Var(X) = E[X^2] - (E[X])^2。用文字說，變異數是「平方的平均」減去「平均的平方」。你算兩個普通的期望值——E[X^2] 和 E[X]——再相減即可。不必重新置中，不必跑第二趟。

只要把平方展開並用線性，它就直接掉出來。展開得到 E[(X - mu)^2] = E[X^2 - 2 mu X + mu^2]。現在期望值的線性把這個和拆開：E[X^2] - 2 mu E[X] + mu^2。但 E[X] 就是 mu，所以中間項是 -2 mu^2，最後一項是 +mu^2，剩下 E[X^2] - mu^2 = E[X^2] - (E[X])^2。整個推導不過是線性，加上「mu 是常數、可以從期望值裡拉出來」這件事。

取一顆公平骰子，X 在 1 到 6 上均勻。先求 E[X]：1 到 6 的平均是 3.5。
用 LOTUS 求 E[X^2]：(1 + 4 + 9 + 16 + 25 + 36)/6 = 91/6，約為 15.1667。
減去平均的平方：Var(X) = 91/6 - (3.5)^2 = 15.1667 - 12.25 = 2.9167，即 35/12。
檢查順序：E[X^2] = 15.17 不等於 (E[X])^2 = 12.25，兩者之差 2.92 就是變異數。把兩者對調會得到負數——那是一個告訴你算錯了的警訊。

標準差：用誠實單位表示的離散程度

變異數有個尷尬的特點：它的單位是平方的。如果 X 是以「元」計的賠付，那 Var(X) 的單位是「元的平方」，根本無從想像。平方把我們從抵消中救了出來，所以要把離散程度讀回原本的單位，我們只要開平方根。這就給出標準差，sigma = Var(X) 的平方根，寫成 sigma(X) 或就寫 sigma。對遊戲 B，Var(X) = 10000，所以 sigma = 100 元——一句乾淨的陳述：結果通常落在離平均 100 大約 100 元之處。

標準差才是人們真正會引用的數字，因為它和資料在同一個尺度上，你可以把它擺在平均數旁邊。一個摘述為「平均 50、sigma 5」的分布，意味著典型值聚集在 50 的幾個單位之內；「平均 50、sigma 40」則意味著它們散得到處都是。對鐘形曲線 X ~ Normal(mu, sigma^2) 來說，這兩個參數就是字面意義上的平均與變異數，而 sigma 是大約包含兩側各約 68% 機率的寬度——sigma 是衡量一個分布有多寬的天然尺規。

sigma 對縮放與平移如何反應值得一知，而它由縮放平移規則推出：Var(aX + b) = a^2 Var(X)。這裡藏了兩個教訓。加上常數 b 會把每個結果和平均一起平移，所以離均差距毫髮無傷、離散程度不變——加 b 完全消失。乘上 a 會把每個差距拉伸 a 倍，但變異數是把差距平方，所以它縮放 a^2 倍；開了根號後，標準差縮放 a 的絕對值倍。把每筆賠付加倍，sigma 加倍，但變異數變四倍。

把變數相加：獨立性終於開始要緊

在上一篇你看到了那個超能力：無論如何 E[X + Y] = E[X] + E[Y]——期望值的線性完全不需要獨立性。我們很想盼望變異數也一樣無憂無慮，但在這裡規則變了。誠實的陳述是和的變異數：Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)。那個多出來的項，兩倍的共變異數，衡量 X 與 Y 一起移動的程度——若它們傾向同漲同跌則為正，若一個漲時另一個跌則為負。

只有在共變異數為零時，變異數才乾淨地相加：Var(X + Y) = Var(X) + Var(Y)。若 X 與 Y 是獨立的，這就有保證，因為獨立變數的共變異數為零。這正是為什麼把許多獨立的測量取平均能縮小離散程度：變異數相加，但和被 n 除，於是平均值的變異數以 1/n 下降，sigma 則以 1 除以 n 的平方根下降。支配抽樣與大數法則的那條平方根定律，正是從這個可加性長出來的。

變異數能換來什麼，以及接下來是什麼

變異數不只是記帳；它給你一個保證。柴比雪夫不等式說，對任何具有有限變異數的分布，落在離平均超過 k 個標準差之外的機率至多是 1/k^2——所以至多四分之一的機率能落在兩個 sigma 之外，至多九分之一落在三個 sigma 之外。它是個寬鬆的界，正因為它對形狀不作任何假設，對任何分布一律有效。因此小的 sigma 確確實實把結果釘在平均附近，把離散程度化為一個具體的承諾：你會多常偏離。

在繼續之前有兩個誠實的提醒。第一，變異數假設「平方值」有一個有限的平均；有些重尾分布的變異數是無限或無定義的，對它們 sigma 根本不存在，柴比雪夫也無話可說。第二，sigma 摘述的是典型的離散程度，卻完全不說意外落在哪一側——一個分布可以右邊有長尾、左邊短，卻仍只報出一個看似對稱的 sigma。變異數衡量寬度，不衡量歪斜。

最後那個缺口正是通往本階段最後一篇的門。變異數由 E[(X - mu)^2]——對平均的二階動差——所建。推進到第三個這樣的平均，你會得到一個偵測歪斜的數（偏態）；到第四個，你會感受到尾巴有多重（峰態）。這些更高階的動差是形狀的下一組刻度，甚至有一個單一的對象——動差生成函數——把它們一次全部打包。平均數定位了分布；變異數縮放了它；接下來的動差，將告訴你它完整的剪影。