平均數不是故事的全部
到現在,E[X] 已經很熟悉了:長期的平均、一個分布的平衡點。但光靠平均數,可能把所有真正重要的東西都藏起來。想像兩個遊戲。遊戲 A 裡你每次都剛好贏 100 元。遊戲 B 裡你靠一次公平的擲幣贏到 0 元或 200 元。兩者的 E[X] = 100——平均完全一樣——但玩起來的感覺天差地別。遊戲 A 是穩當的;遊戲 B 是一場賭。平均數對這個差別視而不見,因為把 0 和 200 平均掉,就丟掉了「你其實從來不會真的拿到 100」這件事。
區分這兩個遊戲的是離散程度(spread):結果通常偏離中心多遠。我們想要一個單一的數來捕捉它。第一個念頭——把「離均差」E[X - E[X]] 平均起來——立刻就失敗,因為這個平均永遠剛好是零:正向的超出與負向的不足,依照平衡點的定義彼此抵消。平均數就是翹翹板平衡之處,所以帶正負號的差距必然相加歸零。我們得設法阻止這個抵消。
有兩帖誠實的解方:取每個離均差的絕對值,或把它平方。平方勝出,而且不是隨意挑的。平方是平滑的(容易做微積分),它對大偏差的懲罰超過小偏差(偏差 4 貢獻 16,而不只是 4),而且——這點很關鍵——它讓「和」的代數運算乖乖配合,等我們把多個變數相加時就會看到。平均絕對離差是個完全合理、有時更穩健的離散度量;選擇平方,純粹是因為它解鎖了最乾淨的理論。
變異數:離均距離平方的期望值
定義在這裡。用 mu 代表平均數 E[X]。變異數是「離均距離平方」的平均:Var(X) = E[(X - mu)^2]。把它當作一道食譜慢慢讀:取 X 偏離其中心多遠,把這個差距平方使它不可能為負,再把這些平方差距在整個分布上平均,每一個以它的機率加權。緊貼其平均的變數,平方差距小、變異數小;把結果甩得老遠的變數,平方差距大、變異數大。變異數恰好就是離均差平方的期望值,不多也不少。
請注意這正是 無意識統計學家定律(LOTUS)的實際運用。我們有一個分布已知的隨機變數 X,想求它某個函數的期望值——這裡函數是 g(x) = (x - mu)^2。LOTUS 說我們從不需要那個平方量本身的分布;我們只要用 X 自己的機率去加權 g(x),再相加(或積分)即可。所以對離散的 X,Var(X) = 對各 x 求和 (x - mu)^2 乘 P(X = x);對連續的 X,則積分 (x - mu)^2 乘密度。變異數不是一種新的運算——它就是某個特定函數的普通期望值。
我們用它把遊戲 B 釘死。X 是 0 或 200,各以機率 1/2 出現,mu = 100。兩個離均差平方是 (0 - 100)^2 = 10000 與 (200 - 100)^2 = 10000,各加權 1/2,所以 Var(X) = (1/2)(10000) + (1/2)(10000) = 10000。至於遊戲 A,X 永遠是 100,離均差永遠是 0,Var(X) = 0。用數字看就清楚了:穩當的遊戲變異數為零,賭的那個則很大,而兩者的平均——都是 100——從來分不出它們。變異數正是平均數所欠缺的那個刻度。
有兩個事實免費附送。變異數絕不可能為負:它是平方的平均,而平方永遠非負,所以恆有 Var(X) >= 0——根本沒有「負的離散程度」這回事。而 Var(X) = 0 只在最極端的情形發生:X 完全不偏離其平均,也就是 X 以機率 1 等於某個固定常數。任何真正的隨機性都會給出嚴格為正的變異數。
計算用公式
直接算 E[(X - mu)^2] 很笨拙——你得先求出 mu,再把這個 mu 揉進每一個平方差距裡,重新對每個結果求和。有一條友善得多的路,就是計算公式:Var(X) = E[X^2] - (E[X])^2。用文字說,變異數是「平方的平均」減去「平均的平方」。你算兩個普通的期望值——E[X^2] 和 E[X]——再相減即可。不必重新置中,不必跑第二趟。
只要把平方展開並用線性,它就直接掉出來。展開得到 E[(X - mu)^2] = E[X^2 - 2 mu X + mu^2]。現在期望值的線性把這個和拆開:E[X^2] - 2 mu E[X] + mu^2。但 E[X] 就是 mu,所以中間項是 -2 mu^2,最後一項是 +mu^2,剩下 E[X^2] - mu^2 = E[X^2] - (E[X])^2。整個推導不過是線性,加上「mu 是常數、可以從期望值裡拉出來」這件事。
- 取一顆公平骰子,X 在 1 到 6 上均勻。先求 E[X]:1 到 6 的平均是 3.5。
- 用 LOTUS 求 E[X^2]:(1 + 4 + 9 + 16 + 25 + 36)/6 = 91/6,約為 15.1667。
- 減去平均的平方:Var(X) = 91/6 - (3.5)^2 = 15.1667 - 12.25 = 2.9167,即 35/12。
- 檢查順序:E[X^2] = 15.17 不等於 (E[X])^2 = 12.25,兩者之差 2.92 就是變異數。把兩者對調會得到負數——那是一個告訴你算錯了的警訊。
標準差:用誠實單位表示的離散程度
變異數有個尷尬的特點:它的單位是平方的。如果 X 是以「元」計的賠付,那 Var(X) 的單位是「元的平方」,根本無從想像。平方把我們從抵消中救了出來,所以要把離散程度讀回原本的單位,我們只要開平方根。這就給出標準差,sigma = Var(X) 的平方根,寫成 sigma(X) 或就寫 sigma。對遊戲 B,Var(X) = 10000,所以 sigma = 100 元——一句乾淨的陳述:結果通常落在離平均 100 大約 100 元之處。
標準差才是人們真正會引用的數字,因為它和資料在同一個尺度上,你可以把它擺在平均數旁邊。一個摘述為「平均 50、sigma 5」的分布,意味著典型值聚集在 50 的幾個單位之內;「平均 50、sigma 40」則意味著它們散得到處都是。對鐘形曲線 X ~ Normal(mu, sigma^2) 來說,這兩個參數就是字面意義上的平均與變異數,而 sigma 是大約包含兩側各約 68% 機率的寬度——sigma 是衡量一個分布有多寬的天然尺規。
sigma 對縮放與平移如何反應值得一知,而它由縮放平移規則推出:Var(aX + b) = a^2 Var(X)。這裡藏了兩個教訓。加上常數 b 會把每個結果和平均一起平移,所以離均差距毫髮無傷、離散程度不變——加 b 完全消失。乘上 a 會把每個差距拉伸 a 倍,但變異數是把差距平方,所以它縮放 a^2 倍;開了根號後,標準差縮放 a 的絕對值倍。把每筆賠付加倍,sigma 加倍,但變異數變四倍。
把變數相加:獨立性終於開始要緊
在上一篇你看到了那個超能力:無論如何 E[X + Y] = E[X] + E[Y]——期望值的線性完全不需要獨立性。我們很想盼望變異數也一樣無憂無慮,但在這裡規則變了。誠實的陳述是和的變異數:Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)。那個多出來的項,兩倍的共變異數,衡量 X 與 Y 一起移動的程度——若它們傾向同漲同跌則為正,若一個漲時另一個跌則為負。
只有在共變異數為零時,變異數才乾淨地相加:Var(X + Y) = Var(X) + Var(Y)。若 X 與 Y 是獨立的,這就有保證,因為獨立變數的共變異數為零。這正是為什麼把許多獨立的測量取平均能縮小離散程度:變異數相加,但和被 n 除,於是平均值的變異數以 1/n 下降,sigma 則以 1 除以 n 的平方根下降。支配抽樣與大數法則的那條平方根定律,正是從這個可加性長出來的。
變異數能換來什麼,以及接下來是什麼
變異數不只是記帳;它給你一個保證。柴比雪夫不等式說,對任何具有有限變異數的分布,落在離平均超過 k 個標準差之外的機率至多是 1/k^2——所以至多四分之一的機率能落在兩個 sigma 之外,至多九分之一落在三個 sigma 之外。它是個寬鬆的界,正因為它對形狀不作任何假設,對任何分布一律有效。因此小的 sigma 確確實實把結果釘在平均附近,把離散程度化為一個具體的承諾:你會多常偏離。
在繼續之前有兩個誠實的提醒。第一,變異數假設「平方值」有一個有限的平均;有些重尾分布的變異數是無限或無定義的,對它們 sigma 根本不存在,柴比雪夫也無話可說。第二,sigma 摘述的是典型的離散程度,卻完全不說意外落在哪一側——一個分布可以右邊有長尾、左邊短,卻仍只報出一個看似對稱的 sigma。變異數衡量寬度,不衡量歪斜。
最後那個缺口正是通往本階段最後一篇的門。變異數由 E[(X - mu)^2]——對平均的二階動差——所建。推進到第三個這樣的平均,你會得到一個偵測歪斜的數(偏態);到第四個,你會感受到尾巴有多重(峰態)。這些更高階的動差是形狀的下一組刻度,甚至有一個單一的對象——動差生成函數——把它們一次全部打包。平均數定位了分布;變異數縮放了它;接下來的動差,將告訴你它完整的剪影。