動差、偏態與分配的形狀

從平均數與變異數走向一整族數字

到目前為止，你已能用兩個數字總結一個隨機變數：期望值 E[X]，它標出分配的平衡點所在；以及變異數 Var(X)，它量度分配通常離那個平衡點散開多遠。這兩者確實有用，但想想它們看不到什麼。兩個分配可以有完全相同的平均數、完全相同的變異數，卻看起來截然不同——一個對稱、一個歪斜；一個尾部很薄、一個容易出現狂野的極端值。中心與散布只是形狀的前兩項事實。要捕捉其餘的部分，我們需要更多同類的數字。

統一的概念就是動差。X 的第 k 階動差不過是 k 次方的期望值，即 E[X^k]。第一階動差 E[X^1] 就是平均數。更高階的動差 E[X^2]、E[X^3]、E[X^4] 等等，會把離零越遠的 X 取值看得越來越重，因為提升到較大的次方會劇烈放大大數值。每一個動差的算法你都已經知道——透過無意識統計學家定律，把 x^k 對著分配做加總或積分。所以動差不是新工具；它就是同一台期望值機器，只是餵進去的函數變成 x、x^2、x^3 一路下去。

偏態：分配往哪一邊傾斜？

第三階中心動差 E[(X - mu)^3] 回答了一個平均數與變異數無法回答的問題：分配是對稱的，還是偏向某一側？立方是關鍵。當 X 在平均數之上時，(X - mu)^3 為正；在其下時為負；而立方會嚴厲地放大距離。所以若一個分配有一條細長的尾巴朝右延伸，那些罕見的大正偏差被立方後變成巨大的正貢獻，壓過眾多小的負貢獻，於是第三階中心動差呈正。一條長的左尾則使它為負。一個完全對稱的分配會使它恰為零，因為正立方與負立方互相抵消。

為了讓不同尺度的分配之間可以比較，我們除以標準差的立方，得到無量綱的偏態：偏態 = E[(X - mu)^3] / sigma^3。除以 sigma^3 把單位剝除，於是以美元計的薪資分配與以公分計的身高分配就能放在同一尺度上比較。正偏態表示尾巴在右（想想收入：多數人擠在低處，少數巨額所得者把尾巴拉長）。負偏態表示尾巴在左。零偏態則是對稱的情形，常態分配就是著名的例子。

峰態：尾部有多厚？

第四階中心動差 E[(X - mu)^4]，藉由除以 sigma^4 縮放成無量綱的數字，就得到峰態。由於次方是偶數，正負號不再重要——左偏差與右偏差都做正貢獻——所以峰態對傾斜視而不見，轉而量度另一件事：分配的行為有多少來自罕見的極端偏差。四次方對遠處的取值加權極重，使峰態本質上成了一個尾部重量偵測器。高峰態意味著厚尾：多數時候風平浪靜，但極端事件比常態曲線所暗示的更常出現。

常態分配是天然的標尺：它的峰態恰為 3。由於這個基準如此好用，人們常引用超額峰態，即減去 3，使常態的超額峰態為 0。超額峰態為正的分配，尾部比常態更厚——更容易出現極端值。金融報酬是個經典的真實例子：多數日子裡看起來大致呈鐘形，卻比常態更頻繁地產生崩盤，所以它的超額峰態為正。這正是匆匆一瞥平均數與變異數時會被掩蓋的那種風險。

這裡有個誠實的玄機，把這一整個梯級串了起來。第一階之後的每一個動差，都是 X 某個高次方的期望值，而那個期望值唯有在相關的積分或加總收斂時才存在。對厚尾分配而言，某些動差根本就是無限或無定義的。柯西分配就是個警世故事：它根本沒有平均數（因此沒有變異數、沒有偏態、沒有峰態），因為它的尾部太肥，連 E[X] 都無法收斂。指數很小的帕雷托分配可以有有限的平均數卻有無限的變異數。所以動差雖強大，卻不保證存在——分配沒有義務把你想要的數字交出來。

動差生成函數：一台機器，全部的動差

用積分 x^k 一個一個算動差很乏味。動差生成函數（簡稱 mgf）把 X 的所有動差打包進一個關於輔助變數 t 的單一函數。它定義為 e^(tX) 的期望值：M(t) = E[e^(tX)]。乍看這是個奇怪的計算對象，但魔法藏在指數函數的泰勒級數裡。由於 e^(tX) = 1 + tX + (tX)^2/2! + (tX)^3/3! + ...，逐項取期望值便得到 M(t) = 1 + t E[X] + t^2 E[X^2]/2! + t^3 E[X^3]/3! + ...——每一個動差都坐在裡面，由它自己那個 t 的次方標記著。

正是這個結構讓它被稱為*生成*函數：動差被編碼成它泰勒展開式的係數。要取出第 k 階動差，你就把 M(t) 微分 k 次再令 t = 0。每次微分敲掉一個 t 的次方，而在零處求值會把其餘各項全部歸零，恰好剩下 E[X^k]。所以 M'(0) = E[X]、M''(0) = E[X^2]，依此類推。一個函數，反覆微分，就把整座動差階梯交到你手上——不必為每一階各算一次積分。

M(t)  = E[e^(tX)]                       (definition)
      = 1 + t E[X] + t^2/2! E[X^2] + ...  (Taylor series)

  M'(0)  = E[X]        (1st moment = mean)
  M''(0) = E[X^2]      (2nd raw moment)

  Var(X) = M''(0) - (M'(0))^2 = E[X^2] - (E[X])^2

動差生成函數、它的泰勒結構，以及直接從它在零處的導數讀出前兩階動差。

動差生成函數的價值不止於記帳。它近乎是一個分配的指紋：根據唯一性定理，若兩個隨機變數在零附近的某區間上有相同的動差生成函數，它們就有相同的分配。這把困難的機率問題化成了代數——例如，獨立變數之和的動差生成函數，不過是各自動差生成函數的乘積，這正是你幾乎不費吹灰之力就能證明「獨立常態之和仍為常態」的方法。

當動差生成函數失效時，以及動差的極限

對一個真實的侷限要誠實：動差生成函數並非總是存在。E[e^(tX)] 要求這個期望值在零附近某區間內的 t 都有限，而對厚尾分配而言，它可能對每個 t > 0 都是無限的。對數常態分配是個著名例子——它的所有動差都有限，動差生成函數卻在任何區間上都不存在，所以你無法單憑動差還原它。柯西分配根本談不上有動差，也沒有動差生成函數。當動差生成函數缺席時，這台機器根本發動不了。

機率學家用一個更耐用的表親來修補這點，就是特徵函數 E[e^(itX)]，其中 i 是虛數單位。關鍵差別在於 |e^(itX)| 恆等於 1，所以無論尾部多厚，這個期望值都恆為有限。這正是為何特徵函數對每一個分配都存在——包括柯西與對數常態——而動差生成函數只是個時有時無的便利品。特徵函數帶有相同的指紋與「和化乘積」的魔法；它就是那個永不故障的版本。等我們用轉換法證明中央極限定理時，你會正式遇到它。

退一步，看看這個梯級給了你什麼。期望值定下中心；變異數定下散布；偏態與峰態讀出傾斜與尾部；而生成函數把這一整族打包成一個可以微分或相乘的物件。但還要記住一個提醒。有限多個動差很少能把一個分配完全釘死，而平均數尤其在資料偏斜或厚尾時可能誤導——而那恰恰是眾數或中位數可能把『典型』值描述得好得多的時候。動差是描述形狀的強大語言，但它們是一種描述，而非全部真相——而知道它們何時力有未逮，本身就是精通它們的一部分。