動差生成函數

一個記得住一切的函數

到了現在，你會算期望值、變異數，原則上也會算任何一階的動差：E[X]、E[X^2]、E[X^3] 等等。每一個動差都是一個獨立的積分或求和，而每一個都告訴你關於隨機變數 X 形狀的一項事實——它落在哪裡、攤得多開、有多偏。一個自然的夢想，是把它們一次全裝進瓶子裡。動差生成函數（簡稱 mgf）正是這個瓶子：一個對虛擬變數 t 的單一函數，一旦到手，就能隨叫隨到地把每一個動差交給你。

定義很短。X 的 mgf 是 M(t) = E[e^(tX)]——把 e 升到 t 乘以 X 這個次方後的期望值——看成 t 在 0 附近的一個函數。就這樣。你拿普通的指數函數，代入 tX，再取平均。對離散型 X，你把 e^(tx) 乘以 P(X = x) 對各個值求和；對連續型 X，你把 e^(tx) 乘以密度去積分。輸出既不是機率，也不是單一動差；它是一條關於 t 的完整曲線，而它在 *t = 0 附近的行為*，偷偷地存下了整份動差清單。

它如何生成動差

這裡就是讓 mgf 名副其實的機制，也是本篇的重頭戲——下一篇會讓它大顯身手。把期望值裡的指數展開：M(t) = E[1 + tX + (t^2/2!) X^2 + (t^3/3!) X^3 + ...]。由期望值的線性，一個和的平均等於各平均之和，所以 M(t) = 1 + t E[X] + (t^2/2!) E[X^2] + (t^3/3!) E[X^3] + ...。把結構讀出來：mgf 是一個對 t 的冪級數，它的係數就是動差，再以階乘縮放。動差從來沒有遺失；它們不過就是 M 的泰勒係數。

這就給出一個乾淨的配方，把任何動差再拉出來，總結成那句口號——mgf 生成動差：把 M(t) 微分 k 次，再令 t = 0。每微分一次就剝掉一個 t 因子，並把級數整體往下挪一格，而在 0 處取值會殺掉所有殘存的項、只剩常數項——那正好就是 E[X^k]。所以第 k 階動差，就是 M 在零處的第 k 階導數。mgf 不只是*存下*動差；它讓你用一次微分、而不是一次新的積分，就把每一個動差*取回*。

M(t) = E[e^(tX)] = 1 + t E[X] + (t^2/2!) E[X^2] + (t^3/3!) E[X^3] + ...

  M'(0)   = E[X]          (first moment / the mean)
  M''(0)  = E[X^2]        (second moment)
  M^(k)(0)= E[X^k]        (k-th moment)

  Var(X)  = M''(0) - (M'(0))^2 = E[X^2] - (E[X])^2

把 mgf 微分 k 次、令 t = 0，第 k 階動差就掉出來；平均值與變異數隨之立得。

一個小小的實作例子

令 X 是單次擲銅板——一個伯努利變數，以機率 p 取 1、以機率 1 - p 取 0。它的 mgf 是一個兩項和：M(t) = e^(t*1) p + e^(t*0) (1 - p) = p e^t + (1 - p)。還沒用到微積分——只是把每個值代進 e^(tx)，再以它的機率加權。這條小公式裡，其實已經藏著平均值與變異數，就等著被微分出來。

寫下 mgf：M(t) = p e^t + (1 - p)。
一階導數：M'(t) = p e^t，所以 M'(0) = p e^0 = p。因此 E[X] = p——擲銅板平均為 p，正如預期。
二階導數：M''(t) 同樣是 p e^t，所以 M''(0) = p。因此 E[X^2] = p。（不意外：因為 X 只取 0 或 1，X^2 = X，所以兩者平均相同。）
變異數：Var(X) = E[X^2] - (E[X])^2 = p - p^2 = p(1 - p)。整個計算就出自一條公式與兩次微分。

注意剛才發生了什麼。我們從沒為平均值另起一個和、又為 E[X^2] 再起一個和；我們只寫了一個函數，然後微分。對更豐富的分配——卜瓦松、指數、常態——回報還要大得多，因為那些直接的動差積分可能很折磨人，而 mgf 卻是一個俐落的封閉形式，你愛微分幾次就微分幾次。這份省力是真的，但它甚至還不是 mgf 之所以重要的最深理由，下面幾節會說明。

兩項超能力：和與唯一性

mgf 的第一項超能力，是它處理獨立變數之和時的優雅——這正是機率學許多運作背後的引擎。若 X 與 Y 獨立、且 S = X + Y，那麼 M_S(t) = E[e^(t(X+Y))] = E[e^(tX) e^(tY)]，而由於獨立讓乘積的期望值能拆成期望值的乘積，這就等於 M_X(t) * M_Y(t)。換句話說：獨立變數之和的 mgf，是它們各自 mgf 的乘積。一個麻煩的密度卷積，變成了一次簡單的乘法——這就是下一篇所倚靠的和的 mgf 法則，幾乎毫不費力地把分配加總起來。

第二項超能力是唯一性定理，也是第 5 篇的主題：若兩個隨機變數在 0 附近的一個開區間上有相同的 mgf，它們就有相同的分配。正是這一點，讓乘法把戲真正有用——一旦你認出乘積 M_X(t) * M_Y(t) 是某個已知分配族的 mgf，你就能斷定 S 屬於那個族，再無需多做。這也是為什麼一個 mgf 能代替整個分配：它就如先前某個階段所說的，是披著轉換外衣的完整描述。

陷阱——以及補救

現在來談誠實的告誡，因為 mgf 有一個真正的弱點。那個定義用的平均 E[e^(tX)] 可能是無窮大。對重尾分配而言，e^(tX) 的權重在尾端長得太快，使得除了 t = 0 之外，對每一個 t 那個和或積分都發散，於是 mgf 就根本不存在、無法當成一個可用的函數。柯西分配是經典的麻煩製造者：它的尾巴胖到連 E[X] 都不存在，所以它壓根沒有 mgf。一個不存在的 mgf，既不能生成動差、不能在求和時相乘、也不能釘住一個分配——超能力跟著它一起消失。

正是在這裡，這個階段其餘的內容值回票價，它提供兩種補救。對只取計數 0、1、2、... 的變數，第 3 篇的機率生成函數（pgf），定義為 E[s^X]，量身打造，而且對 s 在 [0, 1] 內永遠有限。而對於*任何*一個隨機變數，第 4 篇的特徵函數——定義為 E[e^(itX)]，指數裡帶一個虛數 i——永遠有限，因為 e^(itX) 落在單位圓上，絕不爆掉。特徵函數就是 mgf 那位刀槍不入的表親：同樣有生成動差、求和時相乘、釘住分配的本領，卻完全沒有存在性的隱憂。

所以把 mgf 放在它恰當的位置上。當它存在時——對二項、卜瓦松、指數、常態這些日常分配族，它在 0 的某個鄰域上確實存在——它是最親切的工具，因為它就活在你早已熟悉的純實數微積分裡。pgf 是它處理計數的專家，而特徵函數是它永遠可用的後盾。在接下來的四篇裡，你會看到同樣那三項工作——生成動差、把和變成乘積、唯一地辨認一個分配——由最適合眼前那個變數的轉換來分別完成。