特徵函數：永遠都在

為什麼動差生成函數從來都不夠安全

走進這個階段的第三篇導引，你已經對動差生成函數 M_X(t) = E[e^(tX)] 產生了感情。它靠著在零點微分來生成動差，也把獨立變數之和變成乘積，M_(X+Y)(t) = M_X(t) M_Y(t)——正是讓卷積不再痛苦的那個和的動差生成函數技巧。但地基裡有一道裂縫，我們現在必須正面面對：動差生成函數是 e^(tX) 的期望值，而 e^(tX) 可能爆掉。如果 X 的尾巴夠重，那個期望值對除了零以外的「每一個」t 都是無限大，於是動差生成函數作為一個可以微分的函數，根本就不存在。

這並不是一種你可以揮手帶過的罕見病態。對數常態分配——股價與許多正值量的模型——對「每一個」正的 t，其動差生成函數都是無限大。Student's t 分配，小樣本統計的主力，根本沒有動差生成函數，因為它的尾巴只以多項式速率衰減。就連完全平常、有著乾淨鐘形密度的柯西分配，也沒有動差生成函數，甚至連平均都沒有。只要 e^(tX) 增長得比密度 f(x) 衰減得快，積分 E[e^(tX)] 就發散，動差生成函數就消失了。一個恰好在尾巴變得有趣時就消失的工具，是你無法用來建立深層理論的工具。

一個小修補：在指數裡放一個 i

這個修補小到幾乎令人尷尬。動差生成函數用的是實數指數 e^(tX)，它可能衝向無限大。把實數 t 換成虛數——乘上虛數單位 i——並定義特徵函數，特徵函數：phi_X(t) = E[e^(itX)]。那一個 i 改變了一切。由歐拉公式，e^(itX) = cos(tX) + i sin(tX)，這是一個隨著 X 變化而在複數平面上沿著單位圓移動的點。它永遠不會增長。無論 X 多大、多狂野，它的大小永遠恰好是 1。

這就是它拯救我們的原因。要取期望值，你需要裡頭那個東西是可積的，而 cos 與 sin 是有界的——它們永遠待在 -1 與 +1 之間。所以對 X 的每一個值都有 |e^(itX)| = 1，而一個大小永遠是 1 的東西，其平均絕不可能是無限大。因此積分 E[e^(itX)] 保證對每一個實數 t、對地球上每一個分配都收斂。這就是頭條事實，特徵函數永遠存在：它是整條實數線上一個貨真價實、有限、連續的函數——沒有尾巴條件、沒有附帶細則、沒有例外。

mgf:   M_X(t)   = E[ e^(tX) ]      real exponent  -> can be INFINITE
chf:   phi_X(t) = E[ e^(itX) ]     imaginary exp  -> ALWAYS finite

   e^(itX) = cos(tX) + i sin(tX)      a point on the unit circle
   | e^(itX) | = 1   for every X      ->   | phi_X(t) | <= 1 always

   phi_X(0) = E[1] = 1                 always anchored at 1

link:  if the mgf exists,  phi_X(t) = M_X(i t)   (same object, rotated)

從動差生成函數到特徵函數，唯一的改變就是指數裡那個 i——但它把一個有時無限大的期望值，變成一個永遠有限的期望值。

同樣的好習慣，現在無條件成立

你喜歡的那些威力，一個都沒有失去。動差生成函數做過的每一件事，特徵函數也都做得到——只是現在它對每一個分配都做得到。獨立性依然把和壓縮成乘積：若 X 與 Y 獨立，phi_(X+Y)(t) = phi_X(t) phi_Y(t)，與和的動差生成函數規則完全相同的分解，因為 e^(it(X+Y)) = e^(itX) e^(itY)，而獨立性讓乘積的期望值得以拆開。所以密度的卷積依然只是變換的乘積——只是這一次，連對那些動差生成函數什麼都給不了的重尾部件，變換都永遠在那裡等著被相乘。

動差也一樣靠微分跑出來，只多了一個記帳用的因子。微分 phi_X(t) = E[e^(itX)] 每次會帶下一個 iX 的因子，所以在零點的第 k 階導數是 phi_X^(k)(0) = i^k E[X^k]。反過來讀就是 E[X^k] = phi_X^(k)(0) / i^k。例如 phi_X'(0) = i E[X]，所以平均是一階導數除以 i。這裡有一個誠實的但書：這些動差公式只在分配確實具有有限動差的範圍內才成立。對沒有平均的柯西而言，特徵函數依然存在（它是 e^(-|t|)），但它在 t = 0 處不可微——這是一個乾淨的訊號，告訴你平均不存在，而不是一個矛盾。

標準常態 X ~ Normal(0, 1)：從它已知的動差生成函數 M_X(t) = e^(t^2/2) 出發，這成立是因為常態尾巴很輕。
用 it 代換 t 來「旋轉」（連結式 phi_X(t) = M_X(it)）：phi_X(t) = e^((it)^2/2) = e^(-t^2/2)。
驗證平均：phi_X'(t) = -t e^(-t^2/2)，所以 phi_X'(0) = 0 = i E[X]，得到 E[X] = 0。正確。
驗證二階動差：phi_X''(0) = -1 = i^2 E[X^2] = -E[X^2]，所以 E[X^2] = 1，因而 Var(X) = 1。正確。

它依然能釘住分配——而且是唯一地

這些變換值得隨身攜帶的理由，在於它們是一個忠實的指紋：兩個有相同變換的分配，就是同一個分配。這個承諾在轉到特徵函數時不僅存活下來，還變得更強。唯一性定理說，若對所有實數 t 都有 phi_X(t) = phi_Y(t)，則 X 與 Y 有完全相同的分配——沒有模稜兩可、沒有遺漏的情況。（本階段的下一篇導引將完整探討這個「釘住」的想法；在這裡只要先抓住：特徵函數確實能釘住分配。）

更棒的是，你可以倒著走。動差生成函數沒有一個通用、永遠有效的反演，但特徵函數有：傅立葉反演公式透過一個積分從 phi_X 還原出密度，因為特徵函數恰好就是分配的傅立葉變換。所以 phi_X 不是一個丟掉資訊的單向摘要——整個分配都編碼在它裡頭，並且能被讀回來。這正是為什麼「相同特徵函數蘊涵相同分配」是一條定理，而不僅僅是一個願望。

機率學家真正伸手去拿它的原因：極限定理

最深刻的回報是：特徵函數掌控極限。Lévy 連續性定理就是那座橋：一列分配收斂（依分配收斂，也就是對中央極限定理而言要緊的那種收斂）若且唯若它們的特徵函數逐點收斂到一個在零點連續的函數——而那個極限特徵函數於是就是極限分配的特徵函數。線上曲線的收斂變成了分配的收斂。這正是早先的階段在說「變換證明中央極限定理」時所暗示的那台乾淨而嚴謹的機器。

看看中央極限定理變得多麼乾淨。取平均為 0、變異數為 1 的獨立同分配部件，看標準化的和 S_n / sqrt(n)。因為獨立性把和變成乘積，標準化和的特徵函數是 [phi(t / sqrt(n))]^n。一個兩項的泰勒展開給出 phi(t / sqrt(n)) 約等於 1 - t^2/(2n)，而 (1 - t^2/(2n))^n 收斂到 e^(-t^2/2)——我們上面算過，這恰好是標準常態的特徵函數。由 Lévy 定理，標準化和收斂到 Normal(0, 1)。鐘形曲線不是被假設的；它從一個乘積的極限裡掉了出來。

而特徵函數買給你的那份誠實，值得強調。那個泰勒步驟需要 phi 在零點有兩階導數——也就是 X 需要有限的變異數。柯西分配的特徵函數是 e^(-|t|)，它在零點有一個尖角、沒有二階導數，所以這套論證根本無法起步：中央極限定理對柯西是真的失效的，事實上 n 個柯西變數的平均又是柯西，並不比一個來得窄。動差生成函數連這些情況都看不見，因為它對它們不存在。特徵函數存在、守規矩，並且精確地告訴你定理活在哪裡、死在哪裡——這正是為什麼它是嚴謹理論據以建立的工具。