JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

特徵函數:永遠都在

動差生成函數友善卻脆弱——對某些分配而言它根本就是無限大。把實數指數換成複數指數,你就得到特徵函數,它對「每一個」分配毫無例外地存在,保留了一切好習慣(和變成乘積、唯一地釘住分配),並成為中央極限定理背後那個嚴謹的工具。

為什麼動差生成函數從來都不夠安全

走進這個階段的第三篇導引,你已經對動差生成函數 M_X(t) = E[e^(tX)] 產生了感情。它靠著在零點微分來生成動差,也把獨立變數之和變成乘積,M_(X+Y)(t) = M_X(t) M_Y(t)——正是讓卷積不再痛苦的那個 和的動差生成函數技巧。但地基裡有一道裂縫,我們現在必須正面面對:動差生成函數是 e^(tX) 的期望值,而 e^(tX) 可能爆掉。如果 X 的尾巴夠重,那個期望值對除了零以外的「每一個」t 都是無限大,於是動差生成函數作為一個可以微分的函數,根本就不存在。

這並不是一種你可以揮手帶過的罕見病態。對數常態分配——股價與許多正值量的模型——對「每一個」正的 t,其動差生成函數都是無限大。Student's t 分配,小樣本統計的主力,根本沒有動差生成函數,因為它的尾巴只以多項式速率衰減。就連完全平常、有著乾淨鐘形密度的柯西分配,也沒有動差生成函數,甚至連平均都沒有。只要 e^(tX) 增長得比密度 f(x) 衰減得快,積分 E[e^(tX)] 就發散,動差生成函數就消失了。一個恰好在尾巴變得有趣時就消失的工具,是你無法用來建立深層理論的工具。

一個小修補:在指數裡放一個 i

這個修補小到幾乎令人尷尬。動差生成函數用的是實數指數 e^(tX),它可能衝向無限大。把實數 t 換成虛數——乘上虛數單位 i——並定義特徵函數特徵函數:phi_X(t) = E[e^(itX)]。那一個 i 改變了一切。由歐拉公式,e^(itX) = cos(tX) + i sin(tX),這是一個隨著 X 變化而在複數平面上沿著單位圓移動的點。它永遠不會增長。無論 X 多大、多狂野,它的大小永遠恰好是 1。

這就是它拯救我們的原因。要取期望值,你需要裡頭那個東西是可積的,而 cos 與 sin 是有界的——它們永遠待在 -1 與 +1 之間。所以對 X 的每一個值都有 |e^(itX)| = 1,而一個大小永遠是 1 的東西,其平均絕不可能是無限大。因此積分 E[e^(itX)] 保證對每一個實數 t、對地球上每一個分配都收斂。這就是頭條事實,特徵函數永遠存在:它是整條實數線上一個貨真價實、有限、連續的函數——沒有尾巴條件、沒有附帶細則、沒有例外。

mgf:   M_X(t)   = E[ e^(tX) ]      real exponent  -> can be INFINITE
chf:   phi_X(t) = E[ e^(itX) ]     imaginary exp  -> ALWAYS finite

   e^(itX) = cos(tX) + i sin(tX)      a point on the unit circle
   | e^(itX) | = 1   for every X      ->   | phi_X(t) | <= 1 always

   phi_X(0) = E[1] = 1                 always anchored at 1

link:  if the mgf exists,  phi_X(t) = M_X(i t)   (same object, rotated)
從動差生成函數到特徵函數,唯一的改變就是指數裡那個 i——但它把一個有時無限大的期望值,變成一個永遠有限的期望值。

同樣的好習慣,現在無條件成立

你喜歡的那些威力,一個都沒有失去。動差生成函數做過的每一件事,特徵函數也都做得到——只是現在它對每一個分配都做得到。獨立性依然把和壓縮成乘積:若 X 與 Y 獨立,phi_(X+Y)(t) = phi_X(t) phi_Y(t),與和的動差生成函數規則完全相同的分解,因為 e^(it(X+Y)) = e^(itX) e^(itY),而獨立性讓乘積的期望值得以拆開。所以密度的卷積依然只是變換的乘積——只是這一次,連對那些動差生成函數什麼都給不了的重尾部件,變換都永遠在那裡等著被相乘。

動差也一樣靠微分跑出來,只多了一個記帳用的因子。微分 phi_X(t) = E[e^(itX)] 每次會帶下一個 iX 的因子,所以在零點的第 k 階導數是 phi_X^(k)(0) = i^k E[X^k]。反過來讀就是 E[X^k] = phi_X^(k)(0) / i^k。例如 phi_X'(0) = i E[X],所以平均是一階導數除以 i。這裡有一個誠實的但書:這些動差公式只在分配確實具有有限動差的範圍內才成立。對沒有平均的柯西而言,特徵函數依然存在(它是 e^(-|t|)),但它在 t = 0 處不可微——這是一個乾淨的訊號,告訴你平均不存在,而不是一個矛盾。

  1. 標準常態 X ~ Normal(0, 1):從它已知的動差生成函數 M_X(t) = e^(t^2/2) 出發,這成立是因為常態尾巴很輕。
  2. 用 it 代換 t 來「旋轉」(連結式 phi_X(t) = M_X(it)):phi_X(t) = e^((it)^2/2) = e^(-t^2/2)。
  3. 驗證平均:phi_X'(t) = -t e^(-t^2/2),所以 phi_X'(0) = 0 = i E[X],得到 E[X] = 0。正確。
  4. 驗證二階動差:phi_X''(0) = -1 = i^2 E[X^2] = -E[X^2],所以 E[X^2] = 1,因而 Var(X) = 1。正確。

它依然能釘住分配——而且是唯一地

這些變換值得隨身攜帶的理由,在於它們是一個忠實的指紋:兩個有相同變換的分配,就是同一個分配。這個承諾在轉到特徵函數時不僅存活下來,還變得更強。唯一性定理說,若對所有實數 t 都有 phi_X(t) = phi_Y(t),則 X 與 Y 有完全相同的分配——沒有模稜兩可、沒有遺漏的情況。(本階段的下一篇導引將完整探討這個「釘住」的想法;在這裡只要先抓住:特徵函數確實能釘住分配。)

更棒的是,你可以倒著走。動差生成函數沒有一個通用、永遠有效的反演,但特徵函數有:傅立葉反演公式透過一個積分從 phi_X 還原出密度,因為特徵函數恰好就是分配的傅立葉變換。所以 phi_X 不是一個丟掉資訊的單向摘要——整個分配都編碼在它裡頭,並且能被讀回來。這正是為什麼「相同特徵函數蘊涵相同分配」是一條定理,而不僅僅是一個願望。

機率學家真正伸手去拿它的原因:極限定理

最深刻的回報是:特徵函數掌控極限。Lévy 連續性定理就是那座橋:一列分配收斂(依分配收斂,也就是對中央極限定理而言要緊的那種收斂)若且唯若它們的特徵函數逐點收斂到一個在零點連續的函數——而那個極限特徵函數於是就是極限分配的特徵函數。線上曲線的收斂變成了分配的收斂。這正是早先的階段在說「變換證明中央極限定理」時所暗示的那台乾淨而嚴謹的機器。

看看中央極限定理變得多麼乾淨。取平均為 0、變異數為 1 的獨立同分配部件,看標準化的和 S_n / sqrt(n)。因為獨立性把和變成乘積,標準化和的特徵函數是 [phi(t / sqrt(n))]^n。一個兩項的泰勒展開給出 phi(t / sqrt(n)) 約等於 1 - t^2/(2n),而 (1 - t^2/(2n))^n 收斂到 e^(-t^2/2)——我們上面算過,這恰好是標準常態的特徵函數。由 Lévy 定理,標準化和收斂到 Normal(0, 1)。鐘形曲線不是被假設的;它從一個乘積的極限裡掉了出來。

而特徵函數買給你的那份誠實,值得強調。那個泰勒步驟需要 phi 在零點有兩階導數——也就是 X 需要有限的變異數。柯西分配的特徵函數是 e^(-|t|),它在零點有一個尖角、沒有二階導數,所以這套論證根本無法起步:中央極限定理對柯西是真的失效的,事實上 n 個柯西變數的平均又是柯西,並不比一個來得窄。動差生成函數連這些情況都看不見,因為它對它們不存在。特徵函數存在、守規矩,並且精確地告訴你定理活在哪裡、死在哪裡——這正是為什麼它是嚴謹理論據以建立的工具。