一個記得住一切的函數
到了現在,你會算期望值、變異數,原則上也會算任何一階的動差:E[X]、E[X^2]、E[X^3] 等等。每一個動差都是一個獨立的積分或求和,而每一個都告訴你關於隨機變數 X 形狀的一項事實——它落在哪裡、攤得多開、有多偏。一個自然的夢想,是把它們一次全裝進瓶子裡。動差生成函數(簡稱 mgf)正是這個瓶子:一個對虛擬變數 t 的單一函數,一旦到手,就能隨叫隨到地把每一個動差交給你。
定義很短。X 的 mgf 是 M(t) = E[e^(tX)]——把 e 升到 t 乘以 X 這個次方後的期望值——看成 t 在 0 附近的一個函數。就這樣。你拿普通的指數函數,代入 tX,再取平均。對離散型 X,你把 e^(tx) 乘以 P(X = x) 對各個值求和;對連續型 X,你把 e^(tx) 乘以密度去積分。輸出既不是機率,也不是單一動差;它是一條關於 t 的完整曲線,而它在 *t = 0 附近的行為*,偷偷地存下了整份動差清單。
它如何生成動差
這裡就是讓 mgf 名副其實的機制,也是本篇的重頭戲——下一篇會讓它大顯身手。把期望值裡的指數展開:M(t) = E[1 + tX + (t^2/2!) X^2 + (t^3/3!) X^3 + ...]。由期望值的線性,一個和的平均等於各平均之和,所以 M(t) = 1 + t E[X] + (t^2/2!) E[X^2] + (t^3/3!) E[X^3] + ...。把結構讀出來:mgf 是一個對 t 的冪級數,它的係數就是動差,再以階乘縮放。動差從來沒有遺失;它們不過就是 M 的泰勒係數。
這就給出一個乾淨的配方,把任何動差再拉出來,總結成那句口號——mgf 生成動差:把 M(t) 微分 k 次,再令 t = 0。每微分一次就剝掉一個 t 因子,並把級數整體往下挪一格,而在 0 處取值會殺掉所有殘存的項、只剩常數項——那正好就是 E[X^k]。所以第 k 階動差,就是 M 在零處的第 k 階導數。mgf 不只是*存下*動差;它讓你用一次微分、而不是一次新的積分,就把每一個動差*取回*。
M(t) = E[e^(tX)] = 1 + t E[X] + (t^2/2!) E[X^2] + (t^3/3!) E[X^3] + ... M'(0) = E[X] (first moment / the mean) M''(0) = E[X^2] (second moment) M^(k)(0)= E[X^k] (k-th moment) Var(X) = M''(0) - (M'(0))^2 = E[X^2] - (E[X])^2
一個小小的實作例子
令 X 是單次擲銅板——一個伯努利變數,以機率 p 取 1、以機率 1 - p 取 0。它的 mgf 是一個兩項和:M(t) = e^(t*1) p + e^(t*0) (1 - p) = p e^t + (1 - p)。還沒用到微積分——只是把每個值代進 e^(tx),再以它的機率加權。這條小公式裡,其實已經藏著平均值與變異數,就等著被微分出來。
- 寫下 mgf:M(t) = p e^t + (1 - p)。
- 一階導數:M'(t) = p e^t,所以 M'(0) = p e^0 = p。因此 E[X] = p——擲銅板平均為 p,正如預期。
- 二階導數:M''(t) 同樣是 p e^t,所以 M''(0) = p。因此 E[X^2] = p。(不意外:因為 X 只取 0 或 1,X^2 = X,所以兩者平均相同。)
- 變異數:Var(X) = E[X^2] - (E[X])^2 = p - p^2 = p(1 - p)。整個計算就出自一條公式與兩次微分。
注意剛才發生了什麼。我們從沒為平均值另起一個和、又為 E[X^2] 再起一個和;我們只寫了一個函數,然後微分。對更豐富的分配——卜瓦松、指數、常態——回報還要大得多,因為那些直接的動差積分可能很折磨人,而 mgf 卻是一個俐落的封閉形式,你愛微分幾次就微分幾次。這份省力是真的,但它甚至還不是 mgf 之所以重要的最深理由,下面幾節會說明。
兩項超能力:和與唯一性
mgf 的第一項超能力,是它處理獨立變數之和時的優雅——這正是機率學許多運作背後的引擎。若 X 與 Y 獨立、且 S = X + Y,那麼 M_S(t) = E[e^(t(X+Y))] = E[e^(tX) e^(tY)],而由於獨立讓乘積的期望值能拆成期望值的乘積,這就等於 M_X(t) * M_Y(t)。換句話說:獨立變數之和的 mgf,是它們各自 mgf 的乘積。一個麻煩的密度卷積,變成了一次簡單的乘法——這就是下一篇所倚靠的 和的 mgf 法則,幾乎毫不費力地把分配加總起來。
第二項超能力是唯一性定理,也是第 5 篇的主題:若兩個隨機變數在 0 附近的一個開區間上有相同的 mgf,它們就有相同的分配。正是這一點,讓乘法把戲真正有用——一旦你認出乘積 M_X(t) * M_Y(t) 是某個已知分配族的 mgf,你就能斷定 S 屬於那個族,再無需多做。這也是為什麼一個 mgf 能代替整個分配:它就如先前某個階段所說的,是披著轉換外衣的完整描述。
陷阱——以及補救
現在來談誠實的告誡,因為 mgf 有一個真正的弱點。那個定義用的平均 E[e^(tX)] 可能是無窮大。對重尾分配而言,e^(tX) 的權重在尾端長得太快,使得除了 t = 0 之外,對每一個 t 那個和或積分都發散,於是 mgf 就根本不存在、無法當成一個可用的函數。柯西分配是經典的麻煩製造者:它的尾巴胖到連 E[X] 都不存在,所以它壓根沒有 mgf。一個不存在的 mgf,既不能生成動差、不能在求和時相乘、也不能釘住一個分配——超能力跟著它一起消失。
正是在這裡,這個階段其餘的內容值回票價,它提供兩種補救。對只取計數 0、1、2、... 的變數,第 3 篇的機率生成函數(pgf),定義為 E[s^X],量身打造,而且對 s 在 [0, 1] 內永遠有限。而對於*任何*一個隨機變數,第 4 篇的特徵函數——定義為 E[e^(itX)],指數裡帶一個虛數 i——永遠有限,因為 e^(itX) 落在單位圓上,絕不爆掉。特徵函數就是 mgf 那位刀槍不入的表親:同樣有生成動差、求和時相乘、釘住分配的本領,卻完全沒有存在性的隱憂。
所以把 mgf 放在它恰當的位置上。當它存在時——對二項、卜瓦松、指數、常態這些日常分配族,它在 0 的某個鄰域上確實存在——它是最親切的工具,因為它就活在你早已熟悉的純實數微積分裡。pgf 是它處理計數的專家,而特徵函數是它永遠可用的後盾。在接下來的四篇裡,你會看到同樣那三項工作——生成動差、把和變成乘積、唯一地辨認一個分配——由最適合眼前那個變數的轉換來分別完成。