為何中央極限定理需要有限變異數

變異數藏在敘述的哪裡

在前一篇指南裡，你見到了中央極限定理的標準形式：對於獨立、同分配的變數 X_1, ..., X_n，其平均為 mu、變異數為有限的 sigma^2，標準化後的和 (X_1 + ... + X_n - n*mu) / (sigma * sqrt(n)) 會依分配收斂到標準常態分配。慢慢讀這句話，你會發現 sigma^2 同時出現在三個地方。它被假設為有限的；它就是我們拿來相除的那個尺度 sigma * sqrt(n)；而它又以極限鐘形曲線之變異數的身分存活下來。這個定理是用變異數搭建起來的——所以拿走變異數會把它拆垮，也就不令人意外了。

變異數恰好是正確「貨幣」的深層原因，在於那個 根號 n 的尺度。n 個獨立副本之和的平均以 n 的速度增長，標準差則以 sqrt(n) 的速度增長，所以這個和是以 sqrt(n) 的速度散開——這正是我們除以 sqrt(n)、而不是除以其他次方的原因。但「標準差以 sqrt(n) 增長」這件事，只有在每一項都貢獻有限、彼此可比的變異數時才成立。整部機器都假設：無論哪一項跑到多遠，都不可能主宰整堆。一旦拿掉有限變異數，這個承諾就蒸發了：單獨一個怪異的項，就可能壓過其他所有項的總和。

柯西分配：一個拒絕被平均的分配

看這個定理失效最乾淨的地方，是柯西分配，它的密度是溫和的小丘 f(x) = 1 / (pi * (1 + x^2))。它看起來人畜無害——對稱、在零處有峰、隱約有點鐘形——但它的尾端只以 1/x^2 的速度衰減，慢得不像話。定義平均的那個積分，也就是 x * f(x) 的積分，甚至根本不收斂；柯西分配連一個有良好定義的期望值都沒有，因此當然也沒有有限的變異數。它在我們開始之前，就已經不滿足中央極限定理的前提了。

現在來看真正驚人的部分。取 n 個獨立的柯西變數並把它們平均。你會希望——如同任何乖巧的分配那樣——平均 X-bar 隨著 n 增大而朝某個中心收緊。它不會。一個了不起的事實——用特徵函數一行就能證明——是：n 個獨立標準柯西變數的平均，本身對每個 n 都恰好還是標準柯西。把一千個平均起來，你拿回來的還是當初那個一模一樣寬的分配。離散程度永遠不縮；柯西分配的大數法則也一併失效，而鐘形曲線從未出現。

用特徵函數的一行證明

這個計算值得親眼看一次，因為它精確地顯示出尋常的中央極限定理機器卡在哪裡。特徵函數把和變成乘積：對於獨立的變數，和的特徵函數等於各自特徵函數的乘積。對 n 個獨立標準柯西變數，每一個貢獻 e^(-|t|)，所以它們的和 S_n 的特徵函數是 e^(-n|t|)。平均是 S_n / n，而用 1/n 重新縮放，相當於把函數裡的 t 換成 t/n。看看會發生什麼事。

一路跟著算下去。單個標準柯西的 phi(t) = e^(-|t|)，所以獨立和 S_n 的 phi_{S_n}(t) = (e^(-|t|))^n = e^(-n|t|)。平均是 X-bar = S_n / n，而用 1/n 重新縮放，意思就是在 t/n 處取值：phi_{X-bar}(t) = phi_{S_n}(t/n) = e^(-n*|t/n|) = e^(-|t|)。把和除以 n，恰好抵消了指數裡的 n，留下的正是單個柯西的特徵函數。平均被卡死為柯西、永不集中。注意這跟中央極限定理的對比——那裡正確的重新縮放是除以 sqrt(n)；在這裡那會給出 e^(-sqrt(n)|t|)，毫無用處，而有限變異數的情形則改為收斂到高斯 e^(-t^2/2)。

拿它跟一個有限變異數的變數比一比，後者的特徵函數在零附近長得像 1 - (sigma^2 * t^2)/2 + ...，是一條平滑的拋物線。那個小小的 t^2 項就是變異數，而它正是中央極限定理證明在 sqrt(n) 重新縮放之後，指數化成高斯 e^(-t^2/2) 的那個東西。柯西分配的特徵函數則在原點有一個尖角——它的行為像 1 - |t| + ...，找不到 t^2 項，因為根本沒有變異數能提供一個。沒有二次項，就沒有高斯極限。那個缺席的變異數，就明明白白地寫在變換的形狀裡。

尾巴多重才算太重？

柯西分配不是怪胎；它是一整個家族浮出水面的那一角。衡量危險程度的正確方法是尾端指數。假設一個分配的尾端以冪次衰減，對大的 x 有 P(|X| > x) 約為 C / x^alpha。變異數是 x^2 對密度的積分，所以只有在尾端死得夠快、足以制服那多出來的 x^2 時，它才有限——算出來是 alpha > 2。而只要 alpha > 1，平均就還活著。於是有三種情形，其中只有一種會給你尋常的鐘形曲線。

tail:  P(|X| > x) ~ C / x^alpha

 alpha > 2  : variance finite     -> classical CLT applies, Gaussian limit
 1 < alpha <= 2 : mean finite, variance INFINITE -> no Gaussian; alpha-stable limit
 alpha <= 1  : mean infinite too   -> even the law of large numbers can fail

  (the Cauchy is the alpha = 1 boundary case)

尾端指數 alpha 決定一切。有限變異數——也就是中央極限定理的前提——恰好就是 alpha > 2 這個區間。

一個具體例子是用來模擬財富、城市規模與保險損失的帕雷托分配，其尾端為 P(X > x) = (x_m / x)^alpha。當 alpha = 3，它有有限的變異數，中央極限定理運作良好。當 alpha = 1.5，平均存在但變異數無限，而和會被單獨一個最大項主宰——一百筆這種損失的平均，本質上就是那筆最大的損失，而不是平滑的高斯模糊。這不是數學家發明的病態；這是金融報酬、檔案大小與地震規模的日常現實，在這些地方，中央極限定理那條令人安心的鐘形曲線，悄悄地並不適用。

誠實的附註細則：有限變異數是充分的，且幾乎是必要的

有兩處精修讓我們保持誠實。第一，同分配其實並非必要——林德伯格-費勒定理給出了一個適用於「獨立但分配各異」之項的和的中央極限定理，前提是每一項都有有限的變異數，而且沒有任何單獨一項的變異數主宰總和（即林德伯格條件）。第二個條款，正是我們一開始遇到的那個直覺的精確陳述：沒有任何一項可以接管整堆。當各項分配不同時，光有有限變異數還不夠；你還需要它們各自都可以忽略不計。

第二，當有限變異數確實失效時，鐘形曲線並不是被混亂取代——而是被另一種極限取代。廣義中央極限定理說：尾端指數 alpha < 2 的重尾之和，經適當重新縮放（除以 n^(1/alpha)，而不是 sqrt(n)），會收斂到一個 alpha-穩定 分配。常態分配不過就是這個家族裡 alpha = 2 的成員；柯西分配是 alpha = 1 的成員。所以我們所鍾愛的中央極限定理，是一條更豐富法則的一個特例，而有限變異數的角色，是把高斯——而非它那些重尾的表親——挑選為吸引子。

把這個前提擺回它應有的位置

退一步看，整幅圖景就清爽了。中央極限定理是一個帶著前提的陳述，而不是一句什麼都能套的口號。獨立讓各項無法串通；有限變異數固定了 sqrt(n) 的尺度，並提供了那個會變成高斯的 t^2 項；而一個可忽略性條件（在同分配下自動成立）則防止任何單一項獨攬大局。三者都尊重，鐘形曲線就有保證。破壞變異數這個條件，你就掉進了一個不同的、更重的世界，那裡有它自己美麗卻非高斯的極限。

這篇指南能留給你最有用的一個習慣，就是在對真實資料動用中央極限定理之前，先問一句：「這東西到底有沒有有限的變異數？」對身高、量測誤差與擲硬幣而言，答案顯然是有，鐘形曲線當之無愧。對損失、報酬、網路流量，以及任何帶冪律尾巴的東西而言，答案可能悄悄地是「沒有」——而在那裡假設中央極限定理成立，是應用機率中代價最高昂的錯誤之一。下一篇指南會轉向：在它確實適用時如何好好運用這個定理，以及即使在那時仍然存在的陷阱。