變異數藏在敘述的哪裡
在前一篇指南裡,你見到了中央極限定理的標準形式:對於獨立、同分配的變數 X_1, ..., X_n,其平均為 mu、變異數為有限的 sigma^2,標準化後的和 (X_1 + ... + X_n - n*mu) / (sigma * sqrt(n)) 會依分配收斂到標準常態分配。慢慢讀這句話,你會發現 sigma^2 同時出現在三個地方。它被假設為有限的;它就是我們拿來相除的那個尺度 sigma * sqrt(n);而它又以極限鐘形曲線之變異數的身分存活下來。這個定理是用變異數搭建起來的——所以拿走變異數會把它拆垮,也就不令人意外了。
變異數恰好是正確「貨幣」的深層原因,在於那個 根號 n 的尺度。n 個獨立副本之和的平均以 n 的速度增長,標準差則以 sqrt(n) 的速度增長,所以這個和是以 sqrt(n) 的速度散開——這正是我們除以 sqrt(n)、而不是除以其他次方的原因。但「標準差以 sqrt(n) 增長」這件事,只有在每一項都貢獻有限、彼此可比的變異數時才成立。整部機器都假設:無論哪一項跑到多遠,都不可能主宰整堆。一旦拿掉有限變異數,這個承諾就蒸發了:單獨一個怪異的項,就可能壓過其他所有項的總和。
柯西分配:一個拒絕被平均的分配
看這個定理失效最乾淨的地方,是柯西分配,它的密度是溫和的小丘 f(x) = 1 / (pi * (1 + x^2))。它看起來人畜無害——對稱、在零處有峰、隱約有點鐘形——但它的尾端只以 1/x^2 的速度衰減,慢得不像話。定義平均的那個積分,也就是 x * f(x) 的積分,甚至根本不收斂;柯西分配連一個有良好定義的期望值都沒有,因此當然也沒有有限的變異數。它在我們開始之前,就已經不滿足中央極限定理的前提了。
現在來看真正驚人的部分。取 n 個獨立的柯西變數並把它們平均。你會希望——如同任何乖巧的分配那樣——平均 X-bar 隨著 n 增大而朝某個中心收緊。它不會。一個了不起的事實——用特徵函數一行就能證明——是:n 個獨立標準柯西變數的平均,本身對每個 n 都恰好還是標準柯西。把一千個平均起來,你拿回來的還是當初那個一模一樣寬的分配。離散程度永遠不縮;柯西分配的大數法則也一併失效,而鐘形曲線從未出現。
用特徵函數的一行證明
這個計算值得親眼看一次,因為它精確地顯示出尋常的中央極限定理機器卡在哪裡。特徵函數把和變成乘積:對於獨立的變數,和的特徵函數等於各自特徵函數的乘積。對 n 個獨立標準柯西變數,每一個貢獻 e^(-|t|),所以它們的和 S_n 的特徵函數是 e^(-n|t|)。平均是 S_n / n,而用 1/n 重新縮放,相當於把函數裡的 t 換成 t/n。看看會發生什麼事。
一路跟著算下去。單個標準柯西的 phi(t) = e^(-|t|),所以獨立和 S_n 的 phi_{S_n}(t) = (e^(-|t|))^n = e^(-n|t|)。平均是 X-bar = S_n / n,而用 1/n 重新縮放,意思就是在 t/n 處取值:phi_{X-bar}(t) = phi_{S_n}(t/n) = e^(-n*|t/n|) = e^(-|t|)。把和除以 n,恰好抵消了指數裡的 n,留下的正是單個柯西的特徵函數。平均被卡死為柯西、永不集中。注意這跟中央極限定理的對比——那裡正確的重新縮放是除以 sqrt(n);在這裡那會給出 e^(-sqrt(n)|t|),毫無用處,而有限變異數的情形則改為收斂到高斯 e^(-t^2/2)。
拿它跟一個有限變異數的變數比一比,後者的特徵函數在零附近長得像 1 - (sigma^2 * t^2)/2 + ...,是一條平滑的拋物線。那個小小的 t^2 項就是變異數,而它正是中央極限定理證明在 sqrt(n) 重新縮放之後,指數化成高斯 e^(-t^2/2) 的那個東西。柯西分配的特徵函數則在原點有一個尖角——它的行為像 1 - |t| + ...,找不到 t^2 項,因為根本沒有變異數能提供一個。沒有二次項,就沒有高斯極限。那個缺席的變異數,就明明白白地寫在變換的形狀裡。
尾巴多重才算太重?
柯西分配不是怪胎;它是一整個家族浮出水面的那一角。衡量危險程度的正確方法是尾端指數。假設一個分配的尾端以冪次衰減,對大的 x 有 P(|X| > x) 約為 C / x^alpha。變異數是 x^2 對密度的積分,所以只有在尾端死得夠快、足以制服那多出來的 x^2 時,它才有限——算出來是 alpha > 2。而只要 alpha > 1,平均就還活著。於是有三種情形,其中只有一種會給你尋常的鐘形曲線。
tail: P(|X| > x) ~ C / x^alpha alpha > 2 : variance finite -> classical CLT applies, Gaussian limit 1 < alpha <= 2 : mean finite, variance INFINITE -> no Gaussian; alpha-stable limit alpha <= 1 : mean infinite too -> even the law of large numbers can fail (the Cauchy is the alpha = 1 boundary case)
一個具體例子是用來模擬財富、城市規模與保險損失的帕雷托分配,其尾端為 P(X > x) = (x_m / x)^alpha。當 alpha = 3,它有有限的變異數,中央極限定理運作良好。當 alpha = 1.5,平均存在但變異數無限,而和會被單獨一個最大項主宰——一百筆這種損失的平均,本質上就是那筆最大的損失,而不是平滑的高斯模糊。這不是數學家發明的病態;這是金融報酬、檔案大小與地震規模的日常現實,在這些地方,中央極限定理那條令人安心的鐘形曲線,悄悄地並不適用。
誠實的附註細則:有限變異數是充分的,且幾乎是必要的
有兩處精修讓我們保持誠實。第一,同分配其實並非必要——林德伯格-費勒定理給出了一個適用於「獨立但分配各異」之項的和的中央極限定理,前提是每一項都有有限的變異數,而且沒有任何單獨一項的變異數主宰總和(即林德伯格條件)。第二個條款,正是我們一開始遇到的那個直覺的精確陳述:沒有任何一項可以接管整堆。當各項分配不同時,光有有限變異數還不夠;你還需要它們各自都可以忽略不計。
第二,當有限變異數確實失效時,鐘形曲線並不是被混亂取代——而是被另一種極限取代。廣義中央極限定理說:尾端指數 alpha < 2 的重尾之和,經適當重新縮放(除以 n^(1/alpha),而不是 sqrt(n)),會收斂到一個 alpha-穩定 分配。常態分配不過就是這個家族裡 alpha = 2 的成員;柯西分配是 alpha = 1 的成員。所以我們所鍾愛的中央極限定理,是一條更豐富法則的一個特例,而有限變異數的角色,是把高斯——而非它那些重尾的表親——挑選為吸引子。
把這個前提擺回它應有的位置
退一步看,整幅圖景就清爽了。中央極限定理是一個帶著前提的陳述,而不是一句什麼都能套的口號。獨立讓各項無法串通;有限變異數固定了 sqrt(n) 的尺度,並提供了那個會變成高斯的 t^2 項;而一個可忽略性條件(在同分配下自動成立)則防止任何單一項獨攬大局。三者都尊重,鐘形曲線就有保證。破壞變異數這個條件,你就掉進了一個不同的、更重的世界,那裡有它自己美麗卻非高斯的極限。
這篇指南能留給你最有用的一個習慣,就是在對真實資料動用中央極限定理之前,先問一句:「這東西到底有沒有有限的變異數?」對身高、量測誤差與擲硬幣而言,答案顯然是有,鐘形曲線當之無愧。對損失、報酬、網路流量,以及任何帶冪律尾巴的東西而言,答案可能悄悄地是「沒有」——而在那裡假設中央極限定理成立,是應用機率中代價最高昂的錯誤之一。下一篇指南會轉向:在它確實適用時如何好好運用這個定理,以及即使在那時仍然存在的陷阱。