JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

運用中央極限定理:近似與陷阱

中央極限定理是整個機率論裡最常被使用的工具——也是最常被誤用的。本篇把它變成一套實用的近似配方,再帶你逐一走過這套配方在哪裡、為什麼會悄悄失靈。

從定理到配方

你花了前三篇贏得了中央極限定理:對於獨立、同分配、平均值為 mu 且變異數有限為 sigma^2 的各個小塊,標準化後的和 (Sn - n mu) / (sigma sqrt(n)) 依分配收斂到標準常態。這是一個關於極限的陳述,是一個只有當 n 趨於無限大才到達的理想化對象。但沒有人手上會有無限多個資料點。這個定理全部的實用價值,在於你把它反過來用:對於一個大但有限的 n,和(或平均值)的分配「近似」於常態,而你就拿這個近似當作精確的來計算。本篇談的就是如何誠實地這麼做。

這套配方恰好有兩樣你必須拿對的材料:中心與散布。n 個小塊的和,其平均值為 n mu、變異數為 n sigma^2,所以標準差是 sigma sqrt(n)。n 個小塊的平均值 X-bar,其平均值為 mu、變異數為 sigma^2 / n,所以標準差是 sigma / sqrt(n)。一旦你知道正確的平均值與正確的標準差,中央極限定理就說你可以把這個量當成以這兩個數字為參數的常態分配,並透過先換算成 z 分數,從標準常態表讀出你想要的任何機率。幾乎每一次對中央極限定理的誤用,骨子裡都是這兩個數字之一出了差錯,所以值得在它們身上放慢腳步。

Sum of n iid:     mean = n*mu      sd = sigma*sqrt(n)
Average of n iid: mean = mu        sd = sigma/sqrt(n)

z = (value - mean) / sd
P(quantity <= value) ~ Phi(z)        [Phi = standard normal CDF]
整套配方寫在一張卡片上:取得平均值與標準差、標準化、再查 Phi。

一個從頭到尾的近似計算

用最親切的情形把它具體化:一枚硬幣。把一枚公正硬幣丟 100 次,問拿到 60 個或更多正面的機率。精確答案是一串二項分配機率的和——一個有限但繁瑣的計算。中央極限定理讓你跳過它。每一次拋擲都是一個小塊,平均值為 mu = 0.5、變異數為 sigma^2 = 0.25,所以 sigma = 0.5。正面的個數是 n = 100 個這種小塊的和,所以它的平均值是 100 * 0.5 = 50,標準差是 0.5 * sqrt(100) = 5。我們有了那兩個數字。

  1. 找出計數的平均值與標準差:由上面框起的公式得 平均值 = 50、標準差 = 5。
  2. 做連續性校正。計數是整數,但常態是連續的,所以「至少 60」要改寫成「至少 59.5」,以公平地分攤 59 與 60 之間的縫隙。
  3. 標準化:z = (59.5 - 50) / 5 = 9.5 / 5 = 1.9。
  4. 查尾端機率:P(Z >= 1.9) ~ 0.0287,所以約為 2.9%。精確的二項答案約為 0.0284——這個近似好得很。

收斂多快,以及在相信之前如何檢查

硬幣那題漂亮地成功了,但「大 n」不是一句咒語;它是一個「多大才算夠大」的問題,而這取決於底層小塊的形狀。誠實的定量答案是 貝里-埃森定理,它替「常態近似標準化和之累積分配函數」的最壞誤差釘上一個明確的數字。它說這個誤差至多是 C * rho / (sigma^3 * sqrt(n)),其中 rho = E[|X - mu|^3] 是第三絕對動差,C 是一個普適常數(略小於 0.5)。兩個教訓立刻掉出來:誤差以 1/sqrt(n) 的速度縮小,這很慢;而它會被偏態與厚尾透過那個第三動差因子 rho / sigma^3 放大。

第二個教訓才是實務上的核心。一個對稱、性質良好的母體(像硬幣)幾乎立刻就達到常態——n 在數十就綽綽有餘。一個強烈偏態的母體(像所得、保險理賠或等待時間),可能需要 n 在數百或數千,鐘形才安定下來,而即使如此,最遠的尾端也是最後才收斂的部分。課堂上那句老口號「n >= 30 就夠了」是一條經驗法則,不是定理;它對輕度非常態的資料還可以,對重度偏態的資料則樂觀得離譜。把 30 當成一個起始的懷疑,永遠不要當成保證。

中央極限定理悄悄失靈之處

現在來談陷阱,這是大多數課程跳過的部分。第一個也最深的失靈,正是你上一篇遇到的:中央極限定理要求變異數有限,而當變異數為無限大時,沒有 sigma 可以拿來標準化,也沒有鐘形曲線可以收斂過去。最乾淨的例子是柯西分配,它的尾端厚到連平均值都沒有定義。把 n 個柯西變數平均起來,你不會得到一個圍繞某個中心越來越緊的分配——你拿回來的,是跟你出發時一模一樣的柯西,無論 n 多大。平均不買給你任何東西;中央極限定理在此完全使不上力。野外的厚尾資料(某些金融報酬、某些網路與檔案大小資料)離這個情境近到足以讓常態近似錯得很危險。

第二個失靈是相依性。經典的中央極限定理假設各小塊獨立(或至少相依性消退得夠快)。當觀測值強烈相關時——時間序列裡相鄰的日子、對同一個人的重複量測、成簇的問卷回應——有效的獨立資訊量遠遠少於 n,而平均值的真實標準差也遠大於天真的 sigma / sqrt(n) 所宣稱的。硬把 sigma / sqrt(n) 代進去,會產生太窄的誤差棒與不該有的自信。解方不是拋棄中央極限定理,而是改用一個對相依性誠實的版本,它仍給出常態性,但帶著正確的、較大的散布。

第三個失靈是「非同分配且沒有單一支配性限制」。本單元前面遇過的林德伯格-費勒版中央極限定理,把「同分配」放寬成一個條件:不允許任何單一項主導整個和。當這個條件破裂時——當一兩項就扛起總變異數的大部分——這個和會保留那少數幾個大項的指紋,根本不必看起來像常態。這正是一個誠實的理由,說明中央極限定理講的是「許多個微小而可比的貢獻加總起來」,而不是「隨便什麼和」。

三個詮釋上的陷阱

即使中央極限定理確實適用,也很容易讀錯。陷阱一:中央極限定理不是大數法則,而這兩者老是被搞混。大數法則說平均值收斂到 mu——平均值的散布坍縮到零。中央極限定理則是那個更細緻的補充,描述這個坍縮中的散布沿途的「形狀」:放大 sqrt(n) 倍後,平均值對 mu 的偏離看起來像常態。一個說平均值往哪裡去;另一個說它如何在那個目的地附近起伏。而兩者都沒說個別結果會「拉平」——獨立試驗沒有記憶,這又是賭徒謬誤在故技重施。

陷阱二:中央極限定理談的是「和或平均值的分配」,不是資料本身。人們有時會說「因為中央極限定理,我的資料是常態的」——但中央極限定理從不宣稱你的原始觀測值會隨著你蒐集得更多而變成常態;母體的形狀本來是什麼就是什麼,不會改變。變成常態的,是「由許多觀測值算出的平均值」之抽樣分配。把這兩者混在一起,就是「所得的直方圖」(仍然偏態)與「許多樣本之平均所得的直方圖」(近似鐘形)之間的差別。

陷阱三:實務上你幾乎從不知道真實的 sigma,所以你會代入由資料算出的估計值。這是正當的,而它之所以保持正當,靠的是本單元前面的一個工具——斯拉茨基定理,它說:若標準化後的平均值收斂到一個常態,且你對 sigma 的估計收斂到真實的 sigma,則用估計 sigma 的那個版本仍然收斂到同一個常態。這正是讓真實世界的信賴區間得以運作的安靜機制。同一族結果還包含德爾塔法,它把常態近似從「平均值」推廣到「平均值的平滑函數」——讓你能替像比值或估計值的對數這類東西加上誤差棒,而不只是估計值本身。