中央極限定理

從大數法則，到一個更鋒利的問題

上一篇指南確定了樣本平均會跑去哪裡：根據弱大數法則，n 個獨立同分配抽樣的平均數，會隨著 n 增大而塌縮到真正的期望值 mu 上。那是關於中心的陳述。但它留下了一個更豐富的問題沒碰：在抵達之前，平均數是怎麼圍繞 mu 晃動的？誤差 X-bar_n - mu 會縮到零，然而在任何有限的 n 之下，它都是一個有自己形狀的隨機量。[[prob-central-limit-theorem|中央極限定理]]（CLT）描述的正是那個形狀，而答案出奇地普遍。

用文字把這幅圖畫出來。取任何一個具有有限平均數 mu 與有限變異數 sigma^2 的分配——它可以是一顆不公平的骰子、一次擲幣、一段等待時間，幾乎任何東西。獨立地抽出 n 個，再加起來。這個總和本身是隨機的，但隨著 n 增大，它的直方圖每一次都平滑成同一條熟悉的鐘形：[[prob-normal-distribution|常態分配]]。原本那一個個成分被遺忘了；只有它的平均數與變異數存活進極限裡。這種對細節的抹除，正是這條定理讓人覺得像魔法的地方，也是為什麼鐘形曲線會同時出現在身高、量測誤差和考試分數上。

把陳述仔細地說清楚

要陳述這條定理，我們必須先做標準化，因為原始的總和會跑向無限，它的散布也在變大。設 X_1, X_2, ... 為獨立且同分配，平均數為 mu、有限變異數 sigma^2 > 0。樣本平均 X-bar_n 的平均數是 mu、變異數是 sigma^2/n，所以它的標準差是 sigma/sqrt(n)。把平均數減掉、再除以那個標準差，就得到一個乾淨、無量綱的量 Z_n = (X-bar_n - mu) / (sigma / sqrt(n)) = sqrt(n) (X-bar_n - mu) / sigma。CLT 說：當 n 趨於無限時，Z_n 依分配收斂到標準常態 Normal(0, 1)。

X_1, ..., X_n  iid,  E[X_i] = mu,  Var(X_i) = sigma^2  (finite, > 0)

   S_n     = X_1 + ... + X_n            (the sum)
   X-bar_n = S_n / n                    (the average)

   Z_n = (X-bar_n - mu) / (sigma / sqrt(n))
       = (S_n - n*mu) / (sigma * sqrt(n))

   As n -> infinity:   Z_n  -->  Normal(0, 1)   (in distribution)

   so for large n,  X-bar_n  is approximately  Normal(mu, sigma^2 / n)

古典（i.i.d.）中央極限定理：先置中、再以 sqrt(n) 縮放，鐘形便出現了。

誠實地理解這種收斂。「依分配收斂」的意思是 Z_n 的累積分配函數在每一點都趨近標準常態的累積分配函數——它是關於機率與形狀的陳述，是本階段第一篇所介紹的四種收斂模式中最弱的一種，而不是說 Z_n 本身會安頓到某個固定的隨機值上。這兩個縮放在做不同的工作：把總和除以 n（大數法則）會殺死隨機性，而除以 sqrt(n)（CLT）則恰好保留適量的隨機性，好讓我們看見它的形狀。是 sqrt(n) 而不是 n 這個因子，才是整個結果的核心。

為什麼是鐘形，又為什麼總是同一個？

最乾淨的理由用上了特徵函數，這正是「變換」那一階段為此打造的工具。比起動差生成函數，它的一大優點是誠實：對於重尾的分配，動差生成函數可能根本不存在，但特徵函數 phi_X(t) = E[e^(itX)] 對每一個分配都永遠存在。而且它把乘積變成相加：獨立變數之和的特徵函數，等於各自特徵函數的乘積，所以把獨立的片段加起來，無非就是把它們的變換相乘。

把每一項標準化成平均數 0、變異數 1，於是它的特徵函數有泰勒展開 phi(t) = 1 - t^2/2 + （更小的項），其中一次項消失（平均數 0），而 t^2 的係數由變異數決定。
標準化後的總和 Z_n，其特徵函數是 phi(t / sqrt(n)) 的 n 次方，因為獨立性把和變成乘積，而 sqrt(n) 的縮放縮小了自變數。
代入展開式：[1 - t^2/(2n) + （更小的項）]^n。這正是經典極限 [1 + a/n]^n -> e^a，在此給出 e^(-t^2/2)。
但 e^(-t^2/2) 恰恰就是標準常態的特徵函數——而特徵函數會唯一地決定它的分配。所以極限必定是 Normal(0, 1)。

注意哪些東西熬過了極限，哪些沒有。只有展開式的前兩項——平均數（被置中逼成 0）與變異數（被縮放逼成 1）——抵達了答案；原分配更高階的一切細節，它的偏態、它的峰態、它確切的形狀，都被 sqrt(n) 的收縮碾碎了。這正是普遍性背後的精確機制：鐘形不是骰子或硬幣的特殊性質，而是當你把許多微小、獨立的東西相加再重新縮放時，唯一存活下來的不動點。常態分配是「加總」這件事的吸引子。

一個小小的算例手感，以及它收斂得多快

擲一顆公平的骰子，你得到的是 1 到 6 上一個平坦、塊狀的分配——一點都不像鐘形，平均數 mu = 3.5、變異數 sigma^2 = 35/12 約為 2.92。現在擲好幾顆骰子，看它們的平均。光是兩顆骰子，總和的直方圖就已經是一個峰落在 7 的整齊三角形；五顆時，它明顯隆起且大致對稱；到了十顆左右，用肉眼就很難和常態曲線區分了。單一顆骰子完全看不出這種跡象——鐘形純粹是從「取平均」這個動作裡誕生的，而你也親眼看到了特徵函數論證所預言的那種細節抹除。

但「收斂」是一個漸近的承諾，誠實要求我們追問：在有限的 n 之下，這個近似有多好？[[berry-esseen-theorem|Berry-Esseen 定理]]回答了這個問題：Z_n 真正的累積分配函數與標準常態之間的差距，至多是 C * rho / (sigma^3 * sqrt(n))，其中 rho = E[|X - mu|^3] 是第三絕對動差，而 C 是一個小於 1 的普適常數。由此可得兩個教訓。第一，誤差以 1/sqrt(n) 的速度縮小——很慢；樣本數變成四倍，誤差大約只減半。第二，成分越偏斜或尾巴越重（rho 越大），你就需要越大的 n，鐘形才值得信賴。

這條定理沒有說的事

最重要的單一前提是有限變異數。我們陳述的 CLT 需要 sigma^2 < infinity，而最著名的失效案例是柯西分配，它的尾巴重到連平均數都沒有定義。把 n 個獨立的柯西抽樣取平均，你並不會得到一個越收越緊的鐘形——你拿回的是一模一樣的柯西分配，不論 n 多大（CLT 對柯西失效）。多加資料買不到任何東西，因為單獨一個怪異的離群值就能主宰整個總和。下一篇指南就專門講「為什麼有限變異數是那根承重的假設」。

第二個陷阱，是把 CLT 當成「把一切都叫做常態」的通行證。它談的是許多獨立貢獻之和或平均的分配；它對單一筆原始觀測值什麼也沒說。身高之所以大致常態，是因為它是許多微小的遺傳與環境效應之和；但檔案大小、所得、城市人口都是重尾、頑固地非常態的——它們並不是由許多大小相當的獨立片段相加而成的。而 i.i.d. 假設是可以放寬的（林德伯格條件允許各項分配不同，只要沒有任何單一項主宰全局），但它不能就這樣被丟掉：強烈的相依，或一個巨大的單項，都會讓結果崩潰。