從大數法則,到一個更鋒利的問題
上一篇指南確定了樣本平均會跑去哪裡:根據弱大數法則,n 個獨立同分配抽樣的平均數,會隨著 n 增大而塌縮到真正的期望值 mu 上。那是關於中心的陳述。但它留下了一個更豐富的問題沒碰:在抵達之前,平均數是怎麼圍繞 mu 晃動的?誤差 X-bar_n - mu 會縮到零,然而在任何有限的 n 之下,它都是一個有自己形狀的隨機量。[[prob-central-limit-theorem|中央極限定理]](CLT)描述的正是那個形狀,而答案出奇地普遍。
用文字把這幅圖畫出來。取任何一個具有有限平均數 mu 與有限變異數 sigma^2 的分配——它可以是一顆不公平的骰子、一次擲幣、一段等待時間,幾乎任何東西。獨立地抽出 n 個,再加起來。這個總和本身是隨機的,但隨著 n 增大,它的直方圖每一次都平滑成同一條熟悉的鐘形:[[prob-normal-distribution|常態分配]]。原本那一個個成分被遺忘了;只有它的平均數與變異數存活進極限裡。這種對細節的抹除,正是這條定理讓人覺得像魔法的地方,也是為什麼鐘形曲線會同時出現在身高、量測誤差和考試分數上。
把陳述仔細地說清楚
要陳述這條定理,我們必須先做標準化,因為原始的總和會跑向無限,它的散布也在變大。設 X_1, X_2, ... 為獨立且同分配,平均數為 mu、有限變異數 sigma^2 > 0。樣本平均 X-bar_n 的平均數是 mu、變異數是 sigma^2/n,所以它的標準差是 sigma/sqrt(n)。把平均數減掉、再除以那個標準差,就得到一個乾淨、無量綱的量 Z_n = (X-bar_n - mu) / (sigma / sqrt(n)) = sqrt(n) (X-bar_n - mu) / sigma。CLT 說:當 n 趨於無限時,Z_n 依分配收斂到標準常態 Normal(0, 1)。
X_1, ..., X_n iid, E[X_i] = mu, Var(X_i) = sigma^2 (finite, > 0)
S_n = X_1 + ... + X_n (the sum)
X-bar_n = S_n / n (the average)
Z_n = (X-bar_n - mu) / (sigma / sqrt(n))
= (S_n - n*mu) / (sigma * sqrt(n))
As n -> infinity: Z_n --> Normal(0, 1) (in distribution)
so for large n, X-bar_n is approximately Normal(mu, sigma^2 / n)誠實地理解這種收斂。「依分配收斂」的意思是 Z_n 的累積分配函數在每一點都趨近標準常態的累積分配函數——它是關於機率與形狀的陳述,是本階段第一篇所介紹的四種收斂模式中最弱的一種,而不是說 Z_n 本身會安頓到某個固定的隨機值上。這兩個縮放在做不同的工作:把總和除以 n(大數法則)會殺死隨機性,而除以 sqrt(n)(CLT)則恰好保留適量的隨機性,好讓我們看見它的形狀。是 sqrt(n) 而不是 n 這個因子,才是整個結果的核心。
為什麼是鐘形,又為什麼總是同一個?
最乾淨的理由用上了特徵函數,這正是「變換」那一階段為此打造的工具。比起動差生成函數,它的一大優點是誠實:對於重尾的分配,動差生成函數可能根本不存在,但特徵函數 phi_X(t) = E[e^(itX)] 對每一個分配都永遠存在。而且它把乘積變成相加:獨立變數之和的特徵函數,等於各自特徵函數的乘積,所以把獨立的片段加起來,無非就是把它們的變換相乘。
- 把每一項標準化成平均數 0、變異數 1,於是它的特徵函數有泰勒展開 phi(t) = 1 - t^2/2 + (更小的項),其中一次項消失(平均數 0),而 t^2 的係數由變異數決定。
- 標準化後的總和 Z_n,其特徵函數是 phi(t / sqrt(n)) 的 n 次方,因為獨立性把和變成乘積,而 sqrt(n) 的縮放縮小了自變數。
- 代入展開式:[1 - t^2/(2n) + (更小的項)]^n。這正是經典極限 [1 + a/n]^n -> e^a,在此給出 e^(-t^2/2)。
- 但 e^(-t^2/2) 恰恰就是標準常態的特徵函數——而特徵函數會唯一地決定它的分配。所以極限必定是 Normal(0, 1)。
注意哪些東西熬過了極限,哪些沒有。只有展開式的前兩項——平均數(被置中逼成 0)與變異數(被縮放逼成 1)——抵達了答案;原分配更高階的一切細節,它的偏態、它的峰態、它確切的形狀,都被 sqrt(n) 的收縮碾碎了。這正是普遍性背後的精確機制:鐘形不是骰子或硬幣的特殊性質,而是當你把許多微小、獨立的東西相加再重新縮放時,唯一存活下來的不動點。常態分配是「加總」這件事的吸引子。
一個小小的算例手感,以及它收斂得多快
擲一顆公平的骰子,你得到的是 1 到 6 上一個平坦、塊狀的分配——一點都不像鐘形,平均數 mu = 3.5、變異數 sigma^2 = 35/12 約為 2.92。現在擲好幾顆骰子,看它們的平均。光是兩顆骰子,總和的直方圖就已經是一個峰落在 7 的整齊三角形;五顆時,它明顯隆起且大致對稱;到了十顆左右,用肉眼就很難和常態曲線區分了。單一顆骰子完全看不出這種跡象——鐘形純粹是從「取平均」這個動作裡誕生的,而你也親眼看到了特徵函數論證所預言的那種細節抹除。
但「收斂」是一個漸近的承諾,誠實要求我們追問:在有限的 n 之下,這個近似有多好?[[berry-esseen-theorem|Berry-Esseen 定理]]回答了這個問題:Z_n 真正的累積分配函數與標準常態之間的差距,至多是 C * rho / (sigma^3 * sqrt(n)),其中 rho = E[|X - mu|^3] 是第三絕對動差,而 C 是一個小於 1 的普適常數。由此可得兩個教訓。第一,誤差以 1/sqrt(n) 的速度縮小——很慢;樣本數變成四倍,誤差大約只減半。第二,成分越偏斜或尾巴越重(rho 越大),你就需要越大的 n,鐘形才值得信賴。
這條定理沒有說的事
最重要的單一前提是有限變異數。我們陳述的 CLT 需要 sigma^2 < infinity,而最著名的失效案例是柯西分配,它的尾巴重到連平均數都沒有定義。把 n 個獨立的柯西抽樣取平均,你並不會得到一個越收越緊的鐘形——你拿回的是一模一樣的柯西分配,不論 n 多大(CLT 對柯西失效)。多加資料買不到任何東西,因為單獨一個怪異的離群值就能主宰整個總和。下一篇指南就專門講「為什麼有限變異數是那根承重的假設」。
第二個陷阱,是把 CLT 當成「把一切都叫做常態」的通行證。它談的是許多獨立貢獻之和或平均的分配;它對單一筆原始觀測值什麼也沒說。身高之所以大致常態,是因為它是許多微小的遺傳與環境效應之和;但檔案大小、所得、城市人口都是重尾、頑固地非常態的——它們並不是由許多大小相當的獨立片段相加而成的。而 i.i.d. 假設是可以放寬的(林德伯格條件允許各項分配不同,只要沒有任何單一項主宰全局),但它不能就這樣被丟掉:強烈的相依,或一個巨大的單項,都會讓結果崩潰。