大數法則 — JOVANA Education

那個承諾：平均會安定下來

擲一枚公正硬幣十次，你可能看到 7 次正面——比例 0.7，離一半遠得很。擲它一萬次，比例就會可疑地貼近 0.5。每個人心裡都有一種「長期下來會扯平」的直覺，而大數法則正是那種直覺背後精確的定理。它說：如果你把愈來愈多個來自同一分配的獨立樣本平均起來，這個平均就會收斂到真正的期望值。那句含糊的俗諺，於是變成一個乾淨的數學承諾。

先固定整篇都會重複用到的記號。從同一個分配獨立抽出 X_1, X_2, X_3, ...，每一個都有相同的平均 mu = E[X]，且（目前）有有限的變異數 sigma^2 = Var(X)。前 n 個樣本的樣本平均是 X-bar_n = (X_1 + X_2 + ... + X_n) / n。大數法則談的是當 n 無限增大時 X-bar_n 會怎樣：它會逼近 mu。本階整個主題——一個序列收斂的各種*模式*——之所以存在，正是為了讓我們能精確說出這個法則交付的是哪一種「逼近」。

弱大數法則：用一個不等式就證得

弱大數法則說：對任意容忍度 epsilon > 0，無論多小，當 n 增大時 P(|X-bar_n - mu| > epsilon) 都趨於 0。用白話說：樣本平均偏離真平均超過你所選邊界的機率，會縮到零。這恰恰就是前一篇的依機率收斂定義——X-bar_n 依機率收斂到 mu。它談的是每一個固定的大 n：對那個 n 而言，大幅偏離是非常不可能的。

可愛的是，在變異數有限時，我們能多麼廉價地把它證出來。關鍵在於：平均會*壓碎*變異數。因為樣本彼此獨立，和的變異數等於各變異數之和（沒有共變異項殘留），所以 Var(X_1 + ... + X_n) = n sigma^2。把和除以 n，就是把變異數除以 n^2，於是 Var(X-bar_n) = sigma^2 / n。隨著 n 增大，樣本平均環繞 mu 的散布就朝零縮小。這個平均正被擠壓到一個點上。

現在把這個正在縮小的變異數餵進柴比雪夫不等式，它僅用變異數就界定任何變數能偏離自己平均多遠：P(|X-bar_n - mu| > epsilon) <= Var(X-bar_n) / epsilon^2 = sigma^2 / (n epsilon^2)。對任意固定的 epsilon，右側隨 n 增大而趨於 0。這就是弱大數法則，兩行證完。注意它甚至順手給你一條具體的樣本量規則：要相當有把握平均落在 epsilon 之內，你需要 n 約莫是 sigma^2 / epsilon^2 的數量級。

Independence  =>  Var(X1 + ... + Xn) = n * sigma^2
Divide by n   =>  Var(X-bar_n)       = sigma^2 / n

Chebyshev:  P(|X-bar_n - mu| > epsilon)  <=  sigma^2 / (n * epsilon^2)  -->  0

Example (fair coin, mu = 0.5, sigma^2 = 0.25), within epsilon = 0.05:
   bound = 0.25 / (n * 0.0025) = 100 / n
   n = 1000  ->  bound 0.10        n = 10000  ->  bound 0.01

弱大數法則的兩行證明：縮小的變異數加上柴比雪夫不等式。

弱與強：兩種確定性

弱大數法則保證對每一個大 n，大幅偏離都不太可能——但它留下一個令人不安的可能性。樣本平均會不會一直閃爍，時不時永遠地遠離 mu，只要每一次出走本身都很罕見就行？強大數法則把那扇門關上了。它保證以機率 1，*整個序列* X-bar_1, X-bar_2, X-bar_3, ... 確實收斂到 mu。挑一條無窮長的實驗歷程，盯著那個跑動平均看，它就會安定到 mu 並待在那裡。

那個更強的保證，恰恰就是前一篇講的幾乎必然收斂。這個區別很重要，而各收斂模式之間的蘊涵關係告訴我們原因：幾乎必然收斂蘊涵依機率收斂，反之則不然。所以強大數法則確實更強——它免費蘊涵了弱大數法則，而弱大數法則本身原則上可能成立，即使某些序列從未真正安定。強大數法則排除了這點：使平均無法收斂的那組結果，機率為零。

這個法則「不」說的事

大數法則被廣泛相信，也被同樣廣泛地誤引。最致命的錯誤是賭徒謬誤：「我在輪盤上連看到六次紅，所以現在該輪到黑了。」輪盤沒有記憶；每一轉都是獨立的，下一轉開紅的機率跟以往一樣大。這個法則並不保證黑的虧空會被*補償*。它只保證在極大量轉動上的*平均*會逼近真正的平均——而它抵達那裡，靠的不是修正過去的偏差，而是把它們淹沒在一片新鮮而漠然的試驗汪洋裡。

再看一次數字來體會這點。在 6 次紅之後，假設你再擲一枚公正硬幣 10,000 次。那 6 次紅是一塊永遠不會被抵銷的固定團塊；它們只是變成總量裡一個逐漸消失的分數。偏差之和並不縮小——事實上正面減反面的那個*和*通常以 n 的平方根速度增長，絕對大小愈漂愈大。會融化掉的，是*每一次擲*的偏差，也就是那個和除以 n。「扯平」是稀釋，不是補償。這是整個主題裡最深刻的一個分野。

再加兩道護欄。第一，這個法則假設樣本是獨立且同分配、並有有限的平均；如果平均不存在——如柯西分配，它的厚尾使 E[X] 沒有定義——樣本平均就根本不會安定，法則也就不適用。第二，這個法則告訴你的是平均*會*收斂，從不告訴你*收斂多快*。那個速率、那典型殘餘擺盪的大小，是另一個更精細的問題——而那正是下一篇中央極限定理所回答的。

這個法則默默替你工作的地方

一旦你信任這個法則，許多日常推理就變得正當了。當民調機構引用一個樣本平均、當保險公司收取它預期能覆蓋理賠的保費、當物理學家從充滿雜訊的偵測器讀出一個穩定值——這一切都倚賴同一件事：一旦 n 夠大，樣本平均就近似母體平均。這個法則正是抽象的期望值（一個你幾乎無法直接觀測的數）與樣本平均（一個你確實能從資料算出的數）之間的橋。

最乾淨的應用是蒙地卡羅估計。想要一個難以用公式算出的量——譬如一個複雜事件的機率，或一塊不規則區域的面積？把它寫成一個期望 E[g(X)]，模擬許多獨立樣本，把 g 在它們上面平均，法則就保證這個平均收斂到答案。用對著正方形隨機投飛鏢、數有多少落在內接圓裡來估計 pi，正是這件事：落在圓內的比例是一個指標函數的樣本平均，而法則把它釘在真正的機率 pi/4 上。

把目標寫成一個期望。要估計 pi/4，令 X 是單位正方形內的一個隨機點，g(X) = 1 表示它落在四分之一圓內、否則為 0。那麼 E[g(X)] = pi/4，正是四分之一圓的面積。
模擬獨立樣本。產生 n 個隨機點並在每個上算 g，得到一串 0/1 值 Y_1, ..., Y_n——一組獨立且同分配的樣本。
把它們平均。樣本平均 Y-bar_n = (Y_1 + ... + Y_n) / n 就是落在圓內的飛鏢比例。
援引法則。依強大數法則，Y-bar_n（以機率 1）收斂到 E[g(X)] = pi/4，所以 4 * Y-bar_n 緊鎖向 pi。飛鏢愈多，估計愈緊——但法則本身不會告訴你誤差範圍；那要等中央極限定理。