JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

大數法則

把夠多個獨立樣本平均起來,樣本平均就會緊鎖向真正的平均——這就是大數法則。本篇講清楚它到底保證了什麼、不保證什麼,以及它的弱形式與強形式之間的差別。

那個承諾:平均會安定下來

擲一枚公正硬幣十次,你可能看到 7 次正面——比例 0.7,離一半遠得很。擲它一萬次,比例就會可疑地貼近 0.5。每個人心裡都有一種「長期下來會扯平」的直覺,而大數法則正是那種直覺背後精確的定理。它說:如果你把愈來愈多個來自同一分配的獨立樣本平均起來,這個平均就會收斂到真正的期望值。那句含糊的俗諺,於是變成一個乾淨的數學承諾。

先固定整篇都會重複用到的記號。從同一個分配獨立抽出 X_1, X_2, X_3, ...,每一個都有相同的平均 mu = E[X],且(目前)有有限的變異數 sigma^2 = Var(X)。前 n 個樣本的樣本平均是 X-bar_n = (X_1 + X_2 + ... + X_n) / n。大數法則談的是當 n 無限增大時 X-bar_n 會怎樣:它會逼近 mu。本階整個主題——一個序列收斂的各種*模式*——之所以存在,正是為了讓我們能精確說出這個法則交付的是哪一種「逼近」。

弱大數法則:用一個不等式就證得

弱大數法則說:對任意容忍度 epsilon > 0,無論多小,當 n 增大時 P(|X-bar_n - mu| > epsilon) 都趨於 0。用白話說:樣本平均偏離真平均超過你所選邊界的機率,會縮到零。這恰恰就是前一篇的依機率收斂定義——X-bar_n 依機率收斂到 mu。它談的是每一個固定的大 n:對那個 n 而言,大幅偏離是非常不可能的。

可愛的是,在變異數有限時,我們能多麼廉價地把它證出來。關鍵在於:平均會*壓碎*變異數。因為樣本彼此獨立,和的變異數等於各變異數之和(沒有共變異項殘留),所以 Var(X_1 + ... + X_n) = n sigma^2。把和除以 n,就是把變異數除以 n^2,於是 Var(X-bar_n) = sigma^2 / n。隨著 n 增大,樣本平均環繞 mu 的散布就朝零縮小。這個平均正被擠壓到一個點上。

現在把這個正在縮小的變異數餵進柴比雪夫不等式,它僅用變異數就界定任何變數能偏離自己平均多遠:P(|X-bar_n - mu| > epsilon) <= Var(X-bar_n) / epsilon^2 = sigma^2 / (n epsilon^2)。對任意固定的 epsilon,右側隨 n 增大而趨於 0。這就是弱大數法則,兩行證完。注意它甚至順手給你一條具體的樣本量規則:要相當有把握平均落在 epsilon 之內,你需要 n 約莫是 sigma^2 / epsilon^2 的數量級。

Independence  =>  Var(X1 + ... + Xn) = n * sigma^2
Divide by n   =>  Var(X-bar_n)       = sigma^2 / n

Chebyshev:  P(|X-bar_n - mu| > epsilon)  <=  sigma^2 / (n * epsilon^2)  -->  0

Example (fair coin, mu = 0.5, sigma^2 = 0.25), within epsilon = 0.05:
   bound = 0.25 / (n * 0.0025) = 100 / n
   n = 1000  ->  bound 0.10        n = 10000  ->  bound 0.01
弱大數法則的兩行證明:縮小的變異數加上柴比雪夫不等式。

弱與強:兩種確定性

弱大數法則保證對每一個大 n,大幅偏離都不太可能——但它留下一個令人不安的可能性。樣本平均會不會一直閃爍,時不時永遠地遠離 mu,只要每一次出走本身都很罕見就行?強大數法則把那扇門關上了。它保證以機率 1,*整個序列* X-bar_1, X-bar_2, X-bar_3, ... 確實收斂到 mu。挑一條無窮長的實驗歷程,盯著那個跑動平均看,它就會安定到 mu 並待在那裡。

那個更強的保證,恰恰就是前一篇講的幾乎必然收斂。這個區別很重要,而各收斂模式之間的蘊涵關係告訴我們原因:幾乎必然收斂蘊涵依機率收斂,反之則不然。所以強大數法則確實更強——它免費蘊涵了弱大數法則,而弱大數法則本身原則上可能成立,即使某些序列從未真正安定。強大數法則排除了這點:使平均無法收斂的那組結果,機率為零。

這個法則「不」說的事

大數法則被廣泛相信,也被同樣廣泛地誤引。最致命的錯誤是賭徒謬誤:「我在輪盤上連看到六次紅,所以現在該輪到黑了。」輪盤沒有記憶;每一轉都是獨立的,下一轉開紅的機率跟以往一樣大。這個法則並不保證黑的虧空會被*補償*。它只保證在極大量轉動上的*平均*會逼近真正的平均——而它抵達那裡,靠的不是修正過去的偏差,而是把它們淹沒在一片新鮮而漠然的試驗汪洋裡。

再看一次數字來體會這點。在 6 次紅之後,假設你再擲一枚公正硬幣 10,000 次。那 6 次紅是一塊永遠不會被抵銷的固定團塊;它們只是變成總量裡一個逐漸消失的分數。偏差之和並不縮小——事實上正面減反面的那個*和*通常以 n 的平方根速度增長,絕對大小愈漂愈大。會融化掉的,是*每一次擲*的偏差,也就是那個和除以 n。「扯平」是稀釋,不是補償。這是整個主題裡最深刻的一個分野。

再加兩道護欄。第一,這個法則假設樣本是獨立且同分配、並有有限的平均;如果平均不存在——如柯西分配,它的厚尾使 E[X] 沒有定義——樣本平均就根本不會安定,法則也就不適用。第二,這個法則告訴你的是平均*會*收斂,從不告訴你*收斂多快*。那個速率、那典型殘餘擺盪的大小,是另一個更精細的問題——而那正是下一篇中央極限定理所回答的。

這個法則默默替你工作的地方

一旦你信任這個法則,許多日常推理就變得正當了。當民調機構引用一個樣本平均、當保險公司收取它預期能覆蓋理賠的保費、當物理學家從充滿雜訊的偵測器讀出一個穩定值——這一切都倚賴同一件事:一旦 n 夠大,樣本平均就近似母體平均。這個法則正是抽象的期望值(一個你幾乎無法直接觀測的數)與樣本平均(一個你確實能從資料算出的數)之間的橋。

最乾淨的應用是蒙地卡羅估計。想要一個難以用公式算出的量——譬如一個複雜事件的機率,或一塊不規則區域的面積?把它寫成一個期望 E[g(X)],模擬許多獨立樣本,把 g 在它們上面平均,法則就保證這個平均收斂到答案。用對著正方形隨機投飛鏢、數有多少落在內接圓裡來估計 pi,正是這件事:落在圓內的比例是一個指標函數的樣本平均,而法則把它釘在真正的機率 pi/4 上。

  1. 把目標寫成一個期望。要估計 pi/4,令 X 是單位正方形內的一個隨機點,g(X) = 1 表示它落在四分之一圓內、否則為 0。那麼 E[g(X)] = pi/4,正是四分之一圓的面積。
  2. 模擬獨立樣本。產生 n 個隨機點並在每個上算 g,得到一串 0/1 值 Y_1, ..., Y_n——一組獨立且同分配的樣本。
  3. 把它們平均。樣本平均 Y-bar_n = (Y_1 + ... + Y_n) / n 就是落在圓內的飛鏢比例。
  4. 援引法則。依強大數法則,Y-bar_n(以機率 1)收斂到 E[g(X)] = pi/4,所以 4 * Y-bar_n 緊鎖向 pi。飛鏢愈多,估計愈緊——但法則本身不會告訴你誤差範圍;那要等中央極限定理。