柴比雪夫不等式與弱大數法則

從平均到離散

在前一篇指南裡，你認識了馬可夫不等式：對於一個非負變數 X 與任意門檻 a > 0，有 P(X >= a) <= E[X] / a。它便宜得驚人——光憑平均就買到一個尾端界——但它也粗糙得驚人，因為它對 X 如何環繞著平均散開一無所知。兩個有相同平均的變數，行為可以天差地遠：一個緊緊貼著平均，另一個則大幅擺盪。馬可夫分不出它們。這篇指南要修正的正是這個盲點。

衡量離散程度的量是變異數，Var(X) = E[(X - mu)^2]，其中 mu = E[X]。它的平方根是標準差 sigma，與 X 本身有著相同的單位。這整篇指南的訣竅只有一步：不要把馬可夫不等式套到 X 上，而是套到「與平均的距離的平方」(X - mu)^2 上。這個非負的量，正是其期望值等於變異數的那個東西——所以馬可夫一旦被餵進這個新變數，就會交回一個用 sigma^2 表述的界。

兩行推出柴比雪夫

我們慢慢做這一步。我們想要界住 X 落在離平均很遠之處的機率，比如說至少 k 個標準差之遠：也就是事件 |X - mu| >= k*sigma。兩邊平方（兩邊都非負）並不改變這個事件：它等於 (X - mu)^2 >= k^2 * sigma^2。如今 (X - mu)^2 是非負的，所以我們可以用門檻 a = k^2 * sigma^2 把它餵給馬可夫。馬可夫說 P((X - mu)^2 >= a) <= E[(X - mu)^2] / a，而分子 E[(X - mu)^2] 不過就是 Var(X) = sigma^2。

event:   |X - mu| >= k*sigma                        (X falls k SDs from the mean)
square:  (X - mu)^2 >= k^2 * sigma^2                 (same event, both sides >= 0)
Markov:  P((X-mu)^2 >= k^2 sigma^2) <= E[(X-mu)^2] / (k^2 sigma^2)
but:     E[(X - mu)^2] = Var(X) = sigma^2
result:  P(|X - mu| >= k*sigma) <= 1 / k^2

柴比雪夫不等式不過是把馬可夫套到「偏差的平方」上。sigma^2 約掉了，留下乾淨的界 1/k^2。

把 a = k^2 * sigma^2 代入並約掉 sigma^2，就得到了主角結論——柴比雪夫不等式：P(|X - mu| >= k*sigma) <= 1 / k^2。換句話說：偏離平均至少 k 個標準差的機會，至多是 k 平方分之一。它是一個尾端界，與馬可夫不同的是，它用變數自身的天然尺規——標準差——來衡量距離並據此收費，而且它對任何具有有限變異數的分配都成立，完全不需要假設形狀。

這個界到底說了什麼——又沒說什麼

代幾個數字進去感受一下。當 k = 2，柴比雪夫保證 P(|X - mu| >= 2*sigma) <= 1/4：對任何具有有限變異數的分配，落在兩個標準差以外的機率至多只有四分之一。當 k = 3，它降到 1/9 ≈ 0.11。等價地說，至少有 1 - 1/k^2 的質量落在離平均 k 個標準差之內——兩個之內至少 75%，三個之內至少 89%。這是一個普世的保證，你不需要知道 X 的任何其他細節就能引用。

在繼續之前有兩點要注意。第一，柴比雪夫連要寫出來都需要有限的變異數；對於像柯西分配這樣的重尾變數，sigma^2 是無限的，這個界就空洞無用（它只會說「<= 無限大」）。第二，這個界是雙側且對稱的——它把兩端一起控制——所以對一個偏斜的分配來說可能很浪費，因為那裡幾乎所有危險都集中在某一側。它是一把鈍而可靠的工具，而不是一把鋒利的刀。

把柴比雪夫對準平均值

這正是這個不等式立功之處。取 n 個獨立、同分配的變數 X_1, ..., X_n，每個的平均為 mu、變異數為有限的 sigma^2，並構成它們的樣本平均 X-bar = (X_1 + ... + X_n) / n。由期望值的線性，E[X-bar] = mu——平均值以真正的平均為中心。關鍵在它的變異數。因為各項相互獨立，和的變異數就只是各變異數之和 n*sigma^2，而把和除以 n 會把它的變異數除以 n^2。所以 Var(X-bar) = n*sigma^2 / n^2 = sigma^2 / n。

再讀一遍這個結果，因為它就是統計學的整個引擎：n 個獨立副本的平均，變異數是 sigma^2 / n，會隨著 n 增大而朝零縮小。樣本平均遠比單次抽取穩定得多——它的標準差是 sigma / sqrt(n)，也就是著名的「根號 n」定律。平均並不會讓任何單一次量測變得更準，但它會讓「平均本身」越來越緊地貼向 mu。

弱大數法則

現在把這兩個想法結合起來，看著弱大數法則幾乎免費地掉出來。把柴比雪夫套用到平均 X-bar 上，用它的平均 mu 與它的變異數 sigma^2 / n。對任意固定的容忍度 epsilon > 0，平均偏離 mu 超過 epsilon 的機率是 P(|X-bar - mu| >= epsilon) <= Var(X-bar) / epsilon^2 = sigma^2 / (n * epsilon^2)。分子固定不動；分母隨 n 增長；所以整個界在 n 趨於無限時趨於零。

求平均的中心與離散：E[X-bar] = mu 且 Var(X-bar) = sigma^2 / n。
用門檻 epsilon 把柴比雪夫套到 X-bar：P(|X-bar - mu| >= epsilon) <= Var(X-bar) / epsilon^2。
代入變異數：界變成 sigma^2 / (n * epsilon^2)。
讓 n 增大：界趨於 0，因此對每個 epsilon，P(|X-bar - mu| >= epsilon) 都趨於 0。

最後那一行正好就是依機率收斂的定義：X-bar 依機率收斂到 mu。隨著樣本增大，樣本平均變得任意有可能落在離真正平均任意近之處。這就是弱大數法則，而我們剛給的證明——對平均施以柴比雪夫——正是教科書上的那一個。這也是為什麼這種初等形式的弱大數法則需要有限的變異數；更精細的論證能放寬這點，但走變異數這條路是最乾淨的第一個證明。

弱大數法則承諾了什麼、又沒承諾什麼

弱大數法則談的是平均，不是和會「自動扯平」。有個常見的迷思說：連續開出幾次正面之後，反面就「該」出現了，好讓次數扯平——這就是賭徒謬誤，而它是錯的：獨立試驗沒有記憶。真正會收斂的是正面的比例 X-bar，朝 1/2 收斂；而正面次數與反面次數之間的絕對差，是可以、而且通常確實會無界地增長的。平均之所以被馴服，恰恰是因為除以 n 把變異數壓垮了；那個累計總和則完全沒被馴服。

也值得把兩條法則區分開來。弱大數法則說的是：對每個夠大的 n，X-bar 很有可能靠近 mu——這是一個關於機率的陳述，在任何特定的 n 仍可能容許罕見的大偏差。強大數法則說的更強：以機率 1，整條序列 X-bar 都會安定到 mu 並停在那裡。強大數法則更難證明，也不是光靠柴比雪夫就能給你的，但它才是日常直覺「長期頻率等於機率」背後那個更深的真相。