JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

柴比雪夫不等式與弱大數法則

把一個變數的離散程度、而不只是它的平均,餵進馬可夫不等式,你就得到柴比雪夫不等式——一個會留意變異數的尾端界。光是這一步升級,就足以證明弱大數法則:平均會安定下來。

從平均到離散

在前一篇指南裡,你認識了馬可夫不等式:對於一個非負變數 X 與任意門檻 a > 0,有 P(X >= a) <= E[X] / a。它便宜得驚人——光憑平均就買到一個尾端界——但它也粗糙得驚人,因為它對 X 如何環繞著平均散開一無所知。兩個有相同平均的變數,行為可以天差地遠:一個緊緊貼著平均,另一個則大幅擺盪。馬可夫分不出它們。這篇指南要修正的正是這個盲點。

衡量離散程度的量是變異數,Var(X) = E[(X - mu)^2],其中 mu = E[X]。它的平方根是標準差 sigma,與 X 本身有著相同的單位。這整篇指南的訣竅只有一步:不要把馬可夫不等式套到 X 上,而是套到「與平均的距離的平方」(X - mu)^2 上。這個非負的量,正是其期望值等於變異數的那個東西——所以馬可夫一旦被餵進這個新變數,就會交回一個用 sigma^2 表述的界。

兩行推出柴比雪夫

我們慢慢做這一步。我們想要界住 X 落在離平均很遠之處的機率,比如說至少 k 個標準差之遠:也就是事件 |X - mu| >= k*sigma。兩邊平方(兩邊都非負)並不改變這個事件:它等於 (X - mu)^2 >= k^2 * sigma^2。如今 (X - mu)^2 是非負的,所以我們可以用門檻 a = k^2 * sigma^2 把它餵給馬可夫。馬可夫說 P((X - mu)^2 >= a) <= E[(X - mu)^2] / a,而分子 E[(X - mu)^2] 不過就是 Var(X) = sigma^2。

event:   |X - mu| >= k*sigma                        (X falls k SDs from the mean)
square:  (X - mu)^2 >= k^2 * sigma^2                 (same event, both sides >= 0)
Markov:  P((X-mu)^2 >= k^2 sigma^2) <= E[(X-mu)^2] / (k^2 sigma^2)
but:     E[(X - mu)^2] = Var(X) = sigma^2
result:  P(|X - mu| >= k*sigma) <= 1 / k^2
柴比雪夫不等式不過是把馬可夫套到「偏差的平方」上。sigma^2 約掉了,留下乾淨的界 1/k^2。

把 a = k^2 * sigma^2 代入並約掉 sigma^2,就得到了主角結論——柴比雪夫不等式:P(|X - mu| >= k*sigma) <= 1 / k^2。換句話說:偏離平均至少 k 個標準差的機會,至多是 k 平方分之一。它是一個尾端界,與馬可夫不同的是,它用變數自身的天然尺規——標準差——來衡量距離並據此收費,而且它對任何具有有限變異數的分配都成立,完全不需要假設形狀。

這個界到底說了什麼——又沒說什麼

代幾個數字進去感受一下。當 k = 2,柴比雪夫保證 P(|X - mu| >= 2*sigma) <= 1/4:對任何具有有限變異數的分配,落在兩個標準差以外的機率至多只有四分之一。當 k = 3,它降到 1/9 ≈ 0.11。等價地說,至少有 1 - 1/k^2 的質量落在離平均 k 個標準差之內——兩個之內至少 75%,三個之內至少 89%。這是一個普世的保證,你不需要知道 X 的任何其他細節就能引用。

在繼續之前有兩點要注意。第一,柴比雪夫連要寫出來都需要有限的變異數;對於像柯西分配這樣的重尾變數,sigma^2 是無限的,這個界就空洞無用(它只會說「<= 無限大」)。第二,這個界是雙側且對稱的——它把兩端一起控制——所以對一個偏斜的分配來說可能很浪費,因為那裡幾乎所有危險都集中在某一側。它是一把鈍而可靠的工具,而不是一把鋒利的刀。

把柴比雪夫對準平均值

這正是這個不等式立功之處。取 n 個獨立、同分配的變數 X_1, ..., X_n,每個的平均為 mu、變異數為有限的 sigma^2,並構成它們的樣本平均 X-bar = (X_1 + ... + X_n) / n。由期望值的線性,E[X-bar] = mu——平均值以真正的平均為中心。關鍵在它的變異數。因為各項相互獨立,和的變異數就只是各變異數之和 n*sigma^2,而把和除以 n 會把它的變異數除以 n^2。所以 Var(X-bar) = n*sigma^2 / n^2 = sigma^2 / n。

再讀一遍這個結果,因為它就是統計學的整個引擎:n 個獨立副本的平均,變異數是 sigma^2 / n,會隨著 n 增大而朝零縮小。樣本平均遠比單次抽取穩定得多——它的標準差是 sigma / sqrt(n),也就是著名的「根號 n」定律。平均並不會讓任何單一次量測變得更準,但它會讓「平均本身」越來越緊地貼向 mu。

弱大數法則

現在把這兩個想法結合起來,看著弱大數法則幾乎免費地掉出來。把柴比雪夫套用到平均 X-bar 上,用它的平均 mu 與它的變異數 sigma^2 / n。對任意固定的容忍度 epsilon > 0,平均偏離 mu 超過 epsilon 的機率是 P(|X-bar - mu| >= epsilon) <= Var(X-bar) / epsilon^2 = sigma^2 / (n * epsilon^2)。分子固定不動;分母隨 n 增長;所以整個界在 n 趨於無限時趨於零。

  1. 求平均的中心與離散:E[X-bar] = mu 且 Var(X-bar) = sigma^2 / n。
  2. 用門檻 epsilon 把柴比雪夫套到 X-bar:P(|X-bar - mu| >= epsilon) <= Var(X-bar) / epsilon^2。
  3. 代入變異數:界變成 sigma^2 / (n * epsilon^2)。
  4. 讓 n 增大:界趨於 0,因此對每個 epsilon,P(|X-bar - mu| >= epsilon) 都趨於 0。

最後那一行正好就是依機率收斂的定義:X-bar 依機率收斂到 mu。隨著樣本增大,樣本平均變得任意有可能落在離真正平均任意近之處。這就是弱大數法則,而我們剛給的證明——對平均施以柴比雪夫——正是教科書上的那一個。這也是為什麼這種初等形式的弱大數法則需要有限的變異數;更精細的論證能放寬這點,但走變異數這條路是最乾淨的第一個證明。

弱大數法則承諾了什麼、又沒承諾什麼

弱大數法則談的是平均,不是和會「自動扯平」。有個常見的迷思說:連續開出幾次正面之後,反面就「該」出現了,好讓次數扯平——這就是賭徒謬誤,而它是錯的:獨立試驗沒有記憶。真正會收斂的是正面的比例 X-bar,朝 1/2 收斂;而正面次數與反面次數之間的絕對差,是可以、而且通常確實會無界地增長的。平均之所以被馴服,恰恰是因為除以 n 把變異數壓垮了;那個累計總和則完全沒被馴服。

也值得把兩條法則區分開來。弱大數法則說的是:對每個夠大的 n,X-bar 很有可能靠近 mu——這是一個關於機率的陳述,在任何特定的 n 仍可能容許罕見的大偏差。強大數法則說的更強:以機率 1,整條序列 X-bar 都會安定到 mu 並停在那裡。強大數法則更難證明,也不是光靠柴比雪夫就能給你的,但它才是日常直覺「長期頻率等於機率」背後那個更深的真相。