JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

馬可夫不等式:從平均值得到的界限

如果一個量永遠不會是負的,那麼光是知道它的平均值,就已經限制了它能有多常變得很大。馬可夫不等式把一個數字——平均值——轉化成對尾部的保證上限,而它悄悄地是後面幾乎每一個集中不等式的動力來源。

一個數字,一個關於尾部的承諾

在前面的階段裡,你學會了完整地描述一個隨機變數——它的整個分配、它的期望值、它的變異數、它的生成函數。但很多時候你並不知道完整的分配。你幾乎什麼都不知道,只知道比方說它的平均值。這個階段了不起的主張是:即使只有一個摘要數字,也已經能禁止某些行為。馬可夫不等式就是這類承諾中第一個、也最簡單的一個:如果一個量不可能是負的,光憑它的平均值就能限制它能有多常遠遠高於那個平均值。

陳述如下。設 X 是一個永遠不為負的隨機變數,也就是 X 永遠至少為 0,並設 a 是任何一個正數。那麼 P(X >= a) <= E[X] / a。用白話說:X 達到門檻 a 的機率,最多就是平均值除以那個門檻。門檻相對於平均值愈大,機率就愈小——而你得到這個保證時,除了 E[X] 以及「X 非負」這件事之外,對 X 一無所知。

一個具體的畫面:假設一條街上的平均收入是 50(用某種單位),而收入永遠不會是負的。馬可夫說,最多只有 1/4 的家庭能賺到 200 以上,因為 E[X]/a = 50/200 = 1/4。它沒有說那些是哪些人,也沒有說分配長什麼樣子——只說最多四分之一的家庭能坐在那麼高的位置。注意,這麼少的輸入,竟換來這麼強的結論。

為什麼它成立:指示變數的技巧

這個證明很短,值得把它變成自己的東西,因為同樣的手法會在這整個階段裡反覆出現。關鍵是指示隨機變數:定義一個量,當事件 {X >= a} 發生時它等於 1,否則等於 0。把它叫做 1{X >= a}。它的期望值恰好就是我們想要的機率,因為 E[1{X >= a}] = P(X >= a)——對一個取值為 0 或 1 的變數取平均,得到的正是它等於 1 的那部分比例。

現在是那關鍵的一行。逐一比較每個結果下的 X 與被放大的指示變數 a * 1{X >= a}。如果 X 恰好至少為 a,指示變數是 1,所以右邊是 a,而 X >= a 表示 X 至少有那麼大。如果 X 小於 a,指示變數是 0,所以右邊是 0,而因為 X 非負所以 X >= 0。於是在每一個結果裡,都有 X >= a * 1{X >= a}。逐點成立的不等式在取期望值後依然成立,所以 E[X] >= a * E[1{X >= a}] = a * P(X >= a)。兩邊同除以正數 a,就得到 P(X >= a) <= E[X] / a。

If X >= a:   1{X>=a} = 1,  so a*1{X>=a} = a   and  X >= a   = a*1{X>=a}
If X <  a:   1{X>=a} = 0,  so a*1{X>=a} = 0   and  X >= 0   = a*1{X>=a}

In both cases:    X  >=  a * 1{X >= a}
Take E[.]:     E[X]  >=  a * P(X >= a)
Divide by a:   P(X >= a)  <=  E[X] / a
整個證明:X 在每一個結果裡都壓過被放大的指示變數,所以取期望值後不等式依然保持。

非負性就是整個引擎

再讀一次證明,注意 X 非負這件事到底用在哪裡:在 X < a 的情況裡,我們需要右邊的 0 不大於 X,而這只有在 X >= 0 時才成立。拿掉這個假設,不等式就可能徹底失效。想像一個變數,它有 1/2 的機率是 +1000、有 1/2 的機率是 -1000。它的平均值是 0,於是天真套用的馬可夫界限 E[X]/a 會說 P(X >= 1000) <= 0,但真正的機率是 1/2。這個界限在這裡根本就是錯的,因為一條很大的負尾把平均值拉了下來,卻沒有限制正尾。馬可夫之所以需要 X >= 0(或更一般地說,一個已知的下界),是有原因的。

關於如何解讀這個陳述,還有一個誠實的提醒。馬可夫界定的是尾部事件 {X >= a},那是一個貨真價實的機率。別把它和機率密度函數在某一點的值搞混。密度可以很大而毫無矛盾,因為密度不是機率,而單一一點所帶的機率是零。馬可夫談的是有多少質量落在門檻處或門檻之外,而不是一條曲線的高度。

它有多鬆?最壞情況下緊,實務上弱

馬可夫不等式常常非常鬆,這一點必須誠實面對。取 X 在整數 1 到 100 上服從均勻分配,於是 E[X] = 50.5。馬可夫說 P(X >= 80) <= 50.5/80 = 0.63,而真正的機率是 21/100 = 0.21。這個界限是正確的,但遠遠高於實際。這種粗鈍,正是只用一個數字所付出的代價:單一的平均值不可能捕捉到尾部的形狀。

然而,在沒有額外資訊的情況下,馬可夫無法被改進——它是緊的。這裡有一個恰好達到它的分配:設 X 以機率 E[X]/a 等於 a,其餘時間等於 0。那麼 X 非負,它的平均值算出來是 a * (E[X]/a) = E[X],正如所要求的,而 P(X >= a) 恰好就是 E[X]/a。所以在所有具有那個平均值的非負變數中,這個雙尖峰分配就是最壞情況,而馬可夫正好命中它。教訓是:對任何特定的友善分配,馬可夫都很鬆,但當你只被允許假設平均值時,它就是最好的通用界限。

馬可夫通往何處:集中不等式的種子

馬可夫本身很鬆,但它是一個強大配方的通用第一步。每當你要界定一個尾部事件的機率時,你就把那個事件推到某個非負量上,再對那個量套用馬可夫。餵給它平方偏差,你就得到柴比雪夫,那是下一篇指南的主題,也是大數弱律背後的引擎。餵給它指數 e^(tX),你就得到車諾夫界限,它的尾部以指數速度縮小。這個階段裡的每一個定理,骨子裡都是聰明地挑選要交給馬可夫的那個非負量。

馬可夫本身也有直接的生命,那就是一階動差方法:證明某件事很罕見的一匹主力馬。如果 N 數的是某個壞事件發生了幾次,而 N 是一個非負整數,那麼只要在馬可夫裡取 a = 1,就有 P(N >= 1) <= E[N]。所以如果壞事件的期望次數很小,那麼連一次都發生的機率也很小。這個一階動差方法,舉例來說,就是用來證明某些隨機結構幾乎必然避開某種被禁止的圖樣的方法,也是機率組合學裡最常被重複使用的技巧之一。