馬可夫不等式：從平均值得到的界限

一個數字，一個關於尾部的承諾

在前面的階段裡，你學會了完整地描述一個隨機變數——它的整個分配、它的期望值、它的變異數、它的生成函數。但很多時候你並不知道完整的分配。你幾乎什麼都不知道，只知道比方說它的平均值。這個階段了不起的主張是：即使只有一個摘要數字，也已經能禁止某些行為。馬可夫不等式就是這類承諾中第一個、也最簡單的一個：如果一個量不可能是負的，光憑它的平均值就能限制它能有多常遠遠高於那個平均值。

陳述如下。設 X 是一個永遠不為負的隨機變數，也就是 X 永遠至少為 0，並設 a 是任何一個正數。那麼 P(X >= a) <= E[X] / a。用白話說：X 達到門檻 a 的機率，最多就是平均值除以那個門檻。門檻相對於平均值愈大，機率就愈小——而你得到這個保證時，除了 E[X] 以及「X 非負」這件事之外，對 X 一無所知。

一個具體的畫面：假設一條街上的平均收入是 50（用某種單位），而收入永遠不會是負的。馬可夫說，最多只有 1/4 的家庭能賺到 200 以上，因為 E[X]/a = 50/200 = 1/4。它沒有說那些是哪些人，也沒有說分配長什麼樣子——只說最多四分之一的家庭能坐在那麼高的位置。注意，這麼少的輸入，竟換來這麼強的結論。

為什麼它成立：指示變數的技巧

這個證明很短，值得把它變成自己的東西，因為同樣的手法會在這整個階段裡反覆出現。關鍵是指示隨機變數：定義一個量，當事件 {X >= a} 發生時它等於 1，否則等於 0。把它叫做 1{X >= a}。它的期望值恰好就是我們想要的機率，因為 E[1{X >= a}] = P(X >= a)——對一個取值為 0 或 1 的變數取平均，得到的正是它等於 1 的那部分比例。

現在是那關鍵的一行。逐一比較每個結果下的 X 與被放大的指示變數 a * 1{X >= a}。如果 X 恰好至少為 a，指示變數是 1，所以右邊是 a，而 X >= a 表示 X 至少有那麼大。如果 X 小於 a，指示變數是 0，所以右邊是 0，而因為 X 非負所以 X >= 0。於是在每一個結果裡，都有 X >= a * 1{X >= a}。逐點成立的不等式在取期望值後依然成立，所以 E[X] >= a * E[1{X >= a}] = a * P(X >= a)。兩邊同除以正數 a，就得到 P(X >= a) <= E[X] / a。

If X >= a:   1{X>=a} = 1,  so a*1{X>=a} = a   and  X >= a   = a*1{X>=a}
If X <  a:   1{X>=a} = 0,  so a*1{X>=a} = 0   and  X >= 0   = a*1{X>=a}

In both cases:    X  >=  a * 1{X >= a}
Take E[.]:     E[X]  >=  a * P(X >= a)
Divide by a:   P(X >= a)  <=  E[X] / a

整個證明：X 在每一個結果裡都壓過被放大的指示變數，所以取期望值後不等式依然保持。

非負性就是整個引擎

再讀一次證明，注意 X 非負這件事到底用在哪裡：在 X < a 的情況裡，我們需要右邊的 0 不大於 X，而這只有在 X >= 0 時才成立。拿掉這個假設，不等式就可能徹底失效。想像一個變數，它有 1/2 的機率是 +1000、有 1/2 的機率是 -1000。它的平均值是 0，於是天真套用的馬可夫界限 E[X]/a 會說 P(X >= 1000) <= 0，但真正的機率是 1/2。這個界限在這裡根本就是錯的，因為一條很大的負尾把平均值拉了下來，卻沒有限制正尾。馬可夫之所以需要 X >= 0（或更一般地說，一個已知的下界），是有原因的。

關於如何解讀這個陳述，還有一個誠實的提醒。馬可夫界定的是尾部事件 {X >= a}，那是一個貨真價實的機率。別把它和機率密度函數在某一點的值搞混。密度可以很大而毫無矛盾，因為密度不是機率，而單一一點所帶的機率是零。馬可夫談的是有多少質量落在門檻處或門檻之外，而不是一條曲線的高度。

它有多鬆？最壞情況下緊，實務上弱

馬可夫不等式常常非常鬆，這一點必須誠實面對。取 X 在整數 1 到 100 上服從均勻分配，於是 E[X] = 50.5。馬可夫說 P(X >= 80) <= 50.5/80 = 0.63，而真正的機率是 21/100 = 0.21。這個界限是正確的，但遠遠高於實際。這種粗鈍，正是只用一個數字所付出的代價：單一的平均值不可能捕捉到尾部的形狀。

然而，在沒有額外資訊的情況下，馬可夫無法被改進——它是緊的。這裡有一個恰好達到它的分配：設 X 以機率 E[X]/a 等於 a，其餘時間等於 0。那麼 X 非負，它的平均值算出來是 a * (E[X]/a) = E[X]，正如所要求的，而 P(X >= a) 恰好就是 E[X]/a。所以在所有具有那個平均值的非負變數中，這個雙尖峰分配就是最壞情況，而馬可夫正好命中它。教訓是：對任何特定的友善分配，馬可夫都很鬆，但當你只被允許假設平均值時，它就是最好的通用界限。

馬可夫通往何處：集中不等式的種子

馬可夫本身很鬆，但它是一個強大配方的通用第一步。每當你要界定一個尾部事件的機率時，你就把那個事件推到某個非負量上，再對那個量套用馬可夫。餵給它平方偏差，你就得到柴比雪夫，那是下一篇指南的主題，也是大數弱律背後的引擎。餵給它指數 e^(tX)，你就得到車諾夫界限，它的尾部以指數速度縮小。這個階段裡的每一個定理，骨子裡都是聰明地挑選要交給馬可夫的那個非負量。

馬可夫本身也有直接的生命，那就是一階動差方法：證明某件事很罕見的一匹主力馬。如果 N 數的是某個壞事件發生了幾次，而 N 是一個非負整數，那麼只要在馬可夫裡取 a = 1，就有 P(N >= 1) <= E[N]。所以如果壞事件的期望次數很小，那麼連一次都發生的機率也很小。這個一階動差方法，舉例來說，就是用來證明某些隨機結構幾乎必然避開某種被禁止的圖樣的方法，也是機率組合學裡最常被重複使用的技巧之一。