極大不等式與收斂定理

從一個聰明時刻到一次抓住所有時刻

前兩篇靠的是最佳停止定理：若你在一個性質良好的停時把鞅凍結住，它的期望值仍停在起點。那是關於「一個時刻」的陳述——一個你可以挑選、但終究是單張快照的時刻。這最後一篇問一個更難的問題。別管挑哪一刻了：這個鞅在整段路徑上「曾經」衝到多高？而且這條路徑最終會不會停止遊蕩、安定在某個值上？這些是關於「所有時刻一起」的陳述，正是讓鞅成為現代機率主力的工具。

為什麼「控制所有時刻」遠比你在階梯前段遇到的普通工具強得多？馬可夫不等式約束的是「在固定步數 n 時，單獨的 X_n 很大」的機率。但一個過程可以在每個固定的檢視時刻都很小，卻在那些時刻之間暴衝——就像一鍋湯偏偏在你眨眼的瞬間滾溢出來。極大不等式補上了這道縫：它約束「跑動極大值（到時刻 n 為止所達到的最高點）曾經越過某水準」的機率。鞅的結構恰恰讓你能把「單一時刻的界」幾乎免費地升級成「整段歷史的界」。

Doob 極大不等式：約束跑動高峰

設 M_0, M_1, ..., M_n 是一個鞅（或更一般地，一個非負的下鞅——條件平均向上漂移的過程）。用 M_n^* 表示跑動極大值 max(M_0, ..., M_n)，即目前為止看過的最高值。Doob 極大不等式說：對任意水準 a > 0，P(M_n^* >= a) <= E[|M_n|] / a。慢慢讀：路徑「曾經」（在到 n 為止的任何時刻）到達 a 的機率，被「最終」的期望大小 E[|M_n|] 除以 a 所控制。整段嘈雜的歷史，由單一個端點期望值統管。

拿它和普通馬可夫比較：後者只給出單一端點的 P(M_n >= a) <= E[|M_n|] / a。極大不等式給出「相同的右邊」，卻換來強得多的左邊事件「整段路徑的最大值越過 a」。你沒多付任何代價，卻控制了無限多。買到這個的訣竅正是最佳停止：定義停時 T = 路徑首次擊中 a 的時刻。在事件 {M_n^* >= a} 上，路徑在 n 之前就已在不低於 a 的水準被停住，而鞅（或下鞅）性質釘住了 E[在停止時刻的 M]，這正是產出該界的東西。

Plain Markov (one fixed time):   P( M_n >= a )      <=  E[|M_n|] / a
Doob maximal (whole history):    P( max_{k<=n} M_k >= a )  <=  E[|M_n|] / a

L^2 form (square-integrable martingale):
    E[ (M_n^*)^2 ]   <=   4 * E[ M_n^2 ]

Same endpoint cost, far stronger left-hand event.

馬可夫控制一張快照；Doob 用同樣的代價控制整段跑動高峰。

還有一個平方版本更好用：對平方可積的鞅，E[(M_n^*)^2] <= 4 E[M_n^2]。白話說，最糟峰值的期望大小，不超過端點期望大小的某個常數倍。這正是 Doob L^p 不等式背後的引擎，也是你日後在學習中控制布朗運動最大波動、以及鞅增量之和最大波動的方法——這種「掌握所有時刻」的抓力，是逐一看單個時刻所拿不到的。

數擺動次數：上穿不等式

鞅憑什麼會收斂？一串數列不收斂只有一個原因：它一直振盪，跌破某個低水準 b 又彈回越過某個更高水準 a，一次又一次、永無止盡。每一次「從 b 之下完整掃到 a 之上」的過程，叫做對區間 [b, a] 的一次上穿。如果一個數列對「每一個」這樣的區間都只做有限多次上穿，它就不可能持續振盪——它被迫收斂（也許收到正負無窮，但總會安定）。於是收斂變成一個計數問題：這條路徑負擔得起多少次上穿？

上穿不等式（同樣是 Doob 的）在期望意義下限制了這個次數。設 U_n[b, a] 為鞅到第 n 步為止完成上穿 [b, a] 的次數，則 E[U_n[b, a]] <= E[(M_n - b)^+] / (a - b)，其中 x^+ 表示 max(x, 0)。它的證明是前一篇鞅變換漂亮的收成：想像一位賭徒，每當價格跌破 b 就買進、每當漲過 a 就賣出。每完成一次上穿就至少入帳 (a - b) 的利潤。但你無法打敗公平賭局——任何這種可預測策略的期望收益都非正——所以這些保證利潤的次數必須很小。賭局的公平性，正是禁止無止盡振盪的東西。

鞅收斂定理

現在來收成。鞅收斂定理說：若 M_n 是一個在 L^1 中有界的鞅（或下鞅）——意思是 sup_n E[|M_n|] 有限，平均大小不會爆掉——則 M_n 幾乎必然收斂到一個有限極限 M_infinity。不假設增量縮小、不要求平滑、不需要任何公式。只要「公平賭局」加上「平均上不爆炸」，就足以保證路徑以機率一安定到一個確定的值。這是整個機率論中最令人驚訝、最有威力的收斂結果之一。

證明就是上穿不等式，一刀漂亮地用完。若 sup_n E[|M_n|] 有限，則對每個固定區間 [b, a]，界 E[U_n[b, a]] <= E[(M_n - b)^+]/(a - b) 在 n 增大時仍有界，所以整條無窮路徑對 [b, a] 的總上穿次數有有限期望——故幾乎必然有限。但一條路徑要不收斂，唯有它對「某個」有理區間 [b, a] 上穿無窮多次。對每個有理區間（可數多個，所以一堆機率為零的壞事件之聯集仍為零）排除這件事後，路徑便沒有振盪的空間了。它必須收斂。

假設 M_n 是一個 L^1 有界的鞅：sup_n E[|M_n|] 有限。
對任意有理數 b < a，上穿不等式使 E[U_n[b, a]] 在 n 中有界，所以路徑幾乎必然只對 [b, a] 上穿有限多次。
對所有（可數多個）有理區間取聯集——仍是機率為零的例外集——所以幾乎每條路徑都不對任何區間上穿無窮多次。
一個對每個區間都只有限多次上穿的實數列無法振盪，所以收斂；L^1 有界性使極限有限。於是 M_n 幾乎必然收斂到一個有限的 M_infinity。

收斂保證了什麼、又沒保證什麼

要精確說清楚保證了什麼，因為直覺正是在這裡跌跤。定理給出的是「隨機變數」M_n 沿幾乎每條路徑收斂到 M_infinity。它並不自動給出 E[M_n] -> E[M_infinity]，也不給出 M_n = E[M_infinity given F_n]。這些額外結論需要更強的假設——均勻可積性，等價於對某個 p > 1 的 L^p 有界性（這就是 L^p 收斂的升級版）。少了它，極限會悄悄漏失質量。

最乾淨的警世故事是隨機漫步的加倍遊戲。對一枚公正硬幣下注 1；若輸了就繼續玩，你的財富 M_n 是個鞅，每一步都有 E[M_n] = 0。現在在你首次領先 1 時停手——這個時刻以機率一會到來，所以 M_n 幾乎必然收斂到常數 1。但對所有 n，E[M_n] = 0，而 E[M_infinity] = 1。極限逐路徑存在，期望卻跳了。收斂定理完美成立；它只是從未保證平均會跟著走。這與賭徒破產那篇裡「停時無界時最佳停止失效」是同一道均勻可積性的縫。

上路前最後一個誠實查核。一個有界的非負上鞅永遠收斂，因為它自動 L^1 有界——這就是為什麼最簡單的收斂應用（例如 Polya 罐裡的比例、或分枝過程的存活機率）算起來如此乾淨。但「幾乎必然收斂」是關於機率一的陳述，不是關於每一條路徑：罕見的例外路徑、永遠遊蕩的路徑可以存在，它們只是構成一個機率為零的集合。而「收斂到 M_infinity」對「收斂得多快」隻字未提——談速率時你要回頭找極大不等式與集中不等式，例如你先前遇過的 Azuma-Hoeffding。有了這三項結果——極大控制、上穿控制、與收斂定理——你現在握有讓鞅成為機率學者工具箱中最可重用工具的核心機械。