從一個聰明時刻到一次抓住所有時刻
前兩篇靠的是最佳停止定理:若你在一個性質良好的停時把鞅凍結住,它的期望值仍停在起點。那是關於「一個時刻」的陳述——一個你可以挑選、但終究是單張快照的時刻。這最後一篇問一個更難的問題。別管挑哪一刻了:這個鞅在整段路徑上「曾經」衝到多高?而且這條路徑最終會不會停止遊蕩、安定在某個值上?這些是關於「所有時刻一起」的陳述,正是讓鞅成為現代機率主力的工具。
為什麼「控制所有時刻」遠比你在階梯前段遇到的普通工具強得多?馬可夫不等式約束的是「在固定步數 n 時,單獨的 X_n 很大」的機率。但一個過程可以在每個固定的檢視時刻都很小,卻在那些時刻之間暴衝——就像一鍋湯偏偏在你眨眼的瞬間滾溢出來。極大不等式補上了這道縫:它約束「跑動極大值(到時刻 n 為止所達到的最高點)曾經越過某水準」的機率。鞅的結構恰恰讓你能把「單一時刻的界」幾乎免費地升級成「整段歷史的界」。
Doob 極大不等式:約束跑動高峰
設 M_0, M_1, ..., M_n 是一個鞅(或更一般地,一個非負的下鞅——條件平均向上漂移的過程)。用 M_n^* 表示跑動極大值 max(M_0, ..., M_n),即目前為止看過的最高值。Doob 極大不等式說:對任意水準 a > 0,P(M_n^* >= a) <= E[|M_n|] / a。慢慢讀:路徑「曾經」(在到 n 為止的任何時刻)到達 a 的機率,被「最終」的期望大小 E[|M_n|] 除以 a 所控制。整段嘈雜的歷史,由單一個端點期望值統管。
拿它和普通馬可夫比較:後者只給出單一端點的 P(M_n >= a) <= E[|M_n|] / a。極大不等式給出「相同的右邊」,卻換來強得多的左邊事件「整段路徑的最大值越過 a」。你沒多付任何代價,卻控制了無限多。買到這個的訣竅正是最佳停止:定義停時 T = 路徑首次擊中 a 的時刻。在事件 {M_n^* >= a} 上,路徑在 n 之前就已在不低於 a 的水準被停住,而鞅(或下鞅)性質釘住了 E[在停止時刻的 M],這正是產出該界的東西。
Plain Markov (one fixed time): P( M_n >= a ) <= E[|M_n|] / a
Doob maximal (whole history): P( max_{k<=n} M_k >= a ) <= E[|M_n|] / a
L^2 form (square-integrable martingale):
E[ (M_n^*)^2 ] <= 4 * E[ M_n^2 ]
Same endpoint cost, far stronger left-hand event.還有一個平方版本更好用:對平方可積的鞅,E[(M_n^*)^2] <= 4 E[M_n^2]。白話說,最糟峰值的期望大小,不超過端點期望大小的某個常數倍。這正是 Doob L^p 不等式背後的引擎,也是你日後在學習中控制布朗運動最大波動、以及鞅增量之和最大波動的方法——這種「掌握所有時刻」的抓力,是逐一看單個時刻所拿不到的。
數擺動次數:上穿不等式
鞅憑什麼會收斂?一串數列不收斂只有一個原因:它一直振盪,跌破某個低水準 b 又彈回越過某個更高水準 a,一次又一次、永無止盡。每一次「從 b 之下完整掃到 a 之上」的過程,叫做對區間 [b, a] 的一次上穿。如果一個數列對「每一個」這樣的區間都只做有限多次上穿,它就不可能持續振盪——它被迫收斂(也許收到正負無窮,但總會安定)。於是收斂變成一個計數問題:這條路徑負擔得起多少次上穿?
上穿不等式(同樣是 Doob 的)在期望意義下限制了這個次數。設 U_n[b, a] 為鞅到第 n 步為止完成上穿 [b, a] 的次數,則 E[U_n[b, a]] <= E[(M_n - b)^+] / (a - b),其中 x^+ 表示 max(x, 0)。它的證明是前一篇鞅變換漂亮的收成:想像一位賭徒,每當價格跌破 b 就買進、每當漲過 a 就賣出。每完成一次上穿就至少入帳 (a - b) 的利潤。但你無法打敗公平賭局——任何這種可預測策略的期望收益都非正——所以這些保證利潤的次數必須很小。賭局的公平性,正是禁止無止盡振盪的東西。
鞅收斂定理
現在來收成。鞅收斂定理說:若 M_n 是一個在 L^1 中有界的鞅(或下鞅)——意思是 sup_n E[|M_n|] 有限,平均大小不會爆掉——則 M_n 幾乎必然收斂到一個有限極限 M_infinity。不假設增量縮小、不要求平滑、不需要任何公式。只要「公平賭局」加上「平均上不爆炸」,就足以保證路徑以機率一安定到一個確定的值。這是整個機率論中最令人驚訝、最有威力的收斂結果之一。
證明就是上穿不等式,一刀漂亮地用完。若 sup_n E[|M_n|] 有限,則對每個固定區間 [b, a],界 E[U_n[b, a]] <= E[(M_n - b)^+]/(a - b) 在 n 增大時仍有界,所以整條無窮路徑對 [b, a] 的總上穿次數有有限期望——故幾乎必然有限。但一條路徑要不收斂,唯有它對「某個」有理區間 [b, a] 上穿無窮多次。對每個有理區間(可數多個,所以一堆機率為零的壞事件之聯集仍為零)排除這件事後,路徑便沒有振盪的空間了。它必須收斂。
- 假設 M_n 是一個 L^1 有界的鞅:sup_n E[|M_n|] 有限。
- 對任意有理數 b < a,上穿不等式使 E[U_n[b, a]] 在 n 中有界,所以路徑幾乎必然只對 [b, a] 上穿有限多次。
- 對所有(可數多個)有理區間取聯集——仍是機率為零的例外集——所以幾乎每條路徑都不對任何區間上穿無窮多次。
- 一個對每個區間都只有限多次上穿的實數列無法振盪,所以收斂;L^1 有界性使極限有限。於是 M_n 幾乎必然收斂到一個有限的 M_infinity。
收斂保證了什麼、又沒保證什麼
要精確說清楚保證了什麼,因為直覺正是在這裡跌跤。定理給出的是「隨機變數」M_n 沿幾乎每條路徑收斂到 M_infinity。它並不自動給出 E[M_n] -> E[M_infinity],也不給出 M_n = E[M_infinity given F_n]。這些額外結論需要更強的假設——均勻可積性,等價於對某個 p > 1 的 L^p 有界性(這就是 L^p 收斂的升級版)。少了它,極限會悄悄漏失質量。
最乾淨的警世故事是隨機漫步的加倍遊戲。對一枚公正硬幣下注 1;若輸了就繼續玩,你的財富 M_n 是個鞅,每一步都有 E[M_n] = 0。現在在你首次領先 1 時停手——這個時刻以機率一會到來,所以 M_n 幾乎必然收斂到常數 1。但對所有 n,E[M_n] = 0,而 E[M_infinity] = 1。極限逐路徑存在,期望卻跳了。收斂定理完美成立;它只是從未保證平均會跟著走。這與賭徒破產那篇裡「停時無界時最佳停止失效」是同一道均勻可積性的縫。
上路前最後一個誠實查核。一個有界的非負上鞅永遠收斂,因為它自動 L^1 有界——這就是為什麼最簡單的收斂應用(例如 Polya 罐裡的比例、或分枝過程的存活機率)算起來如此乾淨。但「幾乎必然收斂」是關於機率一的陳述,不是關於每一條路徑:罕見的例外路徑、永遠遊蕩的路徑可以存在,它們只是構成一個機率為零的集合。而「收斂到 M_infinity」對「收斂得多快」隻字未提——談速率時你要回頭找極大不等式與集中不等式,例如你先前遇過的 Azuma-Hoeffding。有了這三項結果——極大控制、上穿控制、與收斂定理——你現在握有讓鞅成為機率學者工具箱中最可重用工具的核心機械。