從固定的鐘,到自選的時刻
前兩篇指南已搭好舞台。一個鞅 M_0, M_1, M_2, ... 是一場公平的賭局:在你看過直到時刻 n 的一切之後,下一步財富的期望恰恰是你此刻所握有的,即 E[M_(n+1) given 過去] = M_n。而鞅變換那一篇證明了:在每一輪押多押少——任何只用過去資訊的策略——都不改變賭局的公平性:對任何固定時刻 n,E[M_n] = E[M_0]。但有一個旋鈕我們從沒轉過。我們總是在*固定*的鐘點 n 評估。真實的賭徒並不在預先敲定的鐘響時收手;他們在某件事發生時收手——錢翻倍時、歸零時、玩膩時。本篇談的,正是在自選的時刻停止,以及「在每個固定時刻都公平」這件事,能否在升級為「在你真正離場的時刻也公平」時存活下來。
光是要精確地問出這個問題,我們就得先釘死什麼算是*合法*的停止規則。誠實的約束是因果律:在任何時刻,你必須只用已經發生的事,來決定「現在收手還是繼續」,絕不能偷看未來。「我的財富第一次達到 100 時兌現」是合法的——財富如何展開你都看得見。「在我的最高峰前一步兌現」則不合法——你得在今天就知道明天的消息。前一篇談濾過的機制讓這一點變得精確。回想那個濾過 F_0 ⊆ F_1 ⊆ F_2 ⊆ ...,它是不斷成長的資訊紀錄:F_n 是到時刻 n 為止一切可觀察的事物。一條合法的規則,便是它在時刻 n 的決定只依賴 F_n。
停時究竟是什麼
一個停時 T 是一個隨機的時刻——它本身就是一個隨機變數,取值 0, 1, 2, ...(也可能是無窮)——並具備一條定義性的性質:對每個 n,事件 {T = n} 都能由 F_n 判定。換句話說,當鐘聲響起的那一刻,你能僅憑那一刻所擁有的資訊,斷定它剛剛響了。你永遠不必等到日後的證據,才來確認停止的時機已到。這一條規則,就是停時的全部定義,它正是因果約束披上測度論外衣後的模樣。
最乾淨的例子是擊中時間。令 T 為過程首次進入某集合 A 的時刻——比方說,第一個使 M_n >= 100 的 n。{T = n} 能由 F_n 判定嗎?能:T = n 意謂 M_0, ..., M_(n-1) 全都待在 100 以下,而 M_n 終於達到了它,這些事實到時刻 n 為止統統已知。所以「我第一次達標」、「我第一次破產」、「隨機漫步第一次到達 +5」都是貨真價實的停時。對照之下看一個「最後離開時間」:「隨機漫步在永遠飄離之前,最後一次造訪 0 的時刻」。要知道某次造訪 0 是*最後*一次,你必須知道整個未來——之後漫步再也不回來。這無法由 F_n 判定,所以它不是停時。試金石永遠相同:一個活在時間正向、沒有水晶球的人,能在這一刻到來時認出它嗎?
最佳停止定理
現在來收成。把過程 M 在停時 T 停下,得到一個新的隨機數 M_T:你真正離場那一刻的財富。既然賭局在每個固定時刻都公平,自然的盼望便是:它在這個自選的時刻也公平,即 E[M_T] = E[M_0]。最佳停止定理(也叫最佳取樣定理)正是這麼說的——*在條件成立之下*。對一個鞅 M 與一個停時 T,只要再多一道防護以排除那些病態的、永不結束的策略,就有 E[M_T] = E[M_0]。這是本級階梯的鎮山之寶:它把「你無法靠巧妙選擇*何時*收手,從一場公平賭局中擠出利潤」這份直覺給形式化了。
為何那道防護不可或缺?因為少了它,定理根本是錯的,而反例正是鞅變換那篇裡著名的加倍策略。在公平的硬幣上押 1;若輸,加倍到 2;又輸,加倍到 4;一直加倍到第一次贏為止,然後停手。把 T 定義為那第一次贏的回合。當你終於贏時,會收回過往所有損失再加 1,所以 M_T = M_0 + 1 以機率 1 成立,於是 E[M_T] = E[M_0] + 1——從一場公平賭局裡保證掏出一塊錢!定理沒有壞掉;壞掉的是它的前提。這個 T 確實以機率 1 有限,但你在贏之前的*中途欠債*卻無界——你可能欠下 2^k,一個任意巨大的數目,而你途中本金大小的期望會爆掉。那道防護的存在,正是為了禁止這種孤注一擲式的鞅。
那麼這些防護是什麼?以下三個充分條件中任何一個成立,都足以核准 E[M_T] = E[M_0]。(1) T 有界:存在固定數 N 使得 T <= N 恆成立,於是賭局被迫在某個期限前結束。(2) T 以機率 1 有限,且過程直到時刻 T 為止有界——存在常數 c 使得對所有 n <= T 皆有 |M_n| <= c。(3) E[T] 有限,且步幅有界——增量 |M_(n+1) - M_n| 維持在某常數之下。每一條都堵死了加倍策略所利用的漏洞(無界的欠債、配上無界賭注的無界等待)。最深刻、最靈活的版本,用一個叫做一致可積的單一條件取代以上全部,它一次掌控整族 {M_(T∧n)} 的尾部質量;不過那三條具體條款,幾乎涵蓋你會遇到的所有問題。
OPTIONAL STOPPING THEOREM (discrete time)
M = martingale, T = stopping time => E[M_T] = E[M_0]
...PROVIDED at least one safeguard holds:
(1) T <= N for a fixed deadline N (bounded time)
(2) T < infinity a.s. AND |M_n| <= c, n <= T (bounded process)
(3) E[T] < infinity AND |M_(n+1)-M_n| <= c (bounded steps)
Submartingale: E[M_T] >= E[M_0] (favorable game, >= )
Supermartingale: E[M_T] <= E[M_0] (unfavorable game, <= )為何成立:停下的過程仍是鞅
證明比敘述所暗示的更短、更優雅,而且它把鞅變換那篇的一切都拿來再用。關鍵的一步,是建構停下的過程,記作 M_(T∧n):在 T 觸發的那一刻把值凍結,此後永遠保持不變。具體說,當 n < T 時 M_(T∧n) 等於 M_n,而一旦 n >= T 便等於 M_T。想像一個賭徒,在鐘響之前玩真實的賭局,鐘響之後便守著他那一堆確切的籌碼度過每一個剩餘回合,押注為零。
妙處在這裡:「押 1 直到 T、然後押 0」本身就是一個合法的下注策略——一個可預測策略,因為「在第 n 輪繼續玩」的決定恰恰是事件 {T >= n},而這個事件能由 F_(n-1) 判定(你知道鐘是否已經響過)。鞅變換那篇證明了:任何可預測的下注作用在一個鞅上,會得到另一個鞅。因此停下的過程 M_(T∧n) 自身就是一個鞅。鞅在每個固定時刻都公平,所以對每個 n 皆有 E[M_(T∧n)] = E[M_0]。這已經說了:無論你看多久,停下的賭局其期望值始終一動不動地停在起點。我們離終點只剩一步。
最後一步是讓 n 趨於無窮。我們想要 E[M_(T∧n)] -> E[M_T],因為只要 T 有限,就有 M_(T∧n) -> M_T。但是——而這正是全部的微妙所在——*隨機變數*的收斂並不自動保證其*期望*的收斂;你可能在取極限時把質量漏向無窮,這恰恰是加倍策略所利用的那道漏洞。那三條防護,正是允許交換極限與期望的前提(透過有界收斂或控制收斂,皆是測度論那一級的工具)。在其中任何一條成立之下,E[M_T] = lim E[M_(T∧n)] = E[M_0],定理得證。
讀懂不等式,並先嘗一口收成的滋味
定理還有兩個一樣有用的方向性親戚。若 M 是次鞅——一場有利的賭局,E[M_(n+1) given 過去] >= M_n,潮水溫和地朝你而來——那麼停止只能幫忙或打平:E[M_T] >= E[M_0]。若 M 是超鞅——把 >= 翻成 <= 的不利賭局,就像有莊家優勢把你往下拉的真實賭場——那麼 E[M_T] <= E[M_0],沒有任何停止規則救得了你。口訣很乾淨:次(sub)往*上*、超(super)往*下*,而鞅的等式正是夾在兩者之間的刀鋒。這些不等式所需的有限性防護,與等式相同。
來算一個小例子,看看這部機器如何運轉。令 S_n 是一個從 S_0 = 0 出發的對稱簡單隨機漫步:每一步以機率 1/2 為 +1 或 -1,是一場公平賭局,故由期望的線性知它是鞅。在 -a 與 +b(正整數)處各立一道牆,令 T 為漫步首次碰到任一牆的時刻。T 的期望有限,且兩牆之間的漫步被 max(a, b) 所界,故防護 (2)/(3) 適用,最佳停止成立:E[S_T] = E[S_0] = 0。但 S_T 不是 -a(以機率 p 碰到左牆)就是 +b(以機率 1 - p)。於是 0 = (-a)·p + b·(1 - p),整理得 p = b / (a + b)。一行代數,我們就讀出了「在達標前破產」的機率——這正是賭徒破產問題的核心。
這個小小的勝利是個預告:緊接著的下一篇,會完整地處理賭徒破產問題,包括賭局的*期望持續時間*,做法是從第二個精心挑選的鞅裡擠出同一招。要帶往前去的教訓是方法,而不只是答案。每當你能認出一個鞅與一個合法的停時,最佳停止就把一個關於整個隨機過程的彆扭問題,化成一條乾淨俐落的方程式 E[結束時的某量] = E[開始時的某量]——而那道「欠債有界」的防護,是你在兌現支票之前永遠必須核對的入場費。