停時與最佳停止定理

從固定的鐘，到自選的時刻

前兩篇指南已搭好舞台。一個鞅 M_0, M_1, M_2, ... 是一場公平的賭局：在你看過直到時刻 n 的一切之後，下一步財富的期望恰恰是你此刻所握有的，即 E[M_(n+1) given 過去] = M_n。而鞅變換那一篇證明了：在每一輪押多押少——任何只用過去資訊的策略——都不改變賭局的公平性：對任何固定時刻 n，E[M_n] = E[M_0]。但有一個旋鈕我們從沒轉過。我們總是在*固定*的鐘點 n 評估。真實的賭徒並不在預先敲定的鐘響時收手；他們在某件事發生時收手——錢翻倍時、歸零時、玩膩時。本篇談的，正是在自選的時刻停止，以及「在每個固定時刻都公平」這件事，能否在升級為「在你真正離場的時刻也公平」時存活下來。

光是要精確地問出這個問題，我們就得先釘死什麼算是*合法*的停止規則。誠實的約束是因果律：在任何時刻，你必須只用已經發生的事，來決定「現在收手還是繼續」，絕不能偷看未來。「我的財富第一次達到 100 時兌現」是合法的——財富如何展開你都看得見。「在我的最高峰前一步兌現」則不合法——你得在今天就知道明天的消息。前一篇談濾過的機制讓這一點變得精確。回想那個濾過 F_0 ⊆ F_1 ⊆ F_2 ⊆ ...，它是不斷成長的資訊紀錄：F_n 是到時刻 n 為止一切可觀察的事物。一條合法的規則，便是它在時刻 n 的決定只依賴 F_n。

停時究竟是什麼

一個停時 T 是一個隨機的時刻——它本身就是一個隨機變數，取值 0, 1, 2, ...（也可能是無窮）——並具備一條定義性的性質：對每個 n，事件 {T = n} 都能由 F_n 判定。換句話說，當鐘聲響起的那一刻，你能僅憑那一刻所擁有的資訊，斷定它剛剛響了。你永遠不必等到日後的證據，才來確認停止的時機已到。這一條規則，就是停時的全部定義，它正是因果約束披上測度論外衣後的模樣。

最乾淨的例子是擊中時間。令 T 為過程首次進入某集合 A 的時刻——比方說，第一個使 M_n >= 100 的 n。{T = n} 能由 F_n 判定嗎？能：T = n 意謂 M_0, ..., M_(n-1) 全都待在 100 以下，而 M_n 終於達到了它，這些事實到時刻 n 為止統統已知。所以「我第一次達標」、「我第一次破產」、「隨機漫步第一次到達 +5」都是貨真價實的停時。對照之下看一個「最後離開時間」：「隨機漫步在永遠飄離之前，最後一次造訪 0 的時刻」。要知道某次造訪 0 是*最後*一次，你必須知道整個未來——之後漫步再也不回來。這無法由 F_n 判定，所以它不是停時。試金石永遠相同：一個活在時間正向、沒有水晶球的人，能在這一刻到來時認出它嗎？

最佳停止定理

現在來收成。把過程 M 在停時 T 停下，得到一個新的隨機數 M_T：你真正離場那一刻的財富。既然賭局在每個固定時刻都公平，自然的盼望便是：它在這個自選的時刻也公平，即 E[M_T] = E[M_0]。最佳停止定理（也叫最佳取樣定理）正是這麼說的——*在條件成立之下*。對一個鞅 M 與一個停時 T，只要再多一道防護以排除那些病態的、永不結束的策略，就有 E[M_T] = E[M_0]。這是本級階梯的鎮山之寶：它把「你無法靠巧妙選擇*何時*收手，從一場公平賭局中擠出利潤」這份直覺給形式化了。

為何那道防護不可或缺？因為少了它，定理根本是錯的，而反例正是鞅變換那篇裡著名的加倍策略。在公平的硬幣上押 1；若輸，加倍到 2；又輸，加倍到 4；一直加倍到第一次贏為止，然後停手。把 T 定義為那第一次贏的回合。當你終於贏時，會收回過往所有損失再加 1，所以 M_T = M_0 + 1 以機率 1 成立，於是 E[M_T] = E[M_0] + 1——從一場公平賭局裡保證掏出一塊錢！定理沒有壞掉；壞掉的是它的前提。這個 T 確實以機率 1 有限，但你在贏之前的*中途欠債*卻無界——你可能欠下 2^k，一個任意巨大的數目，而你途中本金大小的期望會爆掉。那道防護的存在，正是為了禁止這種孤注一擲式的鞅。

那麼這些防護是什麼？以下三個充分條件中任何一個成立，都足以核准 E[M_T] = E[M_0]。(1) T 有界：存在固定數 N 使得 T <= N 恆成立，於是賭局被迫在某個期限前結束。(2) T 以機率 1 有限，且過程直到時刻 T 為止有界——存在常數 c 使得對所有 n <= T 皆有 |M_n| <= c。(3) E[T] 有限，且步幅有界——增量 |M_(n+1) - M_n| 維持在某常數之下。每一條都堵死了加倍策略所利用的漏洞（無界的欠債、配上無界賭注的無界等待）。最深刻、最靈活的版本，用一個叫做一致可積的單一條件取代以上全部，它一次掌控整族 {M_(T∧n)} 的尾部質量；不過那三條具體條款，幾乎涵蓋你會遇到的所有問題。

OPTIONAL STOPPING THEOREM (discrete time)

  M = martingale,  T = stopping time   =>   E[M_T] = E[M_0]

  ...PROVIDED at least one safeguard holds:

    (1) T <= N   for a fixed deadline N            (bounded time)
    (2) T < infinity a.s. AND |M_n| <= c, n <= T   (bounded process)
    (3) E[T] < infinity AND |M_(n+1)-M_n| <= c     (bounded steps)

  Submartingale:  E[M_T] >= E[M_0]   (favorable game, >= )
  Supermartingale: E[M_T] <= E[M_0]  (unfavorable game, <= )

定理及其三條日常防護，外加次鞅與超鞅的方向性版本。符號 T∧n 表示 T 與 n 中較小者；「a.s.」意指以機率 1 成立。

為何成立：停下的過程仍是鞅

證明比敘述所暗示的更短、更優雅，而且它把鞅變換那篇的一切都拿來再用。關鍵的一步，是建構停下的過程，記作 M_(T∧n)：在 T 觸發的那一刻把值凍結，此後永遠保持不變。具體說，當 n < T 時 M_(T∧n) 等於 M_n，而一旦 n >= T 便等於 M_T。想像一個賭徒，在鐘響之前玩真實的賭局，鐘響之後便守著他那一堆確切的籌碼度過每一個剩餘回合，押注為零。

妙處在這裡：「押 1 直到 T、然後押 0」本身就是一個合法的下注策略——一個可預測策略，因為「在第 n 輪繼續玩」的決定恰恰是事件 {T >= n}，而這個事件能由 F_(n-1) 判定（你知道鐘是否已經響過）。鞅變換那篇證明了：任何可預測的下注作用在一個鞅上，會得到另一個鞅。因此停下的過程 M_(T∧n) 自身就是一個鞅。鞅在每個固定時刻都公平，所以對每個 n 皆有 E[M_(T∧n)] = E[M_0]。這已經說了：無論你看多久，停下的賭局其期望值始終一動不動地停在起點。我們離終點只剩一步。

最後一步是讓 n 趨於無窮。我們想要 E[M_(T∧n)] -> E[M_T]，因為只要 T 有限，就有 M_(T∧n) -> M_T。但是——而這正是全部的微妙所在——*隨機變數*的收斂並不自動保證其*期望*的收斂；你可能在取極限時把質量漏向無窮，這恰恰是加倍策略所利用的那道漏洞。那三條防護，正是允許交換極限與期望的前提（透過有界收斂或控制收斂，皆是測度論那一級的工具）。在其中任何一條成立之下，E[M_T] = lim E[M_(T∧n)] = E[M_0]，定理得證。

讀懂不等式，並先嘗一口收成的滋味

定理還有兩個一樣有用的方向性親戚。若 M 是次鞅——一場有利的賭局，E[M_(n+1) given 過去] >= M_n，潮水溫和地朝你而來——那麼停止只能幫忙或打平：E[M_T] >= E[M_0]。若 M 是超鞅——把 >= 翻成 <= 的不利賭局，就像有莊家優勢把你往下拉的真實賭場——那麼 E[M_T] <= E[M_0]，沒有任何停止規則救得了你。口訣很乾淨：次（sub）往*上*、超（super）往*下*，而鞅的等式正是夾在兩者之間的刀鋒。這些不等式所需的有限性防護，與等式相同。

來算一個小例子，看看這部機器如何運轉。令 S_n 是一個從 S_0 = 0 出發的對稱簡單隨機漫步：每一步以機率 1/2 為 +1 或 -1，是一場公平賭局，故由期望的線性知它是鞅。在 -a 與 +b（正整數）處各立一道牆，令 T 為漫步首次碰到任一牆的時刻。T 的期望有限，且兩牆之間的漫步被 max(a, b) 所界，故防護 (2)/(3) 適用，最佳停止成立：E[S_T] = E[S_0] = 0。但 S_T 不是 -a（以機率 p 碰到左牆）就是 +b（以機率 1 - p）。於是 0 = (-a)·p + b·(1 - p)，整理得 p = b / (a + b)。一行代數，我們就讀出了「在達標前破產」的機率——這正是賭徒破產問題的核心。

這個小小的勝利是個預告：緊接著的下一篇，會完整地處理賭徒破產問題，包括賭局的*期望持續時間*，做法是從第二個精心挑選的鞅裡擠出同一招。要帶往前去的教訓是方法，而不只是答案。每當你能認出一個鞅與一個合法的停時，最佳停止就把一個關於整個隨機過程的彆扭問題，化成一條乾淨俐落的方程式 E[結束時的某量] = E[開始時的某量]——而那道「欠債有界」的防護，是你在兌現支票之前永遠必須核對的入場費。