鞅：公平賽局的數學

把公平賽局說精確

想像一位賭徒，每一回合都用一美元賭一枚公平硬幣：正面贏一美元，反面輸一美元。設 M_n 為她在 n 回合後的總財富。在給定至今所發生的一切之下，她下一回合後的期望財富是多少？硬幣是公平的，所以平均而言她既不賺也不賠：她明天的期望財富，等於她今天的財富。這句話——對明天的最佳猜測等於今天的值——正是鞅的全部點子，而這一階段就獻給「從這一句話榨出驚人後果」這件事。

你來到這一階段時，已經帶著兩件讓這個定義成為可能的工具。第一件是隨機過程：一整列以時間為指標的隨機變數 M_0, M_1, M_2, ...，恰恰就是上面那個「財富隨時間變化」的物件。第二件，也是這裡更重要的，是條件期望——這套機器讓我們能問：「在給定我們目前所知的一切之下，這個隨機變數的平均是多少？」鞅就只是一個過程，它「給定過去、下一個值的條件期望」恰好落回現在的值。沒有新物件；只有一條把你已經擁有的兩者連起來的優雅約束。

「過去」是什麼意思：過濾

要精確地說「給定至今所發生的一切」，我們需要一個累積資訊的記帳工具。那個工具就是[[prob-filtration|過濾]]，你在隨機過程那一階段已經見過。把 F_n 想成「直到並包含時刻 n 為止、一切可觀測之事」的資料夾——每一次擲幣、每一筆財富、每一個你原則上能在第 n 步之前寫下來的量。隨著時間推進，資料夾只會變大：F_0 包含於 F_1，F_1 包含於 F_2，依此類推。資訊永遠不會被丟棄。每一個過濾在技術上都是一個sigma-代數，但你需要的直覺，就只是「到時刻 n 為止所知道的歷史」。

兩項要求把過程拴在它的過濾上。第一，M_n 必須是適應的：到時刻 n 時，M_n 的值已經已知——它住在資料夾 F_n 裡，不准偷看未來。你在第 n 回合後的財富，到第 n 回合時當然是可觀測的。第二，每一個 M_n 都必須可積，意思是 E[|M_n|] 有限，如此我們即將要取的條件期望才真的存在。具備這些之後，鞅條件就是相對於過濾來陳述的，這也正是為什麼這個正式物件被稱為[[martingale-relative-to-filtration|相對於過濾的鞅]]——一個過程與它的資訊流，是一份綁在一起的套餐。

定義方程式，以及它的兩個表親

這就是核心。一個適應於過濾 F_n 且可積的過程 M_n，當「給定今天的資訊、明天的條件期望」等於今天的值時，就是一個鞅。底下出現兩種等價寫法：第二種以增量 M_(n+1) - M_n 表示，說的是期望變化量為零——這正是「平均而言你既不賺也不賠」的精確意思。

Martingale       :  E[ M_(n+1) given F_n ]  =  M_n        (fair)
  equivalently   :  E[ M_(n+1) - M_n  given F_n ]  =  0

Submartingale    :  E[ M_(n+1) given F_n ]  >=  M_n       (drifts up)
Supermartingale  :  E[ M_(n+1) given F_n ]  <=  M_n       (drifts down)

三個條件並排呈現。把 = 換成 >=，你得到一個平均而言會攀升的過程；換成 <=，則得到一個平均而言會下沉的過程。

把等號放鬆，你就遇見兩個表親，合稱下鞅與上鞅。下鞅滿足 E[M_(n+1) given F_n] >= M_n：平均而言它向上漂移——對賭徒是一場有利的賽局。上鞅滿足 E[M_(n+1) given F_n] <= M_n：平均而言它向下漂移——一場不利的賽局。這套命名出了名地與直覺相反，剛開始人人都會被絆倒：「上」會下沉，「下」會上升。一個可靠的記法是：上鞅的未來期望坐落在你現在所處之處或更低，所以它的值如今居於高位——只能持平或往下走。

幾個握得住的典範例子

最乾淨的例子，是公平、獨立賭注的累加和。設 X_1, X_2, ... 為各自均值為零的獨立步伐——比方說公平硬幣的 +1 或 -1——並令 M_n = X_1 + ... + X_n，M_0 = 0。給定歷史 F_n，下一個值是 M_(n+1) = M_n + X_(n+1)；由於 X_(n+1) 與過去獨立且平均為零，E[M_(n+1) given F_n] = M_n + 0 = M_n。這就是[[sum-of-mean-zero-martingale|均值為零之獨立變數的和]]，也是原型：對稱簡單隨機漫步是一個鞅。若每一步改為帶正均值（一枚偏向你的硬幣），同樣的計算給出下鞅；負均值則給出上鞅。

第二種風味是乘法而非加法。假設你的財富每一回合都乘上一個獨立因子 R_(n+1)，且 E[R_(n+1)] = 1——例如公平硬幣的「加倍或歸零」，其中 R 以相等機率為 2 或 0，平均為 1。那麼 W_n = W_0 R_1 R_2 ... R_n 滿足 E[W_(n+1) given F_n] = W_n E[R_(n+1)] = W_n，所以它也是一個鞅。這個乘積鞅是「複利型增長」的自然模型，並顯示出公平賽局的點子，遠遠不只限於單純的和。

第三個例子感覺像作弊，卻是整個學科的祕密引擎。任取一個單一隨機變數 Y，且 E[|Y|] 有限，並定義 M_n = E[Y given F_n]：隨著資訊累積，你對 Y 的當前最佳估計。這是一個[[doob-martingale|Doob 鞅]]，並且憑著條件期望的塔性質，它自動是一個鞅：先用 F_n 估計 Y，再用較大的 F_(n+1) 重新估計、然後對 F_n 取平均收回來，又回到 F_n 的那個估計。具體地說，一場民調逐日隨著票數涓滴流入而更新的得票率預測，恰恰就是這樣一個過程。我們接下來把它拆開來看。

為什麼塔性質讓它成立

Doob 鞅值得慢慢看，因為它揭示了鞅性質真正的來處。塔性質說：用較細的資訊估計、再粗化收回，等於從一開始就粗略地估計：對於巢狀的資料夾 F_n 包含於 F_(n+1)，E[ E[Y given F_(n+1)] given F_n ] = E[Y given F_n]。把內層期望讀成 M_(n+1)，外層讀成以 F_n 為條件，這條方程式就字面地變成 E[M_(n+1) given F_n] = M_n——鞅條件，免費奉送到你手上。

挑出你想了解的目標：一個固定的隨機變數 Y，且 E[|Y|] 有限（比方說最終的計票結果）。
在每一時刻 n，根據你所知的形成最佳估計：M_n = E[Y given F_n]。
套用塔性質：從 F_(n+1) 重新估計、再對 F_n 取平均收回，就回到 F_n 的估計，所以 E[M_(n+1) given F_n] = M_n。
結論：M_n 是一個鞅：你對一個固定量所做的一連串最佳猜測，是一場公平賽局，沒有系統性的向上或向下漂移。

這裡有一個鮮明的寓意。你對一個固定未知量的預測，本身就應該是一個鞅：今天的最佳猜測，必須等於明天最佳猜測的期望值。倘若你能預測自己的估計明天會上升，那你今天就該乾脆把它往上修——那份可預測性，是你早就握有的資訊。一個不是鞅的預測，是把資訊白白留在桌上。這正是下一篇裡，會化為「沒有任何下注策略能擊敗公平賽局」這個正式陳述的同一份直覺。

兩個推論，以及前方的路

在繼續之前，有兩個立即的推論值得先存進口袋。第一，鞅具有常數期望：對 E[M_(n+1) given F_n] = M_n 取無條件期望，並用全期望法則，得到 E[M_(n+1)] = E[M_n]，所以對每一個 n 都有 E[M_n] = E[M_0]。公平賽局把你的平均財富永遠釘在起始值上——用一個數字寫成的公平。第二，當心「賭徒謬誤式」的讀法：平均財富恆定，並不表示你實際的財富會停在 M_0 附近。個別路徑可以遊蕩得極遠；對稱隨機漫步即使均值永遠為零，也會漂離零任意之遠。

同樣值得誠實地說清楚：鞅不是什麼。它不是馬可夫過程：Doob 鞅的下一步可以透過 F_n 依賴整段歷史，而不只是當前的值，所以過濾確實在做著「單一當前狀態無法做到」的工作。而那個等號是關於真實世界模型的一個假設，不是魔杖——把一個過程稱作鞅，需要真的逐一增量地、對照系統的實際行為，去驗證 E[M_(n+1) given F_n] = M_n。

握有了定義與它的例子，這一階段其餘的部分，就是一趟「公平會逼出什麼」的巡禮。第 2 篇證明你無法靠聰明下注把公平賽局扳向自己這一邊——鞅變換與「沒有策略」定理。第 3 篇引入停時，也就是「不准偷看未來」的收手規則，以及「即使是一個聰明選定的收手時刻，公平通常依然存活」的選擇性停止定理。第 4 篇把它兌現在經典的賭徒破產問題上。第 5 篇以極大不等式與收斂定理收尾，後者保證一個「不會漂向無窮」的公平賽局，必定會安定下來趨於一個極限。前方的一切，都是你此刻握有的那一條方程式的推論。