把公平賽局說精確
想像一位賭徒,每一回合都用一美元賭一枚公平硬幣:正面贏一美元,反面輸一美元。設 M_n 為她在 n 回合後的總財富。在給定至今所發生的一切之下,她下一回合後的期望財富是多少?硬幣是公平的,所以平均而言她既不賺也不賠:她明天的期望財富,等於她今天的財富。這句話——對明天的最佳猜測等於今天的值——正是鞅的全部點子,而這一階段就獻給「從這一句話榨出驚人後果」這件事。
你來到這一階段時,已經帶著兩件讓這個定義成為可能的工具。第一件是隨機過程:一整列以時間為指標的隨機變數 M_0, M_1, M_2, ...,恰恰就是上面那個「財富隨時間變化」的物件。第二件,也是這裡更重要的,是條件期望——這套機器讓我們能問:「在給定我們目前所知的一切之下,這個隨機變數的平均是多少?」鞅就只是一個過程,它「給定過去、下一個值的條件期望」恰好落回現在的值。沒有新物件;只有一條把你已經擁有的兩者連起來的優雅約束。
「過去」是什麼意思:過濾
要精確地說「給定至今所發生的一切」,我們需要一個累積資訊的記帳工具。那個工具就是[[prob-filtration|過濾]],你在隨機過程那一階段已經見過。把 F_n 想成「直到並包含時刻 n 為止、一切可觀測之事」的資料夾——每一次擲幣、每一筆財富、每一個你原則上能在第 n 步之前寫下來的量。隨著時間推進,資料夾只會變大:F_0 包含於 F_1,F_1 包含於 F_2,依此類推。資訊永遠不會被丟棄。每一個過濾在技術上都是一個sigma-代數,但你需要的直覺,就只是「到時刻 n 為止所知道的歷史」。
兩項要求把過程拴在它的過濾上。第一,M_n 必須是適應的:到時刻 n 時,M_n 的值已經已知——它住在資料夾 F_n 裡,不准偷看未來。你在第 n 回合後的財富,到第 n 回合時當然是可觀測的。第二,每一個 M_n 都必須可積,意思是 E[|M_n|] 有限,如此我們即將要取的條件期望才真的存在。具備這些之後,鞅條件就是相對於過濾來陳述的,這也正是為什麼這個正式物件被稱為[[martingale-relative-to-filtration|相對於過濾的鞅]]——一個過程與它的資訊流,是一份綁在一起的套餐。
定義方程式,以及它的兩個表親
這就是核心。一個適應於過濾 F_n 且可積的過程 M_n,當「給定今天的資訊、明天的條件期望」等於今天的值時,就是一個鞅。底下出現兩種等價寫法:第二種以增量 M_(n+1) - M_n 表示,說的是期望變化量為零——這正是「平均而言你既不賺也不賠」的精確意思。
Martingale : E[ M_(n+1) given F_n ] = M_n (fair) equivalently : E[ M_(n+1) - M_n given F_n ] = 0 Submartingale : E[ M_(n+1) given F_n ] >= M_n (drifts up) Supermartingale : E[ M_(n+1) given F_n ] <= M_n (drifts down)
把等號放鬆,你就遇見兩個表親,合稱下鞅與上鞅。下鞅滿足 E[M_(n+1) given F_n] >= M_n:平均而言它向上漂移——對賭徒是一場有利的賽局。上鞅滿足 E[M_(n+1) given F_n] <= M_n:平均而言它向下漂移——一場不利的賽局。這套命名出了名地與直覺相反,剛開始人人都會被絆倒:「上」會下沉,「下」會上升。一個可靠的記法是:上鞅的未來期望坐落在你現在所處之處或更低,所以它的值如今居於高位——只能持平或往下走。
幾個握得住的典範例子
最乾淨的例子,是公平、獨立賭注的累加和。設 X_1, X_2, ... 為各自均值為零的獨立步伐——比方說公平硬幣的 +1 或 -1——並令 M_n = X_1 + ... + X_n,M_0 = 0。給定歷史 F_n,下一個值是 M_(n+1) = M_n + X_(n+1);由於 X_(n+1) 與過去獨立且平均為零,E[M_(n+1) given F_n] = M_n + 0 = M_n。這就是[[sum-of-mean-zero-martingale|均值為零之獨立變數的和]],也是原型:對稱簡單隨機漫步是一個鞅。若每一步改為帶正均值(一枚偏向你的硬幣),同樣的計算給出下鞅;負均值則給出上鞅。
第二種風味是乘法而非加法。假設你的財富每一回合都乘上一個獨立因子 R_(n+1),且 E[R_(n+1)] = 1——例如公平硬幣的「加倍或歸零」,其中 R 以相等機率為 2 或 0,平均為 1。那麼 W_n = W_0 R_1 R_2 ... R_n 滿足 E[W_(n+1) given F_n] = W_n E[R_(n+1)] = W_n,所以它也是一個鞅。這個乘積鞅是「複利型增長」的自然模型,並顯示出公平賽局的點子,遠遠不只限於單純的和。
第三個例子感覺像作弊,卻是整個學科的祕密引擎。任取一個單一隨機變數 Y,且 E[|Y|] 有限,並定義 M_n = E[Y given F_n]:隨著資訊累積,你對 Y 的當前最佳估計。這是一個[[doob-martingale|Doob 鞅]],並且憑著條件期望的塔性質,它自動是一個鞅:先用 F_n 估計 Y,再用較大的 F_(n+1) 重新估計、然後對 F_n 取平均收回來,又回到 F_n 的那個估計。具體地說,一場民調逐日隨著票數涓滴流入而更新的得票率預測,恰恰就是這樣一個過程。我們接下來把它拆開來看。
為什麼塔性質讓它成立
Doob 鞅值得慢慢看,因為它揭示了鞅性質真正的來處。塔性質說:用較細的資訊估計、再粗化收回,等於從一開始就粗略地估計:對於巢狀的資料夾 F_n 包含於 F_(n+1),E[ E[Y given F_(n+1)] given F_n ] = E[Y given F_n]。把內層期望讀成 M_(n+1),外層讀成以 F_n 為條件,這條方程式就字面地變成 E[M_(n+1) given F_n] = M_n——鞅條件,免費奉送到你手上。
- 挑出你想了解的目標:一個固定的隨機變數 Y,且 E[|Y|] 有限(比方說最終的計票結果)。
- 在每一時刻 n,根據你所知的形成最佳估計:M_n = E[Y given F_n]。
- 套用塔性質:從 F_(n+1) 重新估計、再對 F_n 取平均收回,就回到 F_n 的估計,所以 E[M_(n+1) given F_n] = M_n。
- 結論:M_n 是一個鞅:你對一個固定量所做的一連串最佳猜測,是一場公平賽局,沒有系統性的向上或向下漂移。
這裡有一個鮮明的寓意。你對一個固定未知量的預測,本身就應該是一個鞅:今天的最佳猜測,必須等於明天最佳猜測的期望值。倘若你能預測自己的估計明天會上升,那你今天就該乾脆把它往上修——那份可預測性,是你早就握有的資訊。一個不是鞅的預測,是把資訊白白留在桌上。這正是下一篇裡,會化為「沒有任何下注策略能擊敗公平賽局」這個正式陳述的同一份直覺。
兩個推論,以及前方的路
在繼續之前,有兩個立即的推論值得先存進口袋。第一,鞅具有常數期望:對 E[M_(n+1) given F_n] = M_n 取無條件期望,並用全期望法則,得到 E[M_(n+1)] = E[M_n],所以對每一個 n 都有 E[M_n] = E[M_0]。公平賽局把你的平均財富永遠釘在起始值上——用一個數字寫成的公平。第二,當心「賭徒謬誤式」的讀法:平均財富恆定,並不表示你實際的財富會停在 M_0 附近。個別路徑可以遊蕩得極遠;對稱隨機漫步即使均值永遠為零,也會漂離零任意之遠。
同樣值得誠實地說清楚:鞅不是什麼。它不是馬可夫過程:Doob 鞅的下一步可以透過 F_n 依賴整段歷史,而不只是當前的值,所以過濾確實在做著「單一當前狀態無法做到」的工作。而那個等號是關於真實世界模型的一個假設,不是魔杖——把一個過程稱作鞅,需要真的逐一增量地、對照系統的實際行為,去驗證 E[M_(n+1) given F_n] = M_n。
握有了定義與它的例子,這一階段其餘的部分,就是一趟「公平會逼出什麼」的巡禮。第 2 篇證明你無法靠聰明下注把公平賽局扳向自己這一邊——鞅變換與「沒有策略」定理。第 3 篇引入停時,也就是「不准偷看未來」的收手規則,以及「即使是一個聰明選定的收手時刻,公平通常依然存活」的選擇性停止定理。第 4 篇把它兌現在經典的賭徒破產問題上。第 5 篇以極大不等式與收斂定理收尾,後者保證一個「不會漂向無窮」的公平賽局,必定會安定下來趨於一個極限。前方的一切,都是你此刻握有的那一條方程式的推論。