一列隨機變數收斂的四種方式

為何「一種收斂」不夠用

到目前為止，「x_n 收斂到 L」一直是微積分裡那個樸素的意思：數列 x_n 會逼近某個固定極限 L，並從此停留在它任意小的鄰域內。這個單一定義一直夠用，因為每個 x_n 不過是一個數字。但在本階，數列裡的物件是隨機變數——每個 X_n 都是一整場賭局，是樣本空間上的一個函數——而問 X_1, X_2, X_3, ... 是否「趨近」某個極限 X，結果竟有好幾種誠實而真正不同的答案。原因很微妙：隨機變數攜帶的不只是一個值，還有一整套機會的型態，因此「靠近」可以指每個結果上的值都靠近、機率上靠近，或僅僅是分配的形狀靠近。

這不是吹毛求疵。前方那兩個偉大的結果活在兩種不同的模式裡。弱大數法則說樣本平均數以某種較弱的意義收斂；強大數法則把它升級為較強的意義；而中央極限定理又是第三種、也是最弱那種模式的陳述。若你把這些模式混為一談，就會以為這些定理在說同一件事、或彼此矛盾——其實兩者皆非。所以我們在此放慢腳步，把四種模式從最強到最弱仔細擺開，每一種都配上一張迷你的具體圖像。

幾乎必然：逐結果的收斂

四者中最強的是幾乎必然收斂。記得每個 X_n 都是樣本空間上的函數：固定一個底層結果 omega——一次完整的實驗執行，比方說一段無限長的擲幣歷史——那麼數字 X_1(omega), X_2(omega), X_3(omega), ... 就構成一個普通的實數數列。幾乎必然收斂要求對本質上每一個 omega，這個普通的微積分極限都成立：使數列不收斂的那組結果，其機率為零。它容許在少數怪異的歷史上失敗，只要那些怪異歷史合起來的機率為零即可。

想像永遠地擲一枚公正硬幣，令 X_n 為擲了 n 次後正面所佔的累計比例。對於絕大多數的歷史，這個比例會逼近 1/2 並停在那裡。確實存在一些離奇的歷史——例如永遠都是正面——使比例永遠到不了 1/2；幾乎必然收斂只是指出：所有這類壞歷史合起來的總機率為零。這個「以機率 1」的承諾，正是強大數法則所用的語言，也是我們把那條法則稱為「強」的緣故。

機率收斂與均值收斂：另外兩種

依機率收斂較弱，要求也較少。它不追蹤每一段歷史到底；它只要求對你所挑的任意容忍度 epsilon，X_n 偏離極限超過 epsilon 的機會會隨 n 增大而縮到零：P(|X_n - X| > epsilon) -> 0。它與幾乎必然的關鍵差異在於語序。依機率收斂說的是在每個很大的 n，偏離很遠是很不可能的，但它容許罕見的越界永遠繼續發生——只是愈來愈少。幾乎必然則說，對幾乎每一段歷史，越界最終會完全停止。

一個能讓你體會這道鴻溝的鮮明畫面：想像一盞閃爍的燈，閃的頻率愈來愈低，卻從不永久熄滅。在任何很晚的時刻，你都極不可能正好撞見它在閃（所以它依機率收斂到「暗」），然而沿著幾乎每一條無限的時間線，你仍會看到無窮多次閃爍（所以它並非幾乎必然收斂）。弱大數法則正是一個依機率收斂的陳述，這也是為什麼強大數法則是一次真正的升級，而非換句話說。

第三種以「平均」而非「機率」來衡量靠近。r 次方均值收斂要求 E[|X_n - X|^r] -> 0；最常見的情形 r = 2，即均方收斂，要求 E[(X_n - X)^2] -> 0。當你在意的是期望平方誤差時，這便是自然的模式，統計與訊號工作中比比皆是。均方收斂也會逼出依機率收斂——這直接由馬可夫不等式套用到 (X_n - X)^2 而得——但當罕見卻巨大的值使平均誤差居高不下、即使偏離的機率正在縮小時，它仍可能失敗。

依分配收斂：只有形狀收斂

最弱、也最寬鬆的是依分配收斂。它根本不要求這些隨機變數彼此靠近——它只要求它們的分配靠近。形式上，當累積分配函數在極限處相符，即在極限 F 連續的每一點 x 都有 F_n(x) -> F(x) 時，依分配收斂成立。這些 X_n 甚至可以定義在毫不相干的實驗上；唯一收斂的是機會的型態、直方圖的剪影，而非值本身。

這正是中央極限定理所用的模式。中央極限定理並不宣稱標準化後的樣本平均數會定到某一個數字上——它不可能定下來，因為那個量永遠是隨機的。它宣稱的是更微妙也更美的東西：標準化平均數的分配會趨近標準常態分配的形狀。鐘形曲線是形狀的極限，以依分配的方式達成。為何這種模式就足以有用？因為背後的深層機器用的是特徵函數：分配的收斂等價於這些變換的逐點收斂，這正是萊維連續性定理的內容，也是中央極限定理證明所扳動的那根槓桿。

四種模式如何排序

這四者不是一張平鋪的清單——它們構成一座強度的階梯，而知道它們之間的蘊含關係能省去日後不少混亂。箭頭只朝一個方向走：幾乎必然收斂蘊含依機率收斂，r 次方均值收斂也蘊含依機率收斂，而依機率收斂蘊含依分配收斂。反向的箭頭一般都不成立，這正是我們需要四個名字而非一個的原因。先前那盞閃爍的燈，就是一個反例，顯示依機率收斂並不給出幾乎必然收斂。

Strength ladder (arrow = "implies"):

  almost sure  -----+
                    |
                    +--->  in probability  --->  in distribution
                    |
  r-th mean  -------+

Reverse arrows fail in general.
Special case: if the limit is a CONSTANT,
   in probability  <==>  in distribution.

Who lives where:
  Strong LLN ........ almost sure
  Weak LLN .......... in probability
  CLT ............... in distribution

這座階層，以及每一層住著哪個招牌定理。

在你登階之前，有兩個誠實的提醒。第一，幾乎必然與 r 次方均值彼此並不可比：兩者互不蘊含，因為一個掌控的是每一段歷史、另一個掌控的是一個平均，而這兩者可以各說各話。第二，你已經擁有的工具直接接上這座階梯——柴比雪夫不等式用 Var(X_n)/epsilon^2 來界定 P(|X_n - mu| > epsilon)，這是通往依機率收斂最乾淨的路徑，因而也是下一篇弱大數法則的引擎。把模式理清之後，大數法則與中央極限定理讀起來就不再是口號，而是精確的主張，每一條都標明了某物究竟在哪一種意義下收斂。