為何「一種收斂」不夠用
到目前為止,「x_n 收斂到 L」一直是微積分裡那個樸素的意思:數列 x_n 會逼近某個固定極限 L,並從此停留在它任意小的鄰域內。這個單一定義一直夠用,因為每個 x_n 不過是一個數字。但在本階,數列裡的物件是隨機變數——每個 X_n 都是一整場賭局,是樣本空間上的一個函數——而問 X_1, X_2, X_3, ... 是否「趨近」某個極限 X,結果竟有好幾種誠實而真正不同的答案。原因很微妙:隨機變數攜帶的不只是一個值,還有一整套機會的型態,因此「靠近」可以指每個結果上的值都靠近、機率上靠近,或僅僅是分配的形狀靠近。
這不是吹毛求疵。前方那兩個偉大的結果活在兩種不同的模式裡。弱大數法則說樣本平均數以某種較弱的意義收斂;強大數法則把它升級為較強的意義;而中央極限定理又是第三種、也是最弱那種模式的陳述。若你把這些模式混為一談,就會以為這些定理在說同一件事、或彼此矛盾——其實兩者皆非。所以我們在此放慢腳步,把四種模式從最強到最弱仔細擺開,每一種都配上一張迷你的具體圖像。
幾乎必然:逐結果的收斂
四者中最強的是幾乎必然收斂。記得每個 X_n 都是樣本空間上的函數:固定一個底層結果 omega——一次完整的實驗執行,比方說一段無限長的擲幣歷史——那麼數字 X_1(omega), X_2(omega), X_3(omega), ... 就構成一個普通的實數數列。幾乎必然收斂要求對本質上每一個 omega,這個普通的微積分極限都成立:使數列不收斂的那組結果,其機率為零。它容許在少數怪異的歷史上失敗,只要那些怪異歷史合起來的機率為零即可。
想像永遠地擲一枚公正硬幣,令 X_n 為擲了 n 次後正面所佔的累計比例。對於絕大多數的歷史,這個比例會逼近 1/2 並停在那裡。確實存在一些離奇的歷史——例如永遠都是正面——使比例永遠到不了 1/2;幾乎必然收斂只是指出:所有這類壞歷史合起來的總機率為零。這個「以機率 1」的承諾,正是強大數法則所用的語言,也是我們把那條法則稱為「強」的緣故。
機率收斂與均值收斂:另外兩種
依機率收斂較弱,要求也較少。它不追蹤每一段歷史到底;它只要求對你所挑的任意容忍度 epsilon,X_n 偏離極限超過 epsilon 的機會會隨 n 增大而縮到零:P(|X_n - X| > epsilon) -> 0。它與幾乎必然的關鍵差異在於語序。依機率收斂說的是在每個很大的 n,偏離很遠是很不可能的,但它容許罕見的越界永遠繼續發生——只是愈來愈少。幾乎必然則說,對幾乎每一段歷史,越界最終會完全停止。
一個能讓你體會這道鴻溝的鮮明畫面:想像一盞閃爍的燈,閃的頻率愈來愈低,卻從不永久熄滅。在任何很晚的時刻,你都極不可能正好撞見它在閃(所以它依機率收斂到「暗」),然而沿著幾乎每一條無限的時間線,你仍會看到無窮多次閃爍(所以它並非幾乎必然收斂)。弱大數法則正是一個依機率收斂的陳述,這也是為什麼強大數法則是一次真正的升級,而非換句話說。
第三種以「平均」而非「機率」來衡量靠近。r 次方均值收斂要求 E[|X_n - X|^r] -> 0;最常見的情形 r = 2,即均方收斂,要求 E[(X_n - X)^2] -> 0。當你在意的是期望平方誤差時,這便是自然的模式,統計與訊號工作中比比皆是。均方收斂也會逼出依機率收斂——這直接由馬可夫不等式套用到 (X_n - X)^2 而得——但當罕見卻巨大的值使平均誤差居高不下、即使偏離的機率正在縮小時,它仍可能失敗。
依分配收斂:只有形狀收斂
最弱、也最寬鬆的是依分配收斂。它根本不要求這些隨機變數彼此靠近——它只要求它們的分配靠近。形式上,當累積分配函數在極限處相符,即在極限 F 連續的每一點 x 都有 F_n(x) -> F(x) 時,依分配收斂成立。這些 X_n 甚至可以定義在毫不相干的實驗上;唯一收斂的是機會的型態、直方圖的剪影,而非值本身。
這正是中央極限定理所用的模式。中央極限定理並不宣稱標準化後的樣本平均數會定到某一個數字上——它不可能定下來,因為那個量永遠是隨機的。它宣稱的是更微妙也更美的東西:標準化平均數的分配會趨近標準常態分配的形狀。鐘形曲線是形狀的極限,以依分配的方式達成。為何這種模式就足以有用?因為背後的深層機器用的是特徵函數:分配的收斂等價於這些變換的逐點收斂,這正是萊維連續性定理的內容,也是中央極限定理證明所扳動的那根槓桿。
四種模式如何排序
這四者不是一張平鋪的清單——它們構成一座強度的階梯,而知道它們之間的蘊含關係能省去日後不少混亂。箭頭只朝一個方向走:幾乎必然收斂蘊含依機率收斂,r 次方均值收斂也蘊含依機率收斂,而依機率收斂蘊含依分配收斂。反向的箭頭一般都不成立,這正是我們需要四個名字而非一個的原因。先前那盞閃爍的燈,就是一個反例,顯示依機率收斂並不給出幾乎必然收斂。
Strength ladder (arrow = "implies"):
almost sure -----+
|
+---> in probability ---> in distribution
|
r-th mean -------+
Reverse arrows fail in general.
Special case: if the limit is a CONSTANT,
in probability <==> in distribution.
Who lives where:
Strong LLN ........ almost sure
Weak LLN .......... in probability
CLT ............... in distribution在你登階之前,有兩個誠實的提醒。第一,幾乎必然與 r 次方均值彼此並不可比:兩者互不蘊含,因為一個掌控的是每一段歷史、另一個掌控的是一個平均,而這兩者可以各說各話。第二,你已經擁有的工具直接接上這座階梯——柴比雪夫不等式用 Var(X_n)/epsilon^2 來界定 P(|X_n - mu| > epsilon),這是通往依機率收斂最乾淨的路徑,因而也是下一篇弱大數法則的引擎。把模式理清之後,大數法則與中央極限定理讀起來就不再是口號,而是精確的主張,每一條都標明了某物究竟在哪一種意義下收斂。