獨立性、乘積測度與零一律

用測度的眼光重讀獨立性

在這條階梯較前面的階段，我們寫過：兩個事件當 P(A and B) = P(A)P(B) 時稱為獨立，而這和互斥並不是同一回事——互斥（不相交）的事件其實是最相依的，因為知道其中一個發生了，就等於知道另一個沒發生。那個定義是對的，但它懸空、沒接上任何機制。既然本階段前面的指南已經把機率空間重建成一個帶有 σ-代數與機率測度的真正三元組 (Omega, F, P)，我們終於能看清獨立性究竟是什麼：一個關於測度可以相乘拆開的陳述。

成熟的定義從事件爬升到 σ-代數。F 的兩個子 σ-代數 G 與 H 稱為獨立，是指對每一個 G 中的 A 與每一個 H 中的 B，P(A and B) = P(A)P(B) 都同時成立——而不只是對某一組挑好的配對。至於隨機變數，本階段第三篇教我們把它讀成可測函數，那麼當它們所生成的 σ-代數彼此獨立時，就宣告這些隨機變數獨立。這聽起來像是手續變繁了，其實是誠實度提升了：它逼迫相乘拆開的關係，對每個變數所承載的全部資訊都成立，而不只是對某一個方便的事件成立。

讓獨立性可被查驗的 π-系統捷徑

那個定義裡藏著一個明顯的隱憂。由單一連續隨機變數所生成的 σ-代數極其龐大——它包含每一個博雷爾事件，多到不可數。難道我們真得對它們全部驗證 P(A and B) = P(A)P(B)，才能說兩個變數獨立嗎？所幸不必，而救星正是本階段第二篇為這類「以小推大」所引介的工具：π-系統／λ-系統這套機制。

π-系統不過是一族在交集下封閉的集合——對一個實值隨機變數 X 而言，半直線 {X <= x} 就構成一個，而它們生成了 X 的整個 σ-代數。Dynkin 的 π-λ 定理說：若兩個機率測度在某個 π-系統上一致，則它們在該 π-系統所生成的整個 σ-代數上都一致。把它用在這裡，寓意極為深遠：要檢驗 X 與 Y 獨立，只需對所有實數 x 與 y 驗證 P(X <= x and Y <= y) = P(X <= x)P(Y <= y)——也就是說，聯合累積分配函數會拆成邊際累積分配函數的乘積。那個笨重的「對每一個博雷爾事件」就此塌縮成對一小族生成元的條件。這和你早先見過的因式分解判準精神相同，只是如今是被嚴謹地證成，而非僅僅斷言。

乘積測度：從零打造獨立性

到目前為止，我們都是在一個給定的空間裡辨認獨立性。但一對獨立的東西最初是從哪兒來的？這個建構就是乘積測度。給定兩個機率空間 (Omega_1, F_1, P_1) 與 (Omega_2, F_2, P_2)，在乘積 Omega_1 x Omega_2 上存在唯一一個機率測度 P_1 x P_2，它在矩形上的值是兩邊測度的乘積：(P_1 x P_2)(A x B) = P_1(A) P_2(B)。矩形構成一個 π-系統，所以由同一套 Dynkin 論證，這單一條規則會延拓成整個乘積 σ-代數上唯一的一個測度。這裡獨立性並非被假設——它是被製造出來的，烙印在聯合空間的定義之中。

Rectangle rule:   (P_1 x P_2)(A x B) = P_1(A) * P_2(B)

Fubini / Tonelli (integrating over the product):

   E[ g(X, Y) ] = integral integral g(x, y) dP_1(x) dP_2(y)
                = integral [ integral g(x, y) dP_2(y) ] dP_1(x)

   -- swap the order of integration freely when either
      g >= 0  (Tonelli)  or  E[ |g(X, Y)| ] < infinity  (Fubini)

Consequence, for independent X, Y:

   E[ f(X) g(Y) ] = E[ f(X) ] * E[ g(Y) ]
   (expectations factor whenever both sides are finite)

乘積測度在矩形上相乘拆開；Fubini-Tonelli 讓你一次積分一個變數，正是它使「獨立量的期望值相乘」成為一條定理。

與乘積測度相伴的是 Fubini-Tonelli 定理，它正是「乘積上的積分可以一次只做一個座標」的原因。回想本階段第四篇：期望值就是對 P 的勒貝格積分；在乘積空間上，那個積分會拆成內外兩層積分，且可任一順序進行。守護這次交換的，有兩道誠實的籬笆。當被積分函數非負時，Tonelli 允許你自由交換順序；至於帶正負號或複數的被積分函數，Fubini 只在你先查驗「其絕對值的二重積分有限」之後才准許交換。略過那道有限性查驗，兩種順序就可能給出兩個不同的「答案」——這次交換是一條帶前提的定理，不是免費的動作。

一次乘積造出一對；要做真正的機率，我們需要一個無窮的獨立變數序列——比方說，一串永不停止的擲幣。這由柯爾莫哥洛夫延拓定理交付：它把一族彼此相容的有限維乘積分配縫合成無窮序列空間上的單一測度。正是它保證了「設 X_1, X_2, X_3, ... 為 i.i.d.」這句話真的指向某個實在的東西——確實存在一個貨真價實的機率空間，讓它們全體同時棲身其上。

尾事件與零一律

現在來領獎。手握一個無窮的獨立序列 X_1, X_2, ...，有些事件只取決於序列的長程、漸近行為，而不取決於它開頭任何有限的一段。正式地說，這些就是尾事件：一個事件若對每一個 n 而言，都不因更動前 n 項而改變，便落在尾 σ-代數裡。例如：「級數 sum of X_k 收斂」、「X_n 無窮多次超過 100」、「移動平均 X-bar_n 收斂到某極限」。它們每一個都由無窮的未來決定，對你在前面塗改的任何有限前綴都不屑一顧。

柯爾莫哥洛夫零一律對這類事件提出一個驚人的主張：對一個獨立序列而言，每一個尾事件的機率恰恰是 0 或恰恰是 1——絕不會落在嚴格的兩者之間。不存在機率為 0.5 的尾事件。關於獨立序列的漸近問題根本不是賭博；它們是已成定局、決定性的事實，只不過恰好披著機率的語言而已。要嘛級數確定收斂，要嘛確定發散；要嘛平均幾乎必然有極限，要嘛幾乎必然沒有。

為什麼是對的？這個證明是我們剛建好那套結構的一個小小奇蹟，並且兩度倚賴獨立性。一個尾事件 T 忽略前 n 個變數，所以對每一個 n，它都與 (X_1, ..., X_n) 的 σ-代數獨立。那些有限的 σ-代數不斷增長，最終生成整個序列的 σ-代數——而且它們構成一個 π-系統，於是由 π-λ 定理，T 最終會與一切獨立，包括它自己。一個與自身獨立的事件滿足 P(T) = P(T and T) = P(T)P(T)，即 P(T) = P(T)^2，其唯一的解是 P(T) = 0 與 P(T) = 1。

固定一個尾事件 T。依定義它忽略任何有限前綴，所以對每一個 n，T 都與 (X_1, ..., X_n) 所生成的 σ-代數獨立。
這些有限前綴的 σ-代數構成一個 π-系統，其所生成的 σ-代數就是整個序列的 σ-代數。由 π-λ 定理，獨立性從 π-系統延拓到那整個 σ-代數。
但 T 本身就住在那整個 σ-代數裡。所以 T 與一個包含 T 的 σ-代數獨立——尤其，T 與它自己獨立。
與自身獨立逼出 P(T) = P(T and T) = P(T)^2，而 x = x^2 只有 0 與 1 兩個根。因此每一個尾事件的機率非 0 即 1。

零一律能為你換來什麼

這條定律不是奇珍異玩；它改變你推理的方式。假設你想知道一個 i.i.d. 序列的移動平均是否收斂。事件「X-bar_n 收斂」是個尾事件，所以在你算任何東西之前，就已經知道它的機率非 0 即 1——沒有中間地帶。這把一個困難的問題化簡成：判定它到底是兩者中的哪一個，而這遠比估計一個介於中間的數字容易。再配上先前的極限定理，這個二分正是強大數法則的骨幹：平均收斂到 mu 並不是「以某個機率」，而是以恰恰為 1 的機率、幾乎必然地收斂。

一位近親把這幅圖磨得更利。Borel-Cantelli 引理判定尾事件「A_n 無窮多次發生」。第一引理說：若機率之和為有限數，sum of P(A_n) < infinity，則幾乎必然只有有限多個 A_n 發生——不需要獨立性。第二引理說：若 A_n 彼此獨立且機率之和為無窮，則幾乎必然有無窮多個發生。兩者合起來，對「無窮多次」釘下一個鋒利的 0-或-1 裁決，呼應著零一律：獨立事件機率的發散之和，逼著事件永遠重現；收斂之和，則逼它停止。