聯集界與 Borel-Cantelli 引理

一切都倚靠的那一行不等式

這個階段先前的每一篇導引，都在「擠壓」一個隨機變數：馬可夫不等式為 X 偏離平均多遠設界，柴比雪夫不等式用上了變異數，而 Chernoff 界與 Hoeffding 不等式則為和給出指數級小的尾巴。這最後一篇換了問題。我們不再問「單一個量能多大？」，而是問「許多件壞事中，至少有一件發生的機率是多少？」這個工具簡單到幾乎令人尷尬——又有用到無處不在。

聯集界（又稱 Boole 不等式）說：對任何事件 A_1, A_2, ..., A_n，P(A_1 或 A_2 或 ... 或 A_n) <= P(A_1) + P(A_2) + ... + P(A_n)。它們之中任何一件發生的機率，不會超過各自機率的總和。注意「不需要」什麼：這些事件不必獨立、不必互斥、彼此之間不必有任何關係。你只要把各自的機率加起來，那個總和就是「某件事出錯」這個機率的上限。

為什麼成立？把每個事件想成潑在樣本空間上的一塊顏料。聯集「A_1 或 A_2 或 ...」就是上色的總面積。但如果你改成一個事件一個事件地把面積加起來，每一個被兩個事件都覆蓋到的點會被算兩次、被三個覆蓋的點會被算三次，以此類推——你只可能高估，絕不可能低估。所以各部分之和至少等於聯集的面積。這個界在事件互斥時恰好相等（沒有重疊、沒有重複計算）；它們重疊得越多，界就越鬆。它是精確的排容原理那個粗糙、單邊的表親——排容原理保留了所有修正重疊的項，而聯集界把它們全丟掉了。

粗糙的界為何如此有力：最差那一塊的失敗

當你手上有許多件「各自幾乎絕不失敗」的事，而你希望它們同時成功時，聯集界就大放異彩。用餘事件法則翻轉一下：若 A_i 是「第 i 個元件失敗」，那麼「一切都正常」就是「有東西失敗」的餘事件，所以 P(全部成功) = 1 - P(有東西失敗) >= 1 - sum P(A_i)。要保證整個系統以至少 0.99 的機率運作，只需讓各自的失敗機率加起來至多 0.01 即可。你完全不必去拆解這些失敗之間如何相關——這是一個巨大的簡化。

這裡有一個小小的數值範例。假設你跑 1000 個獨立的統計檢定，每一個僅僅因為運氣不好，就以 0.001 的機率拉響一次假警報。至少出現一次假警報的機率是多少？聯集界說至多 1000 x 0.001 = 1，在這裡毫無用處（機率永遠不可能超過 1，所以這個界什麼也沒告訴你）。但若把每個檢定的門檻收緊，使其假警報率變成 0.00001；那麼出現任何一次假警報的機率至多是 1000 x 0.00001 = 0.01。這正是統計學中 Bonferroni 校正背後的邏輯：要讓任何假發現的機率低於某個水準，就把那個水準除以檢定的個數。聯集界就是它的全部證明。

第一 Borel-Cantelli 引理：罕見事件終將停止

現在把聯集界延伸到無限多個事件，你會得到一個感覺像魔法的東西：一種能「確定地」判斷某列事件是會永遠持續發生、還是會在某一點之後關閉的方法。關鍵詞是 「無窮多次」——也就是「A_n 對無限多個 n 值發生」這個事件，無論你往多遠處看，永遠都還有下一個在等著。第一 Borel-Cantelli 引理給出一個乾淨的檢驗，用來排除這種情況。

它說：若這些機率加起來是有限的，sum P(A_n) < 無限大，那麼以機率 1，A_n 之中只有「有限多個」會發生。用白話說，如果機率衰減得夠快，使得它們的總和有限，那麼這些事件保證會停止——存在某個「最後一次」A_n 發生的時刻，在那之後就再也不會了。證明只用一次聯集界。「A_n 在某個指標 n 或更後面仍然發生」的機率，至多等於尾部之和 P(A_n) + P(A_(n+1)) + ...，而因為整個級數收斂，只要往足夠遠處走，那個尾部就能被壓到任何你想要的微小數字以下。一個比每個正數都還小的機率就是零。所以「無窮多次」的機率是零，也就是說「只有有限多次」的機率是一。

First Borel-Cantelli   (no independence needed):

   sum_n P(A_n) < infinity     ==>    P(A_n infinitely often) = 0
                                      i.e. only finitely many A_n occur, a.s.

   proof in one line:
      P(some A_k with k >= n) <= sum_{k>=n} P(A_k)  --> 0   (union bound + convergent tail)


Second Borel-Cantelli   (INDEPENDENCE required):

   sum_n P(A_n) = infinity  AND  A_n independent
                                ==>    P(A_n infinitely often) = 1


   The sum being finite or infinite is the whole switch:
      converges  ->  events stop forever
      diverges   ->  events keep returning (if independent)

把兩個引理看成單一的二分法：機率級數收斂與否，決定了事件會停止還是會一再回來。

第二引理：當罕見事件拒絕停止

第一引理只能得出「機率為零」的結論。要得出相反的結論——也就是事件「確實」會永遠一再回來——你需要一個逆命題，而這裡必須付出代價。第二 Borel-Cantelli 引理說：若這些機率加起來是無限大，sum P(A_n) = 無限大，「並且」事件 A_n 是獨立的，那麼以機率 1 它們之中有無限多個會發生。發散的總和此刻逼使事件永遠重現，而不是停止。

獨立性這個前提不是繁文縟節——它是真正不可或缺的，拿掉它就會讓結論變成假的。這裡有一個一行的反例，讓你保持誠實。設 A 是一個機率 P(A) = 1/2 的單一事件，並對每個 n 定義 A_n = A（同一個事件，重複出現，完全相關而非獨立）。那麼 sum P(A_n) = 1/2 + 1/2 + ... = 無限大，所以發散條件成立。但「A_n 無窮多次發生」恰好就在 A 發生時發生，其機率是 1/2，而不是 1。發散的總和並沒有逼出重現，因為這些事件不是獨立的。獨立性正是那個阻止機率質量堆疊到同一批結果上的東西。

兩個引理合在一起，為獨立事件構成一條優美的「全有或全無」定律：發生次數要嘛「必定有限」（總和收斂），要嘛「必定無限」（總和發散）——絕不會有中間地帶，絕不會出現像「60% 的機率重現」這種東西。那個斬釘截鐵的「零或一」判決並非偶然；它是 Kolmogorov 零一律的一個特例，該定律說：獨立變數的任何「尾事件」（其真假不取決於任何有限個試驗）的機率，必定恰好是 0 或 1。「A_n 無窮多次發生」正是這樣一個尾事件——更改前一百萬次試驗，無法影響某事是否會無窮多次發生。

讓它上場：收斂、猴子，與大數法則

第一引理是證明某事「幾乎必然」發生的標準路徑。一列 X_n 以機率 1 收斂到 X，恰恰發生在：對每一個微小的容許誤差 epsilon，壞事件 A_n =「|X_n - X| > epsilon」只發生有限多次的時候。所以配方是：為每個 n 給 P(|X_n - X| > epsilon) 設界（馬可夫、柴比雪夫，以及 Chernoff 或 Hoeffding 界都是這裡的供應商），檢查這些界加起來是有限的，於是第一 Borel-Cantelli 引理就免費把幾乎必然收斂交給你。這就是從整個這個階段的尾巴界，通往下一階段最強收斂模式的橋樑。

第二引理則提供了關於「持續性」的著名安心保證。永遠地擲一枚公正硬幣：「第 n 次擲出正面」這個事件在各 n 之間獨立、每個機率都是 1/2，所以 sum P = 無限大，由第二引理你會以機率 1 得到「正面無窮多次出現」——反面也一樣，任何固定的有限樣式（如連續十個正面）也一樣（每一段有固定的正機率，沿著一個子序列取的各段彼此獨立，總和發散）。這就是「無限猴子」想法的嚴謹版本：任何固定的有限文本，都會在一條無窮無盡的隨機字母流中無窮多次出現。關鍵在於這「並非」賭徒謬誤——硬幣沒有記憶，也不會「該」輪到什麼。它純粹是因為：在無限多次、各自具有相同正機率的獨立機會之下，發散的總和保證了無止盡的重現。

最後，這套機器是通往強大數法則最乾淨的路徑之一——該法則斷言：獨立同分配變數的滾動平均，以機率 1（而不只是依機率）收斂到真正的平均。不過要小心這個承諾到底是什麼。強大數法則講的是「平均」安定下來趨向 mu；它並沒有說「和」、或「正面減反面」的原始計數，會「拉平」或回到零。事實上，由這同樣的引理可知，正面與反面之間的差距會無界地增長、並且無窮多次地變大——會縮小的是那個差距「除以 n」。平均收斂；而落差並不消失。能同時握住這兩個事實，正是真正讀懂這個階段的標誌。