隨機變數的獨立性

從獨立事件走到獨立變數

兩個階段以前你認識了獨立事件：當 P(A and B) = P(A) * P(B) 時，A 與 B 是獨立的，這不過是用俐落的方式說：得知 B 發生了，並不會動到 A 的機率。本篇要把同一個概念，從單一事件提升到整個隨機變數。上一篇展示了聯合分布如何把兩個變數 X 與 Y 包在一起，以及如何把其中一個加總或積分掉，來還原出每一個的邊際分布。隨機變數的獨立性問的，就是那個自然的後續問題：什麼時候，這一對變數除了各自那兩塊之外，不再攜帶任何額外的資訊？

乾淨的定義是這樣說的：如果對每一對值（或範圍）x 與 y，聯合機率都能拆成兩個邊際的乘積，那麼 X 與 Y 就是獨立的：在離散情形中，P(X = x and Y = y) = P(X = x) * P(Y = y)。想像擲一顆紅骰子和一顆藍骰子。紅骰子顯示 3「且」藍骰子顯示 5 的機會，就只是 (1/6) * (1/6) = 1/36，因為藍骰子根本沒聽說過紅骰子。這個拆解——同時對每一個格子都成立——就是獨立性的全部內容。

因式分解判準：把聯合拆成乘積

最好用的實作檢驗，是因式分解判準：X 與 Y 為獨立，恰恰當它們的聯合機率質量函數或密度函數能在整個平面上，分解成一個僅含 x 的函數乘上一個僅含 y 的函數時。對聯合機率質量函數，p(x, y) = p_X(x) * p_Y(y) 對所有 x、y 成立；對聯合密度，f(x, y) = f_X(x) * f_Y(y) 對所有 x、y 成立。重點在於：聯合的描述裡沒有任何東西把兩個變數綁在一起——X 的公式從不提及 Y，反之亦然。

有兩個誠實的提醒，能讓這項檢驗值得信賴。第一，「對所有 x 與 y」是不容打折的：乘積規則必須在每一個格子都成立，而不是平均成立、或對某一對方便的值成立。只要有一個格子破了，這兩個變數就是相依的。第二，要盯住支撐集——也就是聯合為正的那組 (x, y)。如果那塊區域不是一個矩形（比方說，只有在 X <= Y 時變數才被允許），那麼知道 X 就已經對 Y 設下了限制，於是無論公式在別處看起來多漂亮，獨立都不成立。一個非矩形的支撐集，是相依性立刻露餡的徵兆。

Joint pmf p(x, y) for X = red die hi/lo, Y = blue die parity

            Y = even   Y = odd  |  row sum p_X(x)
  X = low      1/4       1/4    |     1/2
  X = high     1/4       1/4    |     1/2
  ------------------------------+------------------
  col p_Y(y)   1/2       1/2    |      1

  Test factorization in each cell:
    p(low, even)  = 1/4 ?= p_X(low) * p_Y(even) = 1/2 * 1/2 = 1/4   OK
    every other cell checks the same way                            OK
  => X and Y are INDEPENDENT (each cell = row sum * col sum)

  Contrast (dependent):  if p(low, even) were 1/2 and p(high, even) 0,
  then 1/2 != p_X(low)*p_Y(even), so one broken cell => DEPENDENT.

獨立性表現為：每一個內部格子都等於它的列總和乘上行總和；只要有一個格子不服從，就破功了。

把獨立看成條件下的無動於衷

同一個事實還有第二張、更直觀的臉，是用你上一篇遇到的條件分布建起來的。回想條件機率質量函數是 p(y given x) = p(x, y) / p_X(x)——把聯合在固定的 x 處切一片，再重新標準化成加總為 1。如果 X 與 Y 獨立，那麼 p(y given x) = [p_X(x) * p_Y(y)] / p_X(x) = p_Y(y)。換句話說：對 X 取條件什麼都沒改變。聯合的每一片，無論你固定哪一個 x，都擁有完全相同的形狀——就是 Y 那素樸的邊際。

這是感受獨立性最深的方式：它是一種條件下的無動於衷。告訴我 X 是 3、或 X 是 100、或 X 是任何值，我對 Y 之分布的最佳猜測都不為所動。這正是為什麼獨立會讓跨這一對的預測變得毫無意義——沒有著力點，也沒有可借用的資訊。一旦你滑動 x、那些切片開始彼此不同，你就有了相依；而那份差異，恰恰就是一個變數所攜帶的、關於另一個變數的資訊。

為什麼獨立是那匹最常用的主力假設

獨立之所以受珍視，是因為它能讓困難的聯合問題，塌縮成容易的單變數問題。最清楚的回報出現在「和」上：當 X 與 Y 獨立時，它們和的分布可由一個摺積求得——你把一個分布滑過另一個，把重疊的機率加起來。前一階段的那些白努利原子之所以變成二項，正是因為每次試驗都獨立於其餘；你實際上是在把獨立的副本相加。要是沒有獨立，你就得用上整張聯合表，那大得多，而且鮮少為人所知。

獨立對期望值還有一份珍貴的代數禮物。線性，E[aX + bY] = a E[X] + b E[Y]，對「任何」變數都成立，無論相依與否——這一條從不需要獨立。但乘法規則 E[XY] = E[X] * E[Y] 只在 X 與 Y 獨立時成立（或至少在不相關時）。乘積之期望的這一個分解，正是接下來幾篇導讀中共變異數、相關係數、以及和的變異數全都由之生長出來的種子——而一旦變數彼此相依，它便立刻失效。

有一個常見的模式直接點出了這件事：一串獨立且同分布的變數，也就是 i.i.d.——彼此獨立，且全都共享同一個分布。重複拋擲硬幣、固定條件下的重複測量、一份乾淨的隨機樣本：這些都是大數法則與中央極限定理（將在稍後的階段登場）賴以建立的 i.i.d. 場景。獨立的那一半，是讓平均沉澱下來的原因；同分布的那一半，則給了它一個唯一的目標去靠攏。

陷阱、界限與誠實的細則

第一個陷阱，也是最有名的：獨立試驗沒有記憶。賭徒謬誤就是那種「輪盤連開五次紅之後，黑該出現了」的信念。並沒有。如果每一轉都獨立，輪盤無法記得過去，所以下一轉開紅的可能性，跟以往一模一樣。獨立性禁止下一次試驗出現任何朝平衡的拉力。長期的頻率確實會穩定下來，但不是因為個別結果在互相補償——它們會穩定，是因為新的獨立試驗把早期的失衡稀釋掉，而非抹去。

第二個陷阱，一個預先的警告：獨立嚴格強於不相關。獨立的變數一定不相關，但反過來卻可能失敗——存在著不相關卻仍相依的變數，因為相關只看得見直線式的關聯，而相依卻能藏身於曲線之中。這道零相關與獨立之間的鴻溝重要到足以在本階段稍後獲得自己專屬的一篇導讀；目前只要記住這支單向箭頭：獨立蘊含不相關，但一般而言絕不能反過來。

最後一段誠實的細則，一旦你處理三個或更多變數就很重要：兩兩獨立弱於相互獨立。三個變數可以每一對都獨立，卻仍在整體上受到約束——知道其中兩個，就能釘住第三個，即使沒有任何單獨一對顯示出任何關聯。完整的（相互）獨立要求「全部」變數的聯合分布同時分解，而不只是一次兩個地分解。所以當一道題目說「獨立」時，要查清它指的是每一對、還是整個集合；這個差別會悄悄地起作用。