不相關不等於獨立

兩個看起來像同一回事的說法

上一篇你建立了共變異數與相關係數，也看到獨立的變數恆有 Cov(X, Y) = 0。我們很容易把這句話倒著讀，下結論說共變異數為零就代表獨立。並非如此。正向的主張與它的逆命題是兩個不同的陳述，而只有正向那個為真：獨立蘊含不相關，但不相關並不蘊含獨立。本篇講的就是這條單行道，以及它為什麼重要。

記住每個詞究竟要求什麼，會有幫助。獨立是關於整個聯合分布的陳述：它要求對「每一對」事件，P(X 屬於 A 且 Y 屬於 B) 都能拆成 P(X 屬於 A) 乘 P(Y 屬於 B)——知道 Y 永遠對 X 一無所告。不相關則是一個單一數字的條件，Cov(X, Y) = 0，等同於 E[XY] = E[X]E[Y]。獨立是一份無窮長的條件清單；不相關只是其中一條。一個數字根本不可能捕捉整個聯合行為，所以通過共變異數測試，遠比通過全部測試來得弱。

U 形的要點：一個小小的反例

感受這個落差最乾淨的方式，是一個小到你能用手驗算的反例。設 X 取值 -1、0、+1，各以機率 1/3 出現，並令 Y = X^2 一字不差。所以 Y 是 X 的確定性函數：X = -1 時 Y = 1；X = 0 時 Y = 0；X = +1 時 Y = 1。這兩個變數可說是再相依不過了——固定 X，Y 就被完全釘死。然而，正如我們將算出的，它們完全不相關。

求 E[X]。由 -1、0、+1 各 1/3 的對稱性，E[X] = (-1 + 0 + 1)/3 = 0。
求 E[XY] = E[X 乘 X^2] = E[X^3]。因為 X^3 是 -1、0、+1 等權重，E[X^3] = (-1 + 0 + 1)/3 = 0。
組成共變異數：Cov(X, Y) = E[XY] - E[X]E[Y] = 0 - 0 乘 E[Y] = 0。所以 X 與 Y 不相關。
現在測試獨立性，看著它失敗：P(X = 1 且 Y = 0) = 0（X = 1 逼得 Y = 1），但 P(X = 1) 乘 P(Y = 0) = (1/3)(1/3) = 1/9，並不等於 0。可拆性破裂，所以 X 與 Y「不」獨立。

為什麼這個把戲屢試不爽

那不是運氣，是對稱。共變異數透過你上一篇認識的雙線性，只衡量「Y 隨 X 上升」這種帶正負號的直線趨勢。我們的關係 Y = X^2 是一個 U：X 從 -1 走到 0 時 Y 下降；X 從 0 走到 +1 時 Y 上升。左邊的下坡與右邊的上坡是鏡像，所以共變異數的正貢獻與負貢獻恰好抵消。共變異數看的是那團散點的淨傾斜，而一個對稱的 U 根本沒有淨傾斜。

這揭示了真正的教訓。相關係數 rho 只是「線性」關聯的度量，被界在 -1 與 +1 之間，而當 Y 是 X 的完美直線函數時它恰好等於 +1 或 -1。完美的拋物線、完美的圓、完美的正弦波——全都能給出 rho = 0，卻又完全可預測。相關係數為零說的是「沒有直線趨勢」，這確實是有用的資訊，但它對曲線、群聚、以及任何非直線的模式都默不作聲。這正是不相關不等於獨立現象的核心。

唯一一處它們真的重合的地方

有一個著名而重要的例外，精確地知道它能讓你不至於過度套用。如果 (X, Y) 一起服從二元常態分配，那麼相關係數為零「確實」蘊含獨立。對於聯合高斯的變數，那唯一的相關參數掌控了整個相依結構，所以把相關性消滅，就真的切斷了每一條連結。這正是為什麼在鐘形曲線那個舒適的世界裡，人們有時把這兩個概念混為一談——而在那個世界裡這種混淆無傷大雅。

但是換得這份禮物的條件，比聽起來更鋒利。光是 X 是常態、Y 「各自」是常態，並不夠——它們必須是「聯合」常態，這是整個聯合分布的性質。你可以造出兩個各自完美常態、聯合形狀卻不是那座平滑高斯小丘的變數，而這樣的一對可以不相關卻不獨立。所以安全的陳述很窄：在真正的聯合常態之下，不相關與獨立重合；一般情形則否。把高斯這個情形當作一種特殊的特權，而不是預設。

該怎麼做，以及這通往何處

那麼你究竟要如何檢驗獨立，而非僅僅是不相關？回到定義與可拆性判準：X 與 Y 獨立，恰好當聯合的 pmf 或 pdf 對所有 x 與 y 都能拆成兩個邊際的乘積，f(x, y) = f_X(x) 乘 f_Y(y)。如果你無法拆解它——如果聯合上哪怕只有一個角落的乘積失敗，就像上面的 P(X = 1, Y = 0)——它們就不獨立，無論共變異數算出來如何。可拆性才是真正的測試；相關係數為零只是一個必要的徵狀，從不是診斷本身。

如果你想要一個單一數字，且與相關係數不同、唯有在真正獨立時才消失，確實有一個：互資訊。它衡量知道一個變數能把另一個的不確定性減少多少，並且當且僅當 X 與 Y 獨立時等於零——它能逮住相關係數視而不見的彎曲與糾纏的相依。它是比較重的機器，更多屬於資訊理論而非入門課，但它才是「到底有沒有任何關係？」這個問題的誠實答案，而相關係數只回答「有沒有直線式的關係？」

從本篇帶走一個實用的習慣。當變異數必須乾淨地相加時——那是下一篇的主題——你真正需要的是零共變異數，而非完整的獨立；在那裡，不相關正是恰當而較弱的條件。但每當你需要拆解一個聯合機率、模擬一個系統、或宣稱一個變數對另一個毫無資訊時，唯有真正的獨立才行，而一個通過的相關測試會悄悄背叛你。讓假設與任務相稱：絕不要在只掙得「不相關」時，花用「獨立」。