共變異數與相關係數

它們會一起變動嗎？定義共變異數

在上一篇指南裡，你學會了檢驗兩個隨機變數是否獨立——也就是知道其中一個是否對另一個一無所知。但獨立是全有或全無的，而現實中多數的配對都落在兩者之間。身高與體重並不獨立，卻也不是一個就完全決定另一個；它們只是朝同一方向*傾斜*。我們想要一個能量度這種傾斜的數字：當 X 恰好在自己的平均數之上時，Y 是否也傾向在自己的平均數之上，還是之下？共變異數正是這個數字。

用 mu_X = E[X] 與 mu_Y = E[Y] 表示兩個平均數。對一次抽取，看兩個對平均數的偏差 (X - mu_X) 與 (Y - mu_Y)，再把它們相乘。若兩者都為正（都在各自平均數之上）或都為負（都在之下），乘積為正。若一個向上而另一個向下，乘積為負。共變異數就是這個乘積在聯合分配上的平均值：Cov(X, Y) = E[(X - mu_X)(Y - mu_Y)]。共變異數為正，表示兩者通常朝同一方向漂移；為負，表示通常朝相反方向漂移；接近零，則表示沒有一致的線性拉力偏向任一邊。

有一個友善許多的計算公式，而且它和你已經在用的變異數公式如出一轍。把乘積展開並運用期望值的線性，一切都收攏成 Cov(X, Y) = E[XY] - E[X] E[Y]。所以你只需要乘積 XY 的期望值，以及兩個各自的平均數。請注意它與 Var(X) = E[X^2] - (E[X])^2 的家族相似：共變異數之於一*對*變數，正如變異數之於*單一*變數。事實上，Cov(X, X) = E[X^2] - (E[X])^2 = Var(X)——一個變數與自己的共變異數，就是它自身的變異數。

Cov(X, Y) = E[(X - mu_X)(Y - mu_Y)]     (definition)
          = E[XY] - E[X] E[Y]           (computational form)

  Cov(X, X) = E[X^2] - (E[X])^2 = Var(X)

  X, Y independent  =>  E[XY] = E[X] E[Y]  =>  Cov(X, Y) = 0

共變異數的兩個等價公式、它與變異數的連結，以及獨立所強制的結果。

共變異數的麻煩：它沒有固定的尺度

共變異數乾淨俐落地回答了「哪個方向？」，但它對「有多強？」卻束手無策。問題出在單位。共變異數帶有 X 的單位乘以 Y 的單位，所以若 X 是以公尺計的身高、Y 是以公斤計的體重，Cov(X, Y) 的單位便是公尺-公斤——一個沒有直覺大小的量。更糟的是，只要你重新縮放它就會改變。把同一個身高改用公分而非公尺來量，每個 X 都乘上 100，於是共變異數也乘上 100，儘管底層的關係其實一點都沒變。

這種重新縮放的行為本身就是個有用的事實，它來自一個更深的性質，叫做雙線性。共變異數對每個位置各自都是線性的：Cov(aX + b, cY + d) = ac Cov(X, Y)。加法的平移 b 與 d 完全消失——把一個變數整體上移或下移，並不改變它與另一個變數如何共變——而尺度因子 a 與 c 則直接被提到前面。這正是為何把公尺換成公分會使共變異數乘上 100。雙線性是你日後幾乎每一次共變異數操作背後的引擎，值得牢牢記住。

相關係數：剝去單位後的共變異數

解法是把共變異數除以恰當分量的「大小」，讓單位互相抵消。每個變數自身尺度的自然量度，就是它的標準差 sigma_X 與 sigma_Y。除以它們的乘積，就得到相關係數，記作 rho（希臘字母 rho）：rho = Cov(X, Y) / (sigma_X sigma_Y)。由於分子上的公尺-公斤被分母上的公尺乘公斤抵消，rho 是一個純粹、無量綱的數字。把 X 從公尺改成公分，如今分子分母都同樣乘上 100，所以 rho 紋風不動——這正是我們想要的穩定性。

重新縮放也把 rho 釘在一個固定範圍內。柯西-施瓦茲不等式保證 |Cov(X, Y)| 絕不會超過 sigma_X sigma_Y，這就逼出 -1 <= rho <= 1。邊界帶有真實的意義：rho = +1 恰好發生在 Y 是 X 的遞增直線函數時（Y = aX + b 且 a > 0），而 rho = -1 則發生在遞減直線函數時。介於兩者之間的值，量度的是那團點雲多麼緊貼一條直線。所以 rho 接近 0.9 是強烈的向上線性趨勢，rho 接近 -0.2 是微弱的向下趨勢，而 rho 接近 0 則完全沒有線性趨勢。

為何共變異數重要：和的變異數

共變異數不只是個描述性的分數；它是機率中最常用公式之一裡缺失的那塊拼圖。你已經知道 E[X + Y] = E[X] + E[Y] 恆成立，毫無條件。變異數可沒這麼大方。一般法則是 Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)。多出來的那一項是共變異數的兩倍，它恰恰就是兩個變數一起變動所付出的代價。若它們傾向同步漲跌（共變異數為正），它們的和會比各部分所暗示的擺盪得更猛烈；若它們傾向互相抵消（共變異數為負），這個和就更平靜。

此刻獨立的回報就變得生動起來。當 X 與 Y 獨立時，E[XY] = E[X] E[Y]，所以 Cov(X, Y) = 0，交叉項便消失：Var(X + Y) = Var(X) + Var(Y)。變異數就這麼直接相加。這是無數結果背後的引擎——n 次獨立抽取的變異數是單一變異數的 n 倍、標準誤以 1/sqrt(n) 的速度縮小，乃至最終的中央極限定理。整套「平均能降低雜訊」的機制，全都建立在共變異數為零之上。

做個小小的計算。擲一顆公正的骰子；令 X 為點數、Y = 7 - X（對面那一面的值）。那麼 E[X] = 3.5，且 Var(X) = Var(Y) = 35/12。
用雙線性算 Cov(X, Y)：Cov(X, 7 - X) = Cov(X, 7) - Cov(X, X) = 0 - Var(X) = -35/12。它們完全反向變動。
相關係數：rho = Cov(X, Y) / (sigma_X sigma_Y) = (-35/12) / (35/12) = -1，正是完美負向直線的極端——並不意外，因為 Y 恰好是 -X 加上一個常數。
和的變異數：X + Y = 7 是常數，所以 Var(X + Y) = 0。驗證一下：Var(X) + Var(Y) + 2 Cov(X, Y) = 35/12 + 35/12 - 2(35/12) = 0。負的共變異數恰好把散布抵消殆盡。

兩則誠實的提醒

第一則提醒正是這個梯級所環繞的核心，也是相關係數最常見的單一錯誤。零相關並不代表獨立。獨立會逼使共變異數為零，但這個箭頭並不能反過來。由於 rho 只量度一段關係中*線性*的部分，一段完全確定卻彎曲的關係，仍可呈現 rho = 0。經典例子：令 X 對零對稱，設 Y = X^2。那麼 Y 完全由 X 決定——相依到不能再相依——然而 Cov(X, Y) = E[X^3] - E[X] E[X^2] = 0，因為對稱性讓兩項都歸零。我們會在下一篇指南細究這道確切的鴻溝，因為太多錯誤的推理都藏在裡頭。

第二則提醒關乎意義，而非數學：相關不等於因果。兩個變數之間有很大的 rho，只告訴你它們一起變動，卻對*為什麼*隻字不提。冰淇淋銷量與溺水死亡人數高度相關，但兩者誰也不導致誰——是炎熱的天氣同時驅動了兩者。一個隱藏的共同原因、反向因果，或純屬巧合，都能各自製造出高相關。相關是個真實而有用的訊號，表示有某種東西把這些變數連在一起；至於*是什麼*把它們連起來、方向又如何，則是另一個單憑資料很少能定案的問題。

有一個重要的族群，使不相關與獨立之間的鴻溝確實閉合。對於二元常態分配——而且純粹是因為它特殊的結構——零相關確實蘊含獨立。這是個真正的例外，而非一般法則，這也正是常態情形如此受人喜愛、如此容易推理的原因。一旦離開那個舒適的世界，請把這兩則提醒牢記在心：rho = 0 仍可能藏著深刻的相依，而 rho 遠離 0 也仍對因果一語不發。