JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

共變異數與相關係數

一旦兩個隨機變數共享一個分配,自然的下一個問題就是:它們會不會一起變動?共變異數用一個數字捕捉這種共同傾向,而相關係數則把它重新縮放成一個乾淨、無單位、落在 -1 與 1 之間的分數。

它們會一起變動嗎?定義共變異數

在上一篇指南裡,你學會了檢驗兩個隨機變數是否獨立——也就是知道其中一個是否對另一個一無所知。但獨立是全有或全無的,而現實中多數的配對都落在兩者之間。身高與體重並不獨立,卻也不是一個就完全決定另一個;它們只是朝同一方向*傾斜*。我們想要一個能量度這種傾斜的數字:當 X 恰好在自己的平均數之上時,Y 是否也傾向在自己的平均數之上,還是之下?共變異數正是這個數字。

用 mu_X = E[X] 與 mu_Y = E[Y] 表示兩個平均數。對一次抽取,看兩個對平均數的偏差 (X - mu_X) 與 (Y - mu_Y),再把它們相乘。若兩者都為正(都在各自平均數之上)或都為負(都在之下),乘積為正。若一個向上而另一個向下,乘積為負。共變異數就是這個乘積在聯合分配上的平均值:Cov(X, Y) = E[(X - mu_X)(Y - mu_Y)]。共變異數為正,表示兩者通常朝同一方向漂移;為負,表示通常朝相反方向漂移;接近零,則表示沒有一致的線性拉力偏向任一邊。

有一個友善許多的計算公式,而且它和你已經在用的變異數公式如出一轍。把乘積展開並運用期望值的線性,一切都收攏成 Cov(X, Y) = E[XY] - E[X] E[Y]。所以你只需要乘積 XY 的期望值,以及兩個各自的平均數。請注意它與 Var(X) = E[X^2] - (E[X])^2 的家族相似:共變異數之於一*對*變數,正如變異數之於*單一*變數。事實上,Cov(X, X) = E[X^2] - (E[X])^2 = Var(X)——一個變數與自己的共變異數,就是它自身的變異數。

Cov(X, Y) = E[(X - mu_X)(Y - mu_Y)]     (definition)
          = E[XY] - E[X] E[Y]           (computational form)

  Cov(X, X) = E[X^2] - (E[X])^2 = Var(X)

  X, Y independent  =>  E[XY] = E[X] E[Y]  =>  Cov(X, Y) = 0
共變異數的兩個等價公式、它與變異數的連結,以及獨立所強制的結果。

共變異數的麻煩:它沒有固定的尺度

共變異數乾淨俐落地回答了「哪個方向?」,但它對「有多強?」卻束手無策。問題出在單位。共變異數帶有 X 的單位乘以 Y 的單位,所以若 X 是以公尺計的身高、Y 是以公斤計的體重,Cov(X, Y) 的單位便是公尺-公斤——一個沒有直覺大小的量。更糟的是,只要你重新縮放它就會改變。把同一個身高改用公分而非公尺來量,每個 X 都乘上 100,於是共變異數也乘上 100,儘管底層的關係其實一點都沒變。

這種重新縮放的行為本身就是個有用的事實,它來自一個更深的性質,叫做雙線性。共變異數對每個位置各自都是線性的:Cov(aX + b, cY + d) = ac Cov(X, Y)。加法的平移 b 與 d 完全消失——把一個變數整體上移或下移,並不改變它與另一個變數如何共變——而尺度因子 a 與 c 則直接被提到前面。這正是為何把公尺換成公分會使共變異數乘上 100。雙線性是你日後幾乎每一次共變異數操作背後的引擎,值得牢牢記住。

相關係數:剝去單位後的共變異數

解法是把共變異數除以恰當分量的「大小」,讓單位互相抵消。每個變數自身尺度的自然量度,就是它的標準差 sigma_X 與 sigma_Y。除以它們的乘積,就得到相關係數,記作 rho(希臘字母 rho):rho = Cov(X, Y) / (sigma_X sigma_Y)。由於分子上的公尺-公斤被分母上的公尺乘公斤抵消,rho 是一個純粹、無量綱的數字。把 X 從公尺改成公分,如今分子分母都同樣乘上 100,所以 rho 紋風不動——這正是我們想要的穩定性。

重新縮放也把 rho 釘在一個固定範圍內。柯西-施瓦茲不等式保證 |Cov(X, Y)| 絕不會超過 sigma_X sigma_Y,這就逼出 -1 <= rho <= 1。邊界帶有真實的意義:rho = +1 恰好發生在 Y 是 X 的遞增直線函數時(Y = aX + b 且 a > 0),而 rho = -1 則發生在遞減直線函數時。介於兩者之間的值,量度的是那團點雲多麼緊貼一條直線。所以 rho 接近 0.9 是強烈的向上線性趨勢,rho 接近 -0.2 是微弱的向下趨勢,而 rho 接近 0 則完全沒有線性趨勢。

為何共變異數重要:和的變異數

共變異數不只是個描述性的分數;它是機率中最常用公式之一裡缺失的那塊拼圖。你已經知道 E[X + Y] = E[X] + E[Y] 恆成立,毫無條件。變異數可沒這麼大方。一般法則是 Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)。多出來的那一項是共變異數的兩倍,它恰恰就是兩個變數一起變動所付出的代價。若它們傾向同步漲跌(共變異數為正),它們的和會比各部分所暗示的擺盪得更猛烈;若它們傾向互相抵消(共變異數為負),這個和就更平靜。

此刻獨立的回報就變得生動起來。當 X 與 Y 獨立時,E[XY] = E[X] E[Y],所以 Cov(X, Y) = 0,交叉項便消失:Var(X + Y) = Var(X) + Var(Y)。變異數就這麼直接相加。這是無數結果背後的引擎——n 次獨立抽取的變異數是單一變異數的 n 倍、標準誤以 1/sqrt(n) 的速度縮小,乃至最終的中央極限定理。整套「平均能降低雜訊」的機制,全都建立在共變異數為零之上。

  1. 做個小小的計算。擲一顆公正的骰子;令 X 為點數、Y = 7 - X(對面那一面的值)。那麼 E[X] = 3.5,且 Var(X) = Var(Y) = 35/12。
  2. 用雙線性算 Cov(X, Y):Cov(X, 7 - X) = Cov(X, 7) - Cov(X, X) = 0 - Var(X) = -35/12。它們完全反向變動。
  3. 相關係數:rho = Cov(X, Y) / (sigma_X sigma_Y) = (-35/12) / (35/12) = -1,正是完美負向直線的極端——並不意外,因為 Y 恰好是 -X 加上一個常數。
  4. 和的變異數:X + Y = 7 是常數,所以 Var(X + Y) = 0。驗證一下:Var(X) + Var(Y) + 2 Cov(X, Y) = 35/12 + 35/12 - 2(35/12) = 0。負的共變異數恰好把散布抵消殆盡。

兩則誠實的提醒

第一則提醒正是這個梯級所環繞的核心,也是相關係數最常見的單一錯誤。零相關並不代表獨立。獨立會逼使共變異數為零,但這個箭頭並不能反過來。由於 rho 只量度一段關係中*線性*的部分,一段完全確定卻彎曲的關係,仍可呈現 rho = 0。經典例子:令 X 對零對稱,設 Y = X^2。那麼 Y 完全由 X 決定——相依到不能再相依——然而 Cov(X, Y) = E[X^3] - E[X] E[X^2] = 0,因為對稱性讓兩項都歸零。我們會在下一篇指南細究這道確切的鴻溝,因為太多錯誤的推理都藏在裡頭。

第二則提醒關乎意義,而非數學:相關不等於因果。兩個變數之間有很大的 rho,只告訴你它們一起變動,卻對*為什麼*隻字不提。冰淇淋銷量與溺水死亡人數高度相關,但兩者誰也不導致誰——是炎熱的天氣同時驅動了兩者。一個隱藏的共同原因、反向因果,或純屬巧合,都能各自製造出高相關。相關是個真實而有用的訊號,表示有某種東西把這些變數連在一起;至於*是什麼*把它們連起來、方向又如何,則是另一個單憑資料很少能定案的問題。

有一個重要的族群,使不相關與獨立之間的鴻溝確實閉合。對於二元常態分配——而且純粹是因為它特殊的結構——零相關確實蘊含獨立。這是個真正的例外,而非一般法則,這也正是常態情形如此受人喜愛、如此容易推理的原因。一旦離開那個舒適的世界,請把這兩則提醒牢記在心:rho = 0 仍可能藏著深刻的相依,而 rho 遠離 0 也仍對因果一語不發。