聯合分布與邊際分布

為什麼單一變數很少是故事的全部

在你身後的那幾個階段裡，單一的隨機變數 X 各自帶著它完整的描述——若是離散型就是機率質量函數，若是連續型就是密度，而無論哪一種都有 cdf。但世界上有趣的問題，幾乎總是牽涉到從*同一個*實驗讀出的兩個或更多數字。同一個人的身高與體重。同一天的最高溫與最低溫。走進店裡的顧客數與真正購買的顧客數。當兩個量出自同一個實驗時，只問它們各自一個，等於丟掉了最有用的東西：它們如何一起變動。

把那份資訊一點不漏保存下來的物件，就是數對 (X, Y) 的聯合分布。把它想成一個一次產生*兩個*數字的實驗，而聯合分布就是這對數字的完整規則書。本篇指南是整個階段的地基：獨立性、共變異數、相關係數，以及和的變異數，全都只是你*對*聯合分布提出的問題。把這幅圖弄乾淨，這個階段其餘的內容就會變成「從不同角度讀同一個物件」而已。

聯合 pmf：一張表，而不是一條清單

從離散型開始，因為那裡你能把一切看得清清楚楚。對一對離散變數 (X, Y)，聯合 pmf 是函數 p(x, y) = P(X = x and Y = y)——也就是 X 落在 x*且* Y 同時落在 y 的機率。單一變數的 pmf 是一條單列的逐點質量清單，而聯合 pmf 是一張二維的表：列對應 X 的取值，行對應 Y 的取值，每一格裡坐著一個機率。和任何機率指派一樣，每一項都非負，而且整張表加起來必須等於 1。

來看一個小小的具體例子。擲一枚公正硬幣兩次；令 X 是第一次拋擲的正面數（0 或 1），Y 是兩次合計的正面數（0、1 或 2）。四個結果 HH、HT、TH、TT 各有機率 1/4，我們只要把它們分進正確的格子。下面這張表顯示每個四分之一落在哪裡。注意 p(0, 2) = 0：如果第一次是反面，你就不可能得到合計兩個正面——聯合分布把這個不可能性誠實地以格子裡的零記錄下來。

p(x,y)        Y=0     Y=1     Y=2   | row sum  P(X=x)
-----------  -----   -----   ----- | -----------------
X=0 (tail)    1/4     1/4      0    |    1/2
X=1 (head)     0      1/4     1/4   |    1/2
-----------  -----   -----   ----- |
col sum:      1/4     1/2     1/4   |    1   (grand total)
P(Y=y)

兩次擲硬幣的 (X, Y) 聯合 pmf。表的內部是聯合分布；而表「邊緣」上的那一排數字，字面上就是 X 與 Y 的邊際分布。

邊際分布：把表壓扁

假設你只在乎 X，想把 Y 完全忘掉。X 自己一個的分布，稱為它的邊際分布，而這個名字妙就妙在它非常字面：它來自把每一列的和寫在表的*邊緣*。要得到 P(X = x)，你把那個 x 的整列加起來——你對 Y 的每一個可能值求和，因為「X = x」可以伴隨著 Y 取任何值一起發生。在我們的表裡，P(X = 0) = 1/4 + 1/4 + 0 = 1/2，而 P(X = 1) = 0 + 1/4 + 1/4 = 1/2。各行的和則以同樣方式給出 Y 的邊際：P(Y = 0) = 1/4、P(Y = 1) = 1/2、P(Y = 2) = 1/4。

「把你不要的那個變數加總掉」這條規則，就是邊際分布的全部精神，而它是積分的離散表親。對於擁有聯合密度 f(x, y) 的連續變數，你藉由把 Y 積分掉來得到 X 的邊際密度：f_X(x) = f(x, y) 對所有 y 的積分。有時這被稱為把 Y *邊際化掉*。無論哪一種，幾何上都是同一幅圖——你把一片二維的機率地景，塌縮到一條軸上，任由另一條軸上的部分在它落腳之處堆積起來。

條件分布：用切片取代壓扁

邊際分布把整張表壓扁。條件分布做的恰恰相反：它挑出一個切片，然後放大。「已知 Y = 1，X 如何分布？」這個問題的意思是：只看 Y = 1 那一行，然後把那一行重新縮放，讓它的各項再次加起來等於 1。這正是你已經熟悉的條件機率，逐值套用：P(X = x given Y = y) = P(X = x and Y = y) / P(Y = y)，用表的語言來說，就只是「格子除以它那一行的和」。

固定條件：題目告訴我們 Y = 1，所以只看 Y = 1 那一行。它的格子是 p(0,1) = 1/4 與 p(1,1) = 1/4。
找出該行的總和，也就是邊際 P(Y = 1) = 1/4 + 1/4 = 1/2。這就是我們現在所住的新「整個世界」。
用那個總和把每一格重新縮放：P(X = 0 given Y = 1) = (1/4)/(1/2) = 1/2，而 P(X = 1 given Y = 1) = (1/4)/(1/2) = 1/2。
檢查它是不是一個合法的分布：重新縮放後那一行加起來是 1/2 + 1/2 = 1。在合計一個正面的條件下，第一次拋擲是正面或反面的可能性相等。

同樣的配方對連續變數也行得通，給出條件密度 f(x given y) = f(x, y) / f_Y(y)——切片 y 上的聯合密度，除以那個 y 處的邊際值，好讓這個切片積分起來等於 1。條件化是預測的引擎：知道了 Y，會重新塑造你對 X 的預期，而那個被重塑後的分布的平均，就是條件期望值 E[X given Y]——當這個階段走到全期望定律與和的變異數時，你會大量倚賴這項工具。

三種視角如何彼此契合

把聯合、邊際與條件看成同一個物件的三種視角，而不是三個分開的想法，是很值得的。聯合 p(x, y) 是那張母表。邊際把它*壓平*（把一個變數加總掉）。條件把它*切片*（固定一個變數，再重新縮放）。而它們被一條關係綁在一起：聯合 = 條件 × 邊際，也就是 p(x, y) = P(X = x given Y = y) · P(Y = y)。這條單一的恆等式，只是機率乘法規則換了一身新衣裳，它讓你能用「Y 的分布，再加上給定 Y 之下 X 的分布」來搭出一個聯合分布——這正是建立一條因果鏈最自然的方式。

這也預告了下一篇指南的標題。有時候知道 Y 對 X 來說毫無新意——表的每一個切片都跟邊際有相同的*形狀*。在這個特殊情形裡，條件等於邊際，P(X = x given Y = y) = P(X = x)，而聯合乾淨地分解為 p(x, y) = P(X = x) · P(Y = y)。這正是隨機變數的獨立性，也就是第 2 篇指南的主題。我們的硬幣例子*並非*獨立：已知 Y = 0，X 就必定是 0，所以知道 Y 確實改變了我們對 X 的認識。獨立性是那個罕見又乾淨的情形——切片的形狀從不改變。

誠實的細則與前方的路

有兩點告誡值得帶著繼續前進。第一，上一個階段那句連續型的警語在這裡仍然咬人，而且加倍：聯合密度 f(x, y) 不是機率，而且可以大於 1；機率是某個區域上「曲面下方的*體積*」，不是某一點的高度，而任何單一一個精確的點 (x, y) 機率都是零。第二，當 Y 是連續型時，對 Y = y 做條件化是很微妙的，因為 P(Y = y) = 0，你沒辦法字面上去除以它——條件密度是修補這件事的那個良好定義的極限，但這是一個真正的精細之處，不是顯而易見的一步。這兩點都是同一條老教訓：在連續的世界裡，機率住在面積與體積之中，從不住在點上。

把聯合、邊際與條件穩穩握在手裡之後，這個階段其餘的部分，就變成一趟「向同一張母表提問」的巡禮。第 2 篇問這張表何時會*分解*——也就是獨立性。第 3、4 篇問如何用一個數字來*度量*相依性，透過共變異數與相關係數，並警告說那裡的零並不能證明獨立。第 5 篇用條件化來計算和的變異數，並陳述全期望定律與全變異數定律。它們每一個，都住在你剛剛搭好的這幅圖裡：聯合分布——用壓扁或用切片來讀。