為什麼單一變數很少是故事的全部
在你身後的那幾個階段裡,單一的隨機變數 X 各自帶著它完整的描述——若是離散型就是機率質量函數,若是連續型就是密度,而無論哪一種都有 cdf。但世界上有趣的問題,幾乎總是牽涉到從*同一個*實驗讀出的兩個或更多數字。同一個人的身高與體重。同一天的最高溫與最低溫。走進店裡的顧客數與真正購買的顧客數。當兩個量出自同一個實驗時,只問它們各自一個,等於丟掉了最有用的東西:它們如何一起變動。
把那份資訊一點不漏保存下來的物件,就是數對 (X, Y) 的聯合分布。把它想成一個一次產生*兩個*數字的實驗,而聯合分布就是這對數字的完整規則書。本篇指南是整個階段的地基:獨立性、共變異數、相關係數,以及和的變異數,全都只是你*對*聯合分布提出的問題。把這幅圖弄乾淨,這個階段其餘的內容就會變成「從不同角度讀同一個物件」而已。
聯合 pmf:一張表,而不是一條清單
從離散型開始,因為那裡你能把一切看得清清楚楚。對一對離散變數 (X, Y),聯合 pmf 是函數 p(x, y) = P(X = x and Y = y)——也就是 X 落在 x*且* Y 同時落在 y 的機率。單一變數的 pmf 是一條單列的逐點質量清單,而聯合 pmf 是一張二維的表:列對應 X 的取值,行對應 Y 的取值,每一格裡坐著一個機率。和任何機率指派一樣,每一項都非負,而且整張表加起來必須等於 1。
來看一個小小的具體例子。擲一枚公正硬幣兩次;令 X 是第一次拋擲的正面數(0 或 1),Y 是兩次合計的正面數(0、1 或 2)。四個結果 HH、HT、TH、TT 各有機率 1/4,我們只要把它們分進正確的格子。下面這張表顯示每個四分之一落在哪裡。注意 p(0, 2) = 0:如果第一次是反面,你就不可能得到合計兩個正面——聯合分布把這個不可能性誠實地以格子裡的零記錄下來。
p(x,y) Y=0 Y=1 Y=2 | row sum P(X=x) ----------- ----- ----- ----- | ----------------- X=0 (tail) 1/4 1/4 0 | 1/2 X=1 (head) 0 1/4 1/4 | 1/2 ----------- ----- ----- ----- | col sum: 1/4 1/2 1/4 | 1 (grand total) P(Y=y)
邊際分布:把表壓扁
假設你只在乎 X,想把 Y 完全忘掉。X 自己一個的分布,稱為它的邊際分布,而這個名字妙就妙在它非常字面:它來自把每一列的和寫在表的*邊緣*。要得到 P(X = x),你把那個 x 的整列加起來——你對 Y 的每一個可能值求和,因為「X = x」可以伴隨著 Y 取任何值一起發生。在我們的表裡,P(X = 0) = 1/4 + 1/4 + 0 = 1/2,而 P(X = 1) = 0 + 1/4 + 1/4 = 1/2。各行的和則以同樣方式給出 Y 的邊際:P(Y = 0) = 1/4、P(Y = 1) = 1/2、P(Y = 2) = 1/4。
「把你不要的那個變數加總掉」這條規則,就是邊際分布的全部精神,而它是積分的離散表親。對於擁有聯合密度 f(x, y) 的連續變數,你藉由把 Y 積分掉來得到 X 的邊際密度:f_X(x) = f(x, y) 對所有 y 的積分。有時這被稱為把 Y *邊際化掉*。無論哪一種,幾何上都是同一幅圖——你把一片二維的機率地景,塌縮到一條軸上,任由另一條軸上的部分在它落腳之處堆積起來。
條件分布:用切片取代壓扁
邊際分布把整張表壓扁。條件分布做的恰恰相反:它挑出一個切片,然後放大。「已知 Y = 1,X 如何分布?」這個問題的意思是:只看 Y = 1 那一行,然後把那一行重新縮放,讓它的各項再次加起來等於 1。這正是你已經熟悉的條件機率,逐值套用:P(X = x given Y = y) = P(X = x and Y = y) / P(Y = y),用表的語言來說,就只是「格子除以它那一行的和」。
- 固定條件:題目告訴我們 Y = 1,所以只看 Y = 1 那一行。它的格子是 p(0,1) = 1/4 與 p(1,1) = 1/4。
- 找出該行的總和,也就是邊際 P(Y = 1) = 1/4 + 1/4 = 1/2。這就是我們現在所住的新「整個世界」。
- 用那個總和把每一格重新縮放:P(X = 0 given Y = 1) = (1/4)/(1/2) = 1/2,而 P(X = 1 given Y = 1) = (1/4)/(1/2) = 1/2。
- 檢查它是不是一個合法的分布:重新縮放後那一行加起來是 1/2 + 1/2 = 1。在合計一個正面的條件下,第一次拋擲是正面或反面的可能性相等。
同樣的配方對連續變數也行得通,給出條件密度 f(x given y) = f(x, y) / f_Y(y)——切片 y 上的聯合密度,除以那個 y 處的邊際值,好讓這個切片積分起來等於 1。條件化是預測的引擎:知道了 Y,會重新塑造你對 X 的預期,而那個被重塑後的分布的平均,就是條件期望值 E[X given Y]——當這個階段走到全期望定律與和的變異數時,你會大量倚賴這項工具。
三種視角如何彼此契合
把聯合、邊際與條件看成同一個物件的三種視角,而不是三個分開的想法,是很值得的。聯合 p(x, y) 是那張母表。邊際把它*壓平*(把一個變數加總掉)。條件把它*切片*(固定一個變數,再重新縮放)。而它們被一條關係綁在一起:聯合 = 條件 × 邊際,也就是 p(x, y) = P(X = x given Y = y) · P(Y = y)。這條單一的恆等式,只是機率乘法規則換了一身新衣裳,它讓你能用「Y 的分布,再加上給定 Y 之下 X 的分布」來搭出一個聯合分布——這正是建立一條因果鏈最自然的方式。
這也預告了下一篇指南的標題。有時候知道 Y 對 X 來說毫無新意——表的每一個切片都跟邊際有相同的*形狀*。在這個特殊情形裡,條件等於邊際,P(X = x given Y = y) = P(X = x),而聯合乾淨地分解為 p(x, y) = P(X = x) · P(Y = y)。這正是隨機變數的獨立性,也就是第 2 篇指南的主題。我們的硬幣例子*並非*獨立:已知 Y = 0,X 就必定是 0,所以知道 Y 確實改變了我們對 X 的認識。獨立性是那個罕見又乾淨的情形——切片的形狀從不改變。
誠實的細則與前方的路
有兩點告誡值得帶著繼續前進。第一,上一個階段那句連續型的警語在這裡仍然咬人,而且加倍:聯合密度 f(x, y) 不是機率,而且可以大於 1;機率是某個區域上「曲面下方的*體積*」,不是某一點的高度,而任何單一一個精確的點 (x, y) 機率都是零。第二,當 Y 是連續型時,對 Y = y 做條件化是很微妙的,因為 P(Y = y) = 0,你沒辦法字面上去除以它——條件密度是修補這件事的那個良好定義的極限,但這是一個真正的精細之處,不是顯而易見的一步。這兩點都是同一條老教訓:在連續的世界裡,機率住在面積與體積之中,從不住在點上。
把聯合、邊際與條件穩穩握在手裡之後,這個階段其餘的部分,就變成一趟「向同一張母表提問」的巡禮。第 2 篇問這張表何時會*分解*——也就是獨立性。第 3、4 篇問如何用一個數字來*度量*相依性,透過共變異數與相關係數,並警告說那裡的零並不能證明獨立。第 5 篇用條件化來計算和的變異數,並陳述全期望定律與全變異數定律。它們每一個,都住在你剛剛搭好的這幅圖裡:聯合分布——用壓扁或用切片來讀。