問題:X + Y 的分配是什麼?
你已經見過兩種把隨機變數推過一個函數的方法:累積分布函數法,也就是寫下 P(g(X) <= z) 再微分;以及帶有 Jacobian 的變數變換公式。兩者處理的都是「單一」變數的函數,或是乾淨的一對一映射。現在我們要攻克整個機率學裡最常見的複合量:一個和,Z = X + Y,由兩塊拼成。兩道門合起來走進多少人?兩個排隊的工作合起來花多久?兩顆骰子、兩個量測誤差、兩天的雨量加總是多少?答案「X + Y」本身是隨機的,而我們想要它「整個」分配,不只是它的平均。
開始前先提醒一句:知道和的平均很容易,知道它「整個」形狀才是難處。期望值的線性「免費」給你 E[X + Y] = E[X] + E[Y],不需要獨立性。而如果 X 與 Y 獨立,和的變異數也會相加,Var(X + Y) = Var(X) + Var(Y)。但平均和變異數只是兩個數字;它們不告訴你這個和是鐘形、偏斜還是尖峰。要得到 Z 的「完整」密度,我們需要一個真正全新的工具——這個工具就是卷積。
離散的圖像:數遍每一種湊出總和的方法
從一個絕對不會誤讀的地方開始:骰子。擲兩顆公平骰子,問總和 Z = X + Y。湊出 2 恰好只有一種方法(一個 1 加一個 1),但湊出 6 有五種(1+5、2+4、3+3、4+2、5+1)。那個小小的計數——把所有滿足 z = x + y 的拆法加總——就是整個想法。因為骰子彼此獨立,每一種拆法(先 x,再 y = z - x)的機率可以分解:P(X = x 且 Y = z - x) = P(X = x) 乘 P(Y = z - x)。正是獨立性讓聯合機率拆成乘積;沒有它,我們就得改用完整的聯合質量函數了。
把每一種能達到 z 的拆法加起來,你就得到了和的質量函數,也就是離散卷積:P(Z = z) = 對 x 求和的 P(X = x) 乘 P(Y = z - x)。把它讀成一句口號:要讓總和落在 z 上,x 可以是任何值,只要搭檔 y 補上差額 z - x。當 x 往上滑,z - x 就同步往下滑,掃過每一組打中目標的配對。對骰子來說,P(Z = 6) = 對 x = 1..5 求和的 P(X = x) P(Y = 6 - x),也就是 5 乘 (1/6)(1/6) = 5/36——正是我們數到的那五種。這就是分配的卷積最樸素的樣子。
連續的圖像:滑動、翻轉、求重疊
對連續變數來說,和變成積分而不是求和,但精神完全一樣。如果 X 與 Y 獨立、密度分別為 f 與 g,那麼 Z = X + Y 的密度就是卷積積分:h(z) = 對所有 x 積分的 f(x) g(z - x) dx。和骰子同一句口號:x 遍歷一切,搭檔吸收 z - x,你把所有達到總和的方法累積起來——只是現在「數」變成了「對密度積分」。你可以直接從累積分布函數法推出它:P(Z <= z) 是平面上 x + y <= z 這塊區域上的機率質量,把那個二重積分對 z 微分,就恰好落到這個單一積分上。
「滑動加翻轉」這個名字在公式裡名副其實。把 g(z - x) 當成 x 的函數來看:那個負號把 g 左右「翻轉」,而那個 z 把翻轉後的副本沿著軸「滑動」。在每一個位置 z,你把兩條曲線逐點相乘,再量重疊的面積——那塊面積就是新密度在 z 處的高度。所以卷積在物理上是用一個形狀去模糊另一個形狀:兩者都堆了很多質量的地方,重疊大、和就常出現;兩者勉強相遇的地方,和就罕見。這正是為什麼相加往往會「平滑」並「攤開」:兩個方方的均勻分配卷在一起變成一個三角形,而三角形比任一個方塊都來得柔和。
discrete: P(Z=z) = sum_x P(X=x) * P(Y = z - x)
continuous: h(z) = integral f(x) * g(z - x) dx
slide ----> by z flip <---- the minus sign
meaning: 'x can be anything; the partner must equal z - x'
works ONLY when X, Y are independent
example (two dice): P(Z=6) = 5 * (1/6)(1/6) = 5/36當家族封閉時:保持形狀的和
卷積通常會改變形狀——但對少數幾個特殊家族來說形狀會被保留,而這些正是機率學的主力。把兩個獨立常態相加,得到的還是常態:獨立常態之和仍是常態,平均與變異數單純相加,X ~ Normal(mu1, sigma1^2) 加 Y ~ Normal(mu2, sigma2^2) 得到 Normal(mu1 + mu2, sigma1^2 + sigma2^2)。把兩個獨立卜瓦松相加,得到一個率為 lambda1 + lambda2 的卜瓦松——兩個來源的總到達數本身也是卜瓦松。這些家族被稱為「對卷積封閉」,而這份封閉性正是為什麼把東西加起來時,它們如此鍥而不捨地出現。
有一個美麗的例子可以直接感受:獨立的指數變數。單一個指數等待在零處有個尖峰,往外衰減。把兩個同率的卷在一起,峰會「離開」零、變成一個隆起——那個隆起就是一個伽瑪分配(厄朗分配)。把 n 個等待時間疊起來得到 n 階伽瑪,這正是為什麼卜瓦松過程中直到第 n 個事件的時間是伽瑪形狀。你可以「看見」卷積在運作:你加的獨立等待越多,那個尖銳的指數轉角就越被磨圓成一個平滑、越來越對稱的小丘。這種「朝對稱靠攏」的磨圓,正是這門學科裡最深刻事實的預告。
捷徑,以及和為何堆出鐘形曲線
卷積積分很快就變得醜陋:加三、四個變數意味著積分套積分,多數學生連做第二次都不願意。有一個著名的逃生口。變換能把卷積變成乘法。獨立變數之和的動差生成函數,就只是各自動差生成函數的「乘積」:M_Z(t) = M_X(t) M_Y(t)。所以與其硬磨一個積分,你只要把兩個函數相乘,再把答案認出來。上面常態和卜瓦松的「封閉」事實,用這辦法一行就掉出來——把動差生成函數相乘,乘積又是同一個家族的動差生成函數。
現在來看回報。你每加一個獨立變數,就再卷積一次,而我們看到卷積會平滑並朝對稱磨圓。堆夠多的獨立部件,和的形狀就收斂到一個普世的鐘形——這就是中央極限定理,也是為什麼凡有量測相加之處就有常態曲線的原因。不過要老實說清楚附帶條件:中央極限定理需要每一塊都有「有限的變異數」。柯西分配打破它——它的卷積永遠不會朝鐘形安頓下來,而 n 個柯西變數的平均並不比單獨一個好。所以卷積是機械裝置,有限變異數是執照,而當兩者都成立時,鐘形曲線就是獎賞。