伽瑪、貝它，與分配的家族樹

從動物園到家族樹

走到這一階，本單元已經交給你一小群連續型的形狀：平坦的均勻分配、向下遞減的指數分配，以及優美對稱的常態鐘形曲線。我們很容易把每一個都當成一條要背的孤立事實——各有各的公式、各有各的平均、各有各的圖。那是錯誤的心智模型，而且會把一切弄得比實際需要的更難。真相要寬厚得多：它們是親戚，是同一棵家族樹上的枝幹，而你日後遇見的幾乎每一個連續分配，都是另一個分配套上某個運算後的結果。

讓這棵樹生長的運算就只有寥寥幾種，而且你在前面幾階都已經學過。把某個分配的多個獨立副本相加，你就爬上一條新枝；把一個變數平方，或把好幾個平方相加，你又落在另一條枝上；取兩個親戚的比值，你就得到第三個；把某個參數推向極限，一個形狀就融化成另一個形狀。一旦你看見了這些運算，那些名字就不再任意，那些公式也不再令人生畏。本篇就是把整座動物園串起來的那張地圖。

伽瑪分配：把指數分配加起來

從指數分配出發——它是無記憶事件流中等待「一個」事件的時間，比方說等到下一位客人走進門的時間。現在問一個稍大一點的問題：等到「第三位」客人到來要多久？你先等一段指數間隔，再等第二段，再等第三段，而總時間就是三個獨立指數分配之和。這個和不再是指數分配；它有了新的形狀，叫做伽瑪分配。伽瑪分配有兩個旋鈕：一個形狀參數（這裡就是你在等的事件個數，常寫成 k 或 alpha），以及一個從指數分配繼承來的速率 lambda。

當那個形狀參數是整數時，伽瑪分配還有一個老實的小名：厄朗分配，它正是「卜瓦松過程中第 k 次到達的時間」。這個形狀很直覺。形狀為 1 時，伽瑪分配「就是」指數分配——只等一次，呈現你早已熟悉的「零處最高、隨後遞減」的曲線。隨著形狀變大，你是在平均愈來愈多個獨立的等待時間，於是曲線從零處往外拉開、長出一個駝峰、變得更對稱——這是中央極限定理在背後運作的第一聲輕響，因為你正在把獨立的片段加總起來。它的平均就是各部分的和：E[X] = k / lambda，恰好是單一指數分配平均 1/lambda 的 k 倍。

不過，對「相加」這個詞要小心。獨立的伽瑪分配相加，只有在它們共用同一個速率 lambda 時，才會留在伽瑪家族裡：一個 Gamma(k1, lambda) 加上獨立的 Gamma(k2, lambda) 會是 Gamma(k1 + k2, lambda)。速率不同時，這個和就會是更雜亂、沒有俐落名字的東西。這跟離散世界的教訓如出一轍——獨立的卜瓦松分配相加，但加的只是計數——而具名家族對加法封閉，總是只在特定條件下成立，絕非自動成立。

卡方分配：把常態變數平方

現在換一個運算——平方——並把它施加在這個家族最重要的成員身上：常態分配。取一個標準常態變數 Z（平均 0、變異數 1）並把它平方。結果 Z^2 不可能為負，且靠近零的小值最可能出現、大的平方則很罕見；這個歪斜、非負的形狀就是自由度為 1 的卡方分配。把 d 個獨立標準常態的平方加總起來，你就得到自由度為 d 的卡方分配——這個 d 不過就是你加了幾個平方常態。

正是在這裡，這棵樹露出了它隱藏的接線：卡方分配根本不是一個新物種。d 個平方標準常態之和結果恰恰就是一個伽瑪分配——具體來說，是形狀為 d/2、速率為 1/2 的伽瑪分配。所以「把常態平方再相加」和「把指數分配加起來」這兩個聽起來天差地遠的運算，竟落在同一棵伽瑪樹的不同枝幹上。這不是要你死背的巧合；它正是卡方分配為何能如此乾淨地繼承伽瑪的平均：E[X] = d，每一個自由度貢獻一個單位的平均。卡方分配是日後你在統計學裡會遇到的變異數估計與適合度檢定背後的引擎。

Two roads to the SAME gamma tree:

   Exp(lambda) + Exp(lambda) + ... (k terms)   =  Gamma(shape = k,   rate = lambda)
   Z1^2 + Z2^2 + ... + Zd^2  (Zi standard normal) =  Gamma(shape = d/2, rate = 1/2)
                                                  =  Chi-squared(d)

   Means:  E[Gamma(k, lambda)] = k / lambda
           E[Chi-squared(d)]   = d

把指數分配相加、把平方常態加總，是同一個伽瑪家族的兩條枝幹。

貝它分配：活在 [0, 1] 上的比值

到目前為止，每一個分配都鋪展在一段無界的範圍上。但許多量是老老實實被困在 0 與 1 之間的——一個比例、一個機率、一群選民中的某個分數、一位打者的打擊率。對這些量，你會想要一個只活在 [0, 1] 區間、又足夠靈活的形狀，那就是貝它分配。貝它分配有兩個形狀參數，通常叫 alpha 與 beta，調整它們可以讓曲線變平坦、變鐘形、變 U 形，或堆在兩端任一邊。平坦的(0,1) 上的均勻分配不過是 alpha = beta = 1 這個特例——所以你在本單元最先遇到的均勻分配，其實偷偷是所有貝它分配中最簡單的那一個。

貝它分配在樹上來自哪裡？來自一個比值。取兩個共用速率的獨立伽瑪變數 X 與 Y，組成 X / (X + Y)。共用的速率在分式中相消，尺度被洗掉，倖存下來的是一個被擠進 [0, 1] 的數，而它的分配恰恰就是貝它分配。所以貝它分配是伽瑪家族用來問「這一部分佔總量的*多少比例*？」的方式——這也正是它成為比例之天然歸宿的原因。它的平均簡單得令人欣喜：E[X] = alpha / (alpha + beta)，就是那兩個形狀參數所佔的、再明白不過的份額。

貝它分配還有一個你能憑直覺感受到的主演角色。如果你把一個未知的機率 p 本身視為不確定的，給它一個貝它先驗，然後觀察一連串擲幣，那麼更新後的信念又是一個貝它分配——你只要把成功次數加到 alpha、把失敗次數加到 beta 即可。正是這種俐落的「把資料加進參數」式更新，使貝它分配成為貝氏推論中二項資料的天然搭檔，也就是它的共軛先驗。一個貝它分配，起初是你對某個比例的誠實猜測，再一擲、一擲地朝真相收緊。

居於中心的常態分配，以及通往它的極限

如果伽瑪分配是等待時間與平方的主幹，那麼常態分配就是整片森林的重力中心，原因正是前幾篇的中央極限定理。把夠多個大小相當的獨立貢獻平均起來，這個和經適當的重新縮放後，無論各片段來自何處，都會漂向常態分配。這也正是常態分配一再以其他分配的*極限*身分現身的原因：試驗次數眾多的二項分配、平均值很大的卜瓦松分配，以及自由度很高的卡方分配，全都會攤平成鐘形曲線。常態分配與其說是動物園裡多出來的一隻動物，不如說是當你把東西加總起來時、整座動物園所彎向的那個形狀。

同一條主幹還長出兩個你在統計學裡會不斷倚賴的分配，兩者都由涉及常態與卡方的比值建成。把一個標準常態除以一個獨立（縮放後）卡方的平方根，你就得到學生 t 分配——一條尾巴更厚的鐘形曲線，用來補上「從小樣本估計標準差」所帶來的額外不確定性；隨著自由度增長，它的尾巴變薄，又滑回常態分配。取兩個獨立卡方的比值、各自先除以自己的自由度，你就得到 F 分配，那是比較兩個變異數的主力工具。同樣寥寥幾個運算——平方、相加、相除——便生成了整套統計工具箱。

讀懂這棵樹：一個完整範例

家族樹的回報，是你能靠運算來解碼一個新分配，而不必去翻公式表。假設一台伺服器以無記憶事件流處理工作，你問：完成前 4 件工作的總時間是多少？而其中花在前 2 件上的時間*比例*又如何表現？每一段間隔是指數分配；它們的和是伽瑪分配；而佔總量的一個比例是貝它分配。我們一步步走一遍。

辨認出原子。每一段工作之間的間隔都是獨立且無記憶的，所以每一段都是 Exponential(lambda)。這就是基本構件，也就是形狀為 1 的伽瑪分配。
施加運算：相加。前 4 件工作的時間是 4 個同速率的獨立指數分配之和，也就是 Gamma(shape = 4, rate = lambda)——等價於 4 階的厄朗分配。
順手讀出平均。因為平均可加，E[總時間] = 4 / lambda——不必算積分，就是四個指數平均疊起來。
組出比例。把總時間拆成 X（前 2 件，形狀為 2 的伽瑪）加上 Y（後 2 件，形狀為 2 的伽瑪）。比值 X / (X + Y) 是 Beta(alpha = 2, beta = 2)，平均為 2 / (2 + 2) = 1/2——對稱，正如公平所暗示的。

留意剛剛發生了什麼：三個具名分配、三個平均，全都直接從運算讀出——相加、相加、相除——沒有積分過任何一個密度函數。一個要帶著往前走的誠實提醒：密度不是機率，而單一個精確值（譬如總時間恰好等於 4/lambda）的機率是零，這跟本單元裡每一個連續變數都一樣。家族樹告訴你的是*形狀*與*摘要數字*；要把它變成一個實際的機率，你仍得把密度在一段區間上積分。這就是整個連續分配單元濃縮成的一個動作——也是通往後面期望值單元與聯合分配單元的發射台。