期望、變異數與矩

從整個分布到一個數字

在上一篇裡，隨機變數給了我們一整個分布——也就是所有可能發生的事，以及每種結果各自的可能性的完整清單。這張圖是誠實的，卻很笨重。定價委員會沒法對著一張上百根柱子的直方圖做決策，他們想要的是一個數字。本篇的功夫，就在於把分布壓縮成幾個誠實的概括量，又不偷偷丟掉那些真正重要的真相。

第一個、也是最有名的概括量，是期望值，寫作 E[X]。先把公式放一邊，記住這幅畫面：如果你能把這個隨機試驗無限次重複下去，期望值就是結果的長期平均。它是分布的平衡點——把直方圖放在指尖上能保持水平的那個位置。對精算師而言，這不是什麼趣味知識，而是每一筆保費的種子。

期望：長期平均

計算期望其實比聽起來溫和得多：拿出每個可能取到的值，按它發生的可能性加權，再把這些零件加起來。可能性高的結果會把平均值往自己這邊拉，罕見的結果幾乎拉不動。擲一顆均勻的骰子，1 到 6 每一面的機率都是六分之一，於是期望值是 (1+2+3+4+5+6)/6 = 3.5。注意這個妙處：3.5 是骰子永遠擲不出來的數。期望是長期平均，而不是對任何一次擲出結果的預測。

現在把骰子掰成保險的形狀。設想一份一年期保單：一年內有 5% 的機率出險，理賠金額恰好都是 2,000，否則損失為零。那麼期望損失就是 0.05 × 2,000 + 0.95 × 0 = 100。這個 100 就是純保費——也就是在加上任何費用和利潤之前，這份風險的期望成本。精算師定價的幾乎一切，都從某個精心挑選的隨機變數的期望值出發。

變異數：精算師真正害怕的離散程度

期望值告訴你分布坐落在哪裡，卻對它擺動得有多劇烈隻字未提。兩個風險可以共享 100 的期望損失，感覺卻天差地別：一批每年都穩穩落在 100 附近的小額牙科理賠，和一份大多數年份分文不付、卻偶爾會爆成數百萬的衛星保單。平均值一模一樣，危險卻截然不同。把這份危險刻畫出來，正是變異數的工作。

變異數這樣度量離散程度：平均而言，一個結果落得離期望值有多遠？我們看每個結果與均值之間的差距，把它平方（這樣不足和超出都算作距離、不會相互抵消，而且大差距被懲罰得比小差距更狠），再把這些平方差距取平均。因為平方過了，單位也被平方了——「理賠的平方」對人類毫無意義——所以我們再開平方，稱它為標準差。這就把我們帶回到誠實的金額上：偏離平均值的一個典型距離。

回到那份「5% 機率賠 2,000」的保單。它的期望損失是 100，但標準差算出來接近 436——是平均值的四倍多。這一個數字喊出了 100 這個價籤所掩蓋的真相：在任何一年裡，你幾乎一定要麼賠 0、要麼賠 2,000，幾乎絕不會賠出接近 100 的金額。保險之所以難、精算師之所以要持有資本，根本原因就在於：真實的風險圍繞一個不大的均值有著很大的離散度。

高階矩：偏度與尾部

期望和變異數只是一整個家族裡的頭兩位。生成它們的那套套路——取「偏離均值」的某個冪次再求平均——可以一直延續下去。這些就是分布的矩。第一階矩定位它（均值），第二階矩描述它的離散度（變異數），而第三階和第四階矩則開始描述它的形狀。

第三階矩經過標度，給出偏度——也就是分布往哪邊傾斜。保險損失幾乎總是右偏的：在一堆普通理賠形成的隆起右側，拖著一條又細又長的尾巴，那是罕見而巨額的理賠。第四階矩給出峰度，衡量那條尾巴有多重——也就是有多少機率藏在離中心很遠的地方。對精算師來說，這些絕非紙上談兵。偏度和肥尾意味著：真正的危險恰恰潛伏在均值、甚至變異數都看起來安然平靜的那些地方。

這正是我們要往後帶的誠實告誡。一個概括數字，是對現實的一種有損壓縮。只報均值，你就藏起了離散度；報上均值和變異數，你可能仍藏著一條猙獰的尾巴。一個著名的巨災組合，可以在十九個平靜的年份裡給出討喜的均值和溫順的變異數，卻在第二十年讓承保它的保險公司破產。矩是工具，不是真相——而且你爬得越高，它們越是低聲耳語、而非大聲呼喊。

動差生成函數：一個函數，包攬所有矩

既然矩這麼重要，要是能有一個物件一次性把它們全部攜帶起來，那就太方便了。這個物件就是動差生成函數（MGF），寫作 M(t) = E[e^(tX)]。別被那個指數嚇到。最好把 MGF 想成一枚指紋：它是關於一個輔助變數 t 的單個函數，能唯一地標識出整個分布，而且每一階矩都能用一套機械化的步驟從中提取出來。

MGF的兩項本領，讓它真正有用、而不只是個把戲。第一，因為它是指紋，如果兩個隨機變數擁有相同的 MGF，它們就是同一個分布——這是證明「某樣東西到底是什麼」的一條乾淨路徑。第二，也是精算師鍾愛它的原因：若干個相互獨立的風險之和，其 MGF 恰好就是各自 MGF 的乘積。把一千張獨立保單加起來——用直方圖來做簡直是惡夢——在這裡變成了一次乘法。這正是你接下來會遇到的好幾個命名分布背後的引擎，也是本階末尾中心極限定理背後的引擎。

Policy X:  P(loss=0)=0.95,  P(loss=2000)=0.05
E[X]      = 0.05*2000              = 100        (pure premium)
Var[X]    = 0.05*(2000-100)^2 + 0.95*(0-100)^2 = 190000
SD[X]     = sqrt(190000)           ~ 436        (>4x the mean!)
MGF: M(t) = 0.95 + 0.05*e^(2000t)

用數字寫出那個小小的理賠例子：100 這個並不大的均值，藏著一個比它大四倍多的標準差——而正是這份離散度，使這份風險值得去承保。

把它用起來

這三個概括量並非按重要性排出的等級——它們回答的是不同的問題，而一個好的精算師會把它們同時擺在桌面上。下面是在實務中它們大致會落入的思考順序。

先求期望值——純保費，也就是長期平均成本。它回答的是：這份風險平均要花多少錢？
再求變異數與標準差——離散程度。它回答的是：單獨一年、或者整個組合，可能糟到偏離那個平均值多遠？這決定了必須用多少資本來支撐這份承諾。
最後檢查形狀——偏度與尾部。它回答的是：真正的危險，是不是藏在平均值看不到的遠處？如果是，那麼單憑均值和變異數就會帶來危險的安心感。

握住了期望、變異數和矩，你終於能用幾個可信賴的數字來刻畫任何不確定的量——而且同樣重要的是，你知道這些數字漏掉了什麼。接下來，你會遇到那一小撮命名分布，它們的矩和 MGF 都已經替你算好了，那是精算師用來對「理賠多久來一次」和「理賠會長到多大」建模時，隨手就能取用的現成形狀。