精算師賴以為生的那幾個分布

用一個小工具箱應付大千世界

到現在你已經知道隨機變量是什麼，知道它的分布就是故事的全部，也學會了如何把這個故事壓縮成一個期望和一個變異數。但分布可以是任意形狀。難道精算師要為每一項風險都新造一個分布嗎？不必。在實務中，總有那麼一小撮有名有姓的分布反覆登場，因為它們生自一些簡單的故事，而真實的風險又一遍遍地講著同樣的故事。把這一小撮學透，你日後遇到的大多數情形都能認得出來。

整理它們最清爽的方式，正是你早已見過的那道大分界：*計數*與*量度*。有些問題問的是多少次——這張保單會報幾次理賠，今年會來幾場風暴？這類問題由整數 0、1、2、… 上的離散分布來回答。另一些問題問的是多大——既然理賠發生了，它是多少美元？這類問題由正數上的連續分布來回答。本篇裡幾乎每一個分布，都乾淨俐落地落進這兩個陣營之一。

數東西：伯努利、二項、卜瓦松

從最簡單的隨機變量講起。一次是非試驗——理賠發生或不發生，硬幣正面或反面——就是一次伯努利試驗。伯努利分布只有一個數 p，即「是」的機率，而「否」的機率為 1 − p。它的均值是 p，變異數是 p(1 − p)。別看它小，它正是搭建一切計數分布的原子。

現在把同樣的是非試驗獨立地做 n 次，數一數有多少個「是」。這個計數服從二項分布：在每張保單理賠機率都是 p 的 n 張保單裡，會有幾張報賠？它的均值是 np——直覺得令人愉快：100 張保單各有 3% 的機率，平均就是 3 次理賠。二項分布假定試驗次數*固定*、彼此獨立、每次的 p *相同*。當這些假設成立時它分毫不差；當它們不成立時——比如一場洪水泡了整個街區，理賠便扎堆出現——它會悄悄低估風險。

可很多時候並沒有一個天然的「試驗次數」。下個月一家繁忙的保險公司會來多少筆理賠？事件從一個龐大的保單池裡源源不斷地零星到來，而每一張單獨來看又都不大可能報賠。在這個極限下，二項分布滑變成了卜瓦松分布，它是刻畫理賠頻率的主力。卜瓦松分布只有一個參數 λ，它*既是*均值*也是*變異數*——於是它帶著一個內建假設：變異數等於均值。真實的理賠次數往往比這更飄忽，這條線索我們稍後會再拎起來。眼下，就把 λ 想成每段時間的平均事件數：若某組合平均每週 8 筆理賠，那麼 λ = 8 的卜瓦松分布就描述了圍繞這個平均值的上下抖動。

量度大小：常態、指數、伽馬、對數常態

一旦理賠發生，它有多大？這下我們量的是美元，於是改用連續分布。最有名的是常態分布——那條對稱的鐘形曲線，由一個均值和一個標準差確定。它成名得理直氣壯：當許多微小、獨立的效應疊加起來，它們的總和往往趨於常態（下一篇你會看到這究竟為什麼）。但單筆理賠金額很少是常態的。理賠金額不會為負，它們會在較小的值附近堆積，並向右拖出長長的一條尾巴——鐘形那份整齊的對稱，用來描繪損失就用錯了圖。

所以對理賠*金額*，精算師轉而求助於右偏的、取正值的分布。指數分布最為溫和：它描述一種沒有記憶的量——損失再超過 100 美元的機率，無論它已經多大，都一樣。它簡單，作為初稿很不錯，但它的尾巴衰減得很快。伽馬分布給它添了一個額外的形狀參數，把它推而廣之，於是你能把曲線彎曲，去擬合那種先隆起、再回落的資料。對數常態分布講的是一個乘法的故事：若一筆損失是許多隨機因子的乘積（想想層層疊加的百分比效應），那麼它的對數服從常態，損失本身便服從對數常態——偏斜、恆正，尾巴比伽馬更重。

頻率乘以嚴重度

正是在這裡，兩個陣營牽起了手，而這也是全篇最有用的一個念頭。要為一整批業務的理賠總成本建模，精算師把問題一劈為二——這就是頻率—嚴重度分解。頻率是*發生多少次*理賠，用計數分布來建模。嚴重度是*每次有多大*，用量度大小的分布來建模。理賠總成本，大致就是頻率乘以平均嚴重度。

舉個具體的小例子就明白了。假設某組合的理賠次數服從均值為每年 200 筆的卜瓦松分布，而每筆理賠的金額服從平均 5000 美元的對數常態分布。那麼*期望*的總成本就是 200 × 5000 = 1,000,000 美元。這個期望數字，正是純保費的核心——它是每個人保費裡專門用來賠付損失的那部分，還沒加上費用和利潤。這種分解之所以強大，是因為兩半可以分開估計：一場寒潮可能抬高*頻率*而不改變*嚴重度*，而醫療通膨則推高*嚴重度*、*頻率*卻按兵不動。把它們拆開，你才能逐一看清、逐一定價每一股力量。

expected count      lambda = 200 claims / year   (Poisson)
expected severity   mean   = $5,000 / claim       (lognormal)
expected total cost = 200 x $5,000 = $1,000,000
pure premium per policy (1,000 policies) = $1,000,000 / 1,000 = $1,000

頻率乘以嚴重度得出期望總損失；再除以保單數，就是純保費。真實定價隨後還要疊加費用、利潤，以及一筆應對不確定性的安全邊際。

關於重尾的第一聲警告

還有一個量度大小的分布，每位精算師都必須敬畏，因為它的脾性與眾不同：帕累托分布。它的尾巴不按指數方式消退——而僅以損失大小的某個冪次緩緩變薄，於是真正巨大的理賠始終頑固地保有可能。這就是重尾的教科書範例，而責任險、地震險、流行病險這些險種，正活在這個世界裡。在帕累托分布下，一年裡單筆最大的理賠，可能讓其餘所有理賠之和都相形見絀——這種格局，指數分布和對數常態分布壓根兒造不出來。

為什麼這件事如此要緊？因為重尾會悄無聲息地打碎你一路建起來的那些舒適直覺。平均值可能被單單一筆離奇的損失所主宰，於是它穩定得很慢，是個靠不住的嚮導。在最極端的情形下，變異數——甚至均值——在數學上可以是*無窮大*的，這意味著按單張保單去算，沒有任何有限的保費足夠高。重尾模型擬合起來也很脆弱：寥寥幾筆歷史上的巨額理賠，就能把估計值甩得天翻地覆。挑錯了尾巴，正是保險公司在風平浪靜的年頭看上去盈利完美、卻照樣破產的經典途徑之一。

往下走時，把這條誠實的告誡揣在身邊。分布是一個被選定的模型，而尾部恰是我們資料最少、損失最大的那一截。鐘形曲線和指數分布會哄你以為極端可以忽略不計；帕累托分布則提醒你並非如此。下一篇裡的兩條定理——大數定律與中心極限定理——正是讓保險得以成立的根基，但它們倚仗的假設，恰恰可能被重尾悄悄違背。清楚自己腳下踩的是*哪一個*分布、它的尾部有多可信，這便是當好精算師的一半功夫。