精算师赖以为生的那几个分布

用一个小工具箱应付大千世界

到现在你已经知道随机变量是什么，知道它的分布就是故事的全部，也学会了如何把这个故事压缩成一个期望和一个方差。但分布可以是任意形状。难道精算师要为每一项风险都新造一个分布吗？不必。在实践中，总有那么一小撮有名有姓的分布反复登场，因为它们生自一些简单的故事，而真实的风险又一遍遍地讲着同样的故事。把这一小撮学透，你日后遇到的大多数情形都能认得出来。

整理它们最清爽的方式，正是你早已见过的那道大分界：*计数*与*量度*。有些问题问的是多少次——这张保单会报几次理赔，今年会来几场风暴？这类问题由整数 0、1、2、… 上的离散分布来回答。另一些问题问的是多大——既然理赔发生了，它是多少美元？这类问题由正数上的连续分布来回答。本篇里几乎每一个分布，都干净利落地落进这两个阵营之一。

数东西：伯努利、二项、泊松

从最简单的随机变量讲起。一次是非试验——理赔发生或不发生，硬币正面或反面——就是一次伯努利试验。伯努利分布只有一个数 p，即"是"的概率，而"否"的概率为 1 − p。它的均值是 p，方差是 p(1 − p)。别看它小，它正是搭建一切计数分布的原子。

现在把同样的是非试验独立地做 n 次，数一数有多少个"是"。这个计数服从二项分布：在每张保单理赔概率都是 p 的 n 张保单里，会有几张报赔？它的均值是 np——直觉得令人愉快：100 张保单各有 3% 的概率，平均就是 3 次理赔。二项分布假定试验次数*固定*、彼此独立、每次的 p *相同*。当这些假设成立时它分毫不差；当它们不成立时——比如一场洪水泡了整个街区，理赔便扎堆出现——它会悄悄低估风险。

可很多时候并没有一个天然的"试验次数"。下个月一家繁忙的保险公司会来多少笔理赔？事件从一个庞大的保单池里源源不断地零星到来，而每一张单独来看又都不大可能报赔。在这个极限下，二项分布滑变成了泊松分布，它是刻画理赔频率的主力。泊松分布只有一个参数 λ，它*既是*均值*也是*方差——于是它带着一个内建假设：方差等于均值。真实的理赔次数往往比这更飘忽，这条线索我们稍后会再拎起来。眼下，就把 λ 想成每段时间的平均事件数：若某组合平均每周 8 笔理赔，那么 λ = 8 的泊松分布就描述了围绕这个平均值的上下抖动。

量度大小：正态、指数、伽马、对数正态

一旦理赔发生，它有多大？这下我们量的是美元，于是改用连续分布。最有名的是正态分布——那条对称的钟形曲线，由一个均值和一个标准差确定。它成名得理直气壮：当许多微小、独立的效应叠加起来，它们的总和往往趋于正态（下一篇你会看到这究竟为什么）。但单笔理赔金额很少是正态的。理赔金额不会为负，它们会在较小的值附近堆积，并向右拖出长长的一条尾巴——钟形那份整齐的对称，用来描绘损失就用错了图。

所以对理赔*金额*，精算师转而求助于右偏的、取正值的分布。指数分布最为温和：它描述一种没有记忆的量——损失再超过 100 美元的概率，无论它已经多大，都一样。它简单，作为初稿很不错，但它的尾巴衰减得很快。伽马分布给它添了一个额外的形状参数，把它推而广之，于是你能把曲线弯曲，去拟合那种先隆起、再回落的数据。对数正态分布讲的是一个乘法的故事：若一笔损失是许多随机因子的乘积（想想层层叠加的百分比效应），那么它的对数服从正态，损失本身便服从对数正态——偏斜、恒正，尾巴比伽马更重。

频率乘以严重度

正是在这里，两个阵营牵起了手，而这也是全篇最有用的一个念头。要为一整批业务的理赔总成本建模，精算师把问题一劈为二——这就是频率—严重度分解。频率是*发生多少次*理赔，用计数分布来建模。严重度是*每次有多大*，用量度大小的分布来建模。理赔总成本，大致就是频率乘以平均严重度。

举个具体的小例子就明白了。假设某组合的理赔次数服从均值为每年 200 笔的泊松分布，而每笔理赔的金额服从平均 5000 美元的对数正态分布。那么*期望*的总成本就是 200 × 5000 = 1,000,000 美元。这个期望数字，正是纯保费的核心——它是每个人保费里专门用来赔付损失的那部分，还没加上费用和利润。这种分解之所以强大，是因为两半可以分开估计：一场寒潮可能抬高*频率*而不改变*严重度*，而医疗通胀则推高*严重度*、*频率*却按兵不动。把它们拆开，你才能逐一看清、逐一定价每一股力量。

expected count      lambda = 200 claims / year   (Poisson)
expected severity   mean   = $5,000 / claim       (lognormal)
expected total cost = 200 x $5,000 = $1,000,000
pure premium per policy (1,000 policies) = $1,000,000 / 1,000 = $1,000

频率乘以严重度得出期望总损失；再除以保单数，就是纯保费。真实定价随后还要叠加费用、利润，以及一笔应对不确定性的安全边际。

关于重尾的第一声警告

还有一个量度大小的分布，每位精算师都必须敬畏，因为它的脾性与众不同：帕累托分布。它的尾巴不按指数方式消退——而仅以损失大小的某个幂次缓缓变薄，于是真正巨大的理赔始终顽固地保有可能。这就是重尾的教科书范例，而责任险、地震险、流行病险这些险种，正活在这个世界里。在帕累托分布下，一年里单笔最大的理赔，可能让其余所有理赔之和都相形见绌——这种格局，指数分布和对数正态分布压根儿造不出来。

为什么这件事如此要紧？因为重尾会悄无声息地打碎你一路建起来的那些舒适直觉。平均值可能被单单一笔离奇的损失所主宰，于是它稳定得很慢，是个靠不住的向导。在最极端的情形下，方差——甚至均值——在数学上可以是*无穷大*的，这意味着按单张保单去算，没有任何有限的保费足够高。重尾模型拟合起来也很脆弱：寥寥几笔历史上的巨额理赔，就能把估计值甩得天翻地覆。挑错了尾巴，正是保险公司在风平浪静的年头看上去盈利完美、却照样破产的经典途径之一。

往下走时，把这条诚实的告诫揣在身边。分布是一个被选定的模型，而尾部恰是我们数据最少、损失最大的那一截。钟形曲线和指数分布会哄你以为极端可以忽略不计；帕累托分布则提醒你并非如此。下一篇里的两条定理——大数定律与中心极限定理——正是让保险得以成立的根基，但它们倚仗的假设，恰恰可能被重尾悄悄违背。清楚自己脚下踩的是*哪一个*分布、它的尾部有多可信，这便是当好精算师的一半功夫。