用一个小工具箱应付大千世界
到现在你已经知道随机变量是什么,知道它的分布就是故事的全部,也学会了如何把这个故事压缩成一个期望和一个方差。但分布可以是任意形状。难道精算师要为每一项风险都新造一个分布吗?不必。在实践中,总有那么一小撮有名有姓的分布反复登场,因为它们生自一些简单的故事,而真实的风险又一遍遍地讲着同样的故事。把这一小撮学透,你日后遇到的大多数情形都能认得出来。
整理它们最清爽的方式,正是你早已见过的那道大分界:*计数*与*量度*。有些问题问的是多少次——这张保单会报几次理赔,今年会来几场风暴?这类问题由整数 0、1、2、… 上的离散分布来回答。另一些问题问的是多大——既然理赔发生了,它是多少美元?这类问题由正数上的连续分布来回答。本篇里几乎每一个分布,都干净利落地落进这两个阵营之一。
数东西:伯努利、二项、泊松
从最简单的随机变量讲起。一次是非试验——理赔发生或不发生,硬币正面或反面——就是一次伯努利试验。伯努利分布只有一个数 p,即"是"的概率,而"否"的概率为 1 − p。它的均值是 p,方差是 p(1 − p)。别看它小,它正是搭建一切计数分布的原子。
现在把同样的是非试验独立地做 n 次,数一数有多少个"是"。这个计数服从二项分布:在每张保单理赔概率都是 p 的 n 张保单里,会有几张报赔?它的均值是 np——直觉得令人愉快:100 张保单各有 3% 的概率,平均就是 3 次理赔。二项分布假定试验次数*固定*、彼此独立、每次的 p *相同*。当这些假设成立时它分毫不差;当它们不成立时——比如一场洪水泡了整个街区,理赔便扎堆出现——它会悄悄低估风险。
可很多时候并没有一个天然的"试验次数"。下个月一家繁忙的保险公司会来多少笔理赔?事件从一个庞大的保单池里源源不断地零星到来,而每一张单独来看又都不大可能报赔。在这个极限下,二项分布滑变成了泊松分布,它是刻画理赔频率的主力。泊松分布只有一个参数 λ,它*既是*均值*也是*方差——于是它带着一个内建假设:方差等于均值。真实的理赔次数往往比这更飘忽,这条线索我们稍后会再拎起来。眼下,就把 λ 想成每段时间的平均事件数:若某组合平均每周 8 笔理赔,那么 λ = 8 的泊松分布就描述了围绕这个平均值的上下抖动。
量度大小:正态、指数、伽马、对数正态
一旦理赔发生,它有多大?这下我们量的是美元,于是改用连续分布。最有名的是正态分布——那条对称的钟形曲线,由一个均值和一个标准差确定。它成名得理直气壮:当许多微小、独立的效应叠加起来,它们的总和往往趋于正态(下一篇你会看到这究竟为什么)。但单笔理赔金额很少是正态的。理赔金额不会为负,它们会在较小的值附近堆积,并向右拖出长长的一条尾巴——钟形那份整齐的对称,用来描绘损失就用错了图。
所以对理赔*金额*,精算师转而求助于右偏的、取正值的分布。指数分布最为温和:它描述一种没有记忆的量——损失再超过 100 美元的概率,无论它已经多大,都一样。它简单,作为初稿很不错,但它的尾巴衰减得很快。伽马分布给它添了一个额外的形状参数,把它推而广之,于是你能把曲线弯曲,去拟合那种先隆起、再回落的数据。对数正态分布讲的是一个乘法的故事:若一笔损失是许多随机因子的乘积(想想层层叠加的百分比效应),那么它的对数服从正态,损失本身便服从对数正态——偏斜、恒正,尾巴比伽马更重。
频率乘以严重度
正是在这里,两个阵营牵起了手,而这也是全篇最有用的一个念头。要为一整批业务的理赔总成本建模,精算师把问题一劈为二——这就是频率—严重度分解。频率是*发生多少次*理赔,用计数分布来建模。严重度是*每次有多大*,用量度大小的分布来建模。理赔总成本,大致就是频率乘以平均严重度。
举个具体的小例子就明白了。假设某组合的理赔次数服从均值为每年 200 笔的泊松分布,而每笔理赔的金额服从平均 5000 美元的对数正态分布。那么*期望*的总成本就是 200 × 5000 = 1,000,000 美元。这个期望数字,正是纯保费的核心——它是每个人保费里专门用来赔付损失的那部分,还没加上费用和利润。这种分解之所以强大,是因为两半可以分开估计:一场寒潮可能抬高*频率*而不改变*严重度*,而医疗通胀则推高*严重度*、*频率*却按兵不动。把它们拆开,你才能逐一看清、逐一定价每一股力量。
expected count lambda = 200 claims / year (Poisson) expected severity mean = $5,000 / claim (lognormal) expected total cost = 200 x $5,000 = $1,000,000 pure premium per policy (1,000 policies) = $1,000,000 / 1,000 = $1,000
关于重尾的第一声警告
还有一个量度大小的分布,每位精算师都必须敬畏,因为它的脾性与众不同:帕累托分布。它的尾巴不按指数方式消退——而仅以损失大小的某个幂次缓缓变薄,于是真正巨大的理赔始终顽固地保有可能。这就是重尾的教科书范例,而责任险、地震险、流行病险这些险种,正活在这个世界里。在帕累托分布下,一年里单笔最大的理赔,可能让其余所有理赔之和都相形见绌——这种格局,指数分布和对数正态分布压根儿造不出来。
为什么这件事如此要紧?因为重尾会悄无声息地打碎你一路建起来的那些舒适直觉。平均值可能被单单一笔离奇的损失所主宰,于是它稳定得很慢,是个靠不住的向导。在最极端的情形下,方差——甚至均值——在数学上可以是*无穷大*的,这意味着按单张保单去算,没有任何有限的保费足够高。重尾模型拟合起来也很脆弱:寥寥几笔历史上的巨额理赔,就能把估计值甩得天翻地覆。挑错了尾巴,正是保险公司在风平浪静的年头看上去盈利完美、却照样破产的经典途径之一。
往下走时,把这条诚实的告诫揣在身边。分布是一个被选定的模型,而尾部恰是我们数据最少、损失最大的那一截。钟形曲线和指数分布会哄你以为极端可以忽略不计;帕累托分布则提醒你并非如此。下一篇里的两条定理——大数定律与中心极限定理——正是让保险得以成立的根基,但它们倚仗的假设,恰恰可能被重尾悄悄违背。清楚自己脚下踩的是*哪一个*分布、它的尾部有多可信,这便是当好精算师的一半功夫。