为什么不直接给总额建模?
在这条阶梯的寿险一侧,你建模的大多是某个事件*是否*发生、*何时*发生——身故、活到某个日期——而赔付通常是一笔你事先约定好的固定金额。非寿险是另一种生物。一张车险保单今年可能一次险都不出,也可能磕碰一次,又或者磕碰加上笔记本电脑被偷再加上整车报废。而任何一次理赔的金额本身也是不确定的:一道划痕几百块,整车报废则要好几万。于是你最终真正在乎的东西——累计损失,也就是一张保单或一个保单组合一年要花掉的总额——是由两种各自独立的随机性叠在一起搭出来的。
原则上,你可以试着直接给累计损失建模:收集去年每张保单的总成本,然后用一个分布去拟合这一堆数字。麻烦在于,这一堆数字描述起来简直是噩梦。它在恰好为零处有一根很高的尖峰(大多数保单从不理赔),接着是一个平滑的鼓包,对应只出过一次小额险的保单,再往后则是一条又长又细、令人胆寒的尾巴,对应那些极少数遭遇巨灾或一年里好几次出险的保单。没有哪个齐整的教科书分布长成这样,更糟的是,一旦你的业务有变——你提高了免赔额,你承保了不同结构的客户——这整堆畸形的东西就会整体平移,你只能从头再来。
解法是整整这一阶里最重要的一个念头,而它简单得几乎令人难为情:别再把「这张保单会花多少钱?」当成一个问题来问。问两个。它会出几次险,以及在出险的前提下,每次多大?这就是频率—强度分解,一旦你看见它,就再也无法视而不见——它一举把财产意外险的定价、准备金评估与风险理论都梳理得井井有条。
用两个干净的问题取代一个丑陋的问题
频率是一段时期内理赔的次数——一个整数:0、1、2、3……由于它是对相当罕见、大致独立的事件的计数,它天然地栖身于你已经见过的离散分布家族里。默认的主力是泊松分布,它有一个可爱的性质:均值与方差相等;当真实数据呈现出比这更大的离散——比零次的年份更多、比三次的年份也更多,超出泊松所允许的范围——精算师便会请出负二项分布,它恰好补上那一份额外的摆动。这整样东西就是一个理赔频率分布。
强度是单次理赔的金额,*前提是确实出了险*——一个正数,从象征性的一点点到足以致命的一大笔都有可能。所以它栖身于正数上的连续分布家族里。对于中等、规规矩矩的损失,对数正态或伽马分布拟合得很好;而对于那些偶尔会冒出怪兽级理赔的险种——责任险、财产巨灾——你就需要一个厚尾的形状,例如帕累托分布,它的尾巴衰减得如此之慢,以至于单单一笔理赔就能让其余所有理赔之和相形见绌。这样东西就是理赔强度分布。关键在于,频率与强度通常被建模为*相互独立*:你出了多少次险,并不告诉你每次会有多大。这种独立性是一个假设,而非自然法则——但它非常有用,且通常站得住脚。
把它们重新缝合起来
把问题拆开,只有当你能把它重新组装起来时才有用。一张保单的总成本是这样的:取理赔的随机次数 N,从强度分布中抽出那么多个相互独立的强度 X₁、X₂、……,然后把它们加起来。把*随机个数*个随机金额相加,称为复合分布——当次数 N 服从泊松分布时,它就是大名鼎鼎的复合泊松,整套集体风险模型都奠基于此。接下来的几篇导览里,你会学着去算它的均值、方差,乃至完整的形状;这里要点只有一个:那两半会重新合成为唯一真正要紧的那个量。
Aggregate loss S = X1 + X2 + ... + XN (N is itself random)
Expected frequency E[N] = 0.20 claims/policy/year
Expected severity E[X] = 4,000 dollars/claim
Pure premium E[S] = E[N] x E[X]
= 0.20 x 4,000 = 800 dollars/policy/year留意一下,那个小小的计算里,拆分给我们带来了什么。这 800 元来自分别估计两样东西——一个大约每五年出一次险的频率,和一个大约 4,000 元的典型理赔——其中每一样都可以用它自己的数据、它自己的分布去研究。如果明年监管强制让修车成本上涨 10%,那么只有强度那个数在动;频率原地不动。如果一项新的安全法规让事故减少了五分之一,那么只有频率在动。我们可以更新其中一半而不惊动另一半——而这恰恰是那个丑陋的一锅烩模型永远给不了的灵活性。
逐损失视角 vs 逐赔付视角:站在谁的立场?
真实的保单几乎从不赔付整笔理赔。免赔额让客户先自行承担最前面的一小段;保单限额则在顶端给保险公司将赔付的金额封了顶。这就逼出一个一开始几乎绊倒所有人的问题:当你说「强度分布」时,你指的是*客户遭受的损失*的大小,还是*保险公司实际赔付*的金额的大小?这是两个货真价实不同的分布,把它们搞混,会在不知不觉中毒害一个定价模型。这一区分有个名字——逐损失视角与逐赔付视角。
逐损失视角站在投保人身旁,审视*每一个*损失事件,包括那些小到永远到不了保险公司的。在 500 元免赔额之下,一块 300 元的挡风玻璃磕痕是真实的损失,却产生了零赔付——在逐损失的画面里它仍然算作一次损失,只是赔付为零罢了。逐赔付视角则站在保险公司的理赔柜台前,只看那些真正开出了支票的事件:它*早已*把每一个低于免赔额的损失剔除了,因此它的频率更低,而你看到的金额都是在「大到足以赔付」这一条件下的。同一个底层现实,两副不同的镜片——而你选哪副镜片,必须与你要回答的问题相匹配。
下面这一点微妙之处,足以让它自成一节。提高免赔额并不只是从每笔赔付里削去一个固定数额——它还改变你*观测到的频率*,因为那些原本能越过门槛的损失,如今从逐赔付的数据里消失了。分解的两半同时在动。正因如此,一个粗心的分析师若拿实际开出的支票去拟合一条强度曲线,然后又把它当作描述了全部损失那样去套用,就会把一张采用不同免赔额的保单严重定错价。把这两个视角分得清清楚楚,并非咬文嚼字;它关乎一个模型究竟是能跨越不同免赔额与限额通行无阻,还是会在合同条款一变就悄无声息地崩坏。
诚实面对这套拆分的局限
这套分解之所以强大,恰恰因为它做出了一些强力的简化假设,而一个诚实的建模者会时刻把手指搭在每一个假设上。我们假设各次理赔*大致相互独立*——可一场冰雹或飓风一夜之间就能击碎这个假设,一个下午砸坏上千座屋顶,于是频率与强度一齐飙升,那条整齐的乘积公式便低估了危险。我们假设频率与强度*彼此独立*——可在通胀时期,那些推高修车成本的力量,也可能微妙地改变小额理赔的报案频率。我们还假设拟合出来的分布*会持续成立*——然而拿一条曲线去拟合去年的数据,是对过去的描述,而非对未来的保证。
- 每当你面对一笔总成本,拒绝正面去给它建模——先把它拆成「出几次」(频率)和「每次多大」(强度)。
- 给每个数字都贴上量纲:频率是计数,强度是货币——并记住它们的乘积只是*期望*成本,而非全部风险。
- 在报出任何强度数字之前,先问一句「逐损失还是逐赔付?」——并核对数据里的免赔额和限额是否与你正在定价的那张保单相匹配。