频率与强度：把问题拆开

为什么不直接给总额建模？

在这条阶梯的寿险一侧，你建模的大多是某个事件*是否*发生、*何时*发生——身故、活到某个日期——而赔付通常是一笔你事先约定好的固定金额。非寿险是另一种生物。一张车险保单今年可能一次险都不出，也可能磕碰一次，又或者磕碰加上笔记本电脑被偷再加上整车报废。而任何一次理赔的金额本身也是不确定的：一道划痕几百块，整车报废则要好几万。于是你最终真正在乎的东西——累计损失，也就是一张保单或一个保单组合一年要花掉的总额——是由两种各自独立的随机性叠在一起搭出来的。

原则上，你可以试着直接给累计损失建模：收集去年每张保单的总成本，然后用一个分布去拟合这一堆数字。麻烦在于，这一堆数字描述起来简直是噩梦。它在恰好为零处有一根很高的尖峰（大多数保单从不理赔），接着是一个平滑的鼓包，对应只出过一次小额险的保单，再往后则是一条又长又细、令人胆寒的尾巴，对应那些极少数遭遇巨灾或一年里好几次出险的保单。没有哪个齐整的教科书分布长成这样，更糟的是，一旦你的业务有变——你提高了免赔额，你承保了不同结构的客户——这整堆畸形的东西就会整体平移，你只能从头再来。

解法是整整这一阶里最重要的一个念头，而它简单得几乎令人难为情：别再把「这张保单会花多少钱？」当成一个问题来问。问两个。它会出几次险，以及在出险的前提下，每次多大？这就是频率—强度分解，一旦你看见它，就再也无法视而不见——它一举把财产意外险的定价、准备金评估与风险理论都梳理得井井有条。

用两个干净的问题取代一个丑陋的问题

频率是一段时期内理赔的次数——一个整数：0、1、2、3……由于它是对相当罕见、大致独立的事件的计数，它天然地栖身于你已经见过的离散分布家族里。默认的主力是泊松分布，它有一个可爱的性质：均值与方差相等；当真实数据呈现出比这更大的离散——比零次的年份更多、比三次的年份也更多，超出泊松所允许的范围——精算师便会请出负二项分布，它恰好补上那一份额外的摆动。这整样东西就是一个理赔频率分布。

强度是单次理赔的金额，*前提是确实出了险*——一个正数，从象征性的一点点到足以致命的一大笔都有可能。所以它栖身于正数上的连续分布家族里。对于中等、规规矩矩的损失，对数正态或伽马分布拟合得很好；而对于那些偶尔会冒出怪兽级理赔的险种——责任险、财产巨灾——你就需要一个厚尾的形状，例如帕累托分布，它的尾巴衰减得如此之慢，以至于单单一笔理赔就能让其余所有理赔之和相形见绌。这样东西就是理赔强度分布。关键在于，频率与强度通常被建模为*相互独立*：你出了多少次险，并不告诉你每次会有多大。这种独立性是一个假设，而非自然法则——但它非常有用，且通常站得住脚。

把它们重新缝合起来

把问题拆开，只有当你能把它重新组装起来时才有用。一张保单的总成本是这样的：取理赔的随机次数 N，从强度分布中抽出那么多个相互独立的强度 X₁、X₂、……，然后把它们加起来。把*随机个数*个随机金额相加，称为复合分布——当次数 N 服从泊松分布时，它就是大名鼎鼎的复合泊松，整套集体风险模型都奠基于此。接下来的几篇导览里，你会学着去算它的均值、方差，乃至完整的形状；这里要点只有一个：那两半会重新合成为唯一真正要紧的那个量。

Aggregate loss  S = X1 + X2 + ... + XN   (N is itself random)

Expected frequency  E[N] = 0.20 claims/policy/year
Expected severity   E[X] = 4,000 dollars/claim

Pure premium  E[S] = E[N] x E[X]
            = 0.20 x 4,000 = 800 dollars/policy/year

一个玩具车险账本：平均每五年出一次险，每次 4,000 元，于是每张保单每年的期望纯成本是 800 元——这还没算费用、利润或任何安全余量。

留意一下，那个小小的计算里，拆分给我们带来了什么。这 800 元来自分别估计两样东西——一个大约每五年出一次险的频率，和一个大约 4,000 元的典型理赔——其中每一样都可以用它自己的数据、它自己的分布去研究。如果明年监管强制让修车成本上涨 10%，那么只有强度那个数在动；频率原地不动。如果一项新的安全法规让事故减少了五分之一，那么只有频率在动。我们可以更新其中一半而不惊动另一半——而这恰恰是那个丑陋的一锅烩模型永远给不了的灵活性。

逐损失视角 vs 逐赔付视角：站在谁的立场？

真实的保单几乎从不赔付整笔理赔。免赔额让客户先自行承担最前面的一小段；保单限额则在顶端给保险公司将赔付的金额封了顶。这就逼出一个一开始几乎绊倒所有人的问题：当你说「强度分布」时，你指的是*客户遭受的损失*的大小，还是*保险公司实际赔付*的金额的大小？这是两个货真价实不同的分布，把它们搞混，会在不知不觉中毒害一个定价模型。这一区分有个名字——逐损失视角与逐赔付视角。

逐损失视角站在投保人身旁，审视*每一个*损失事件，包括那些小到永远到不了保险公司的。在 500 元免赔额之下，一块 300 元的挡风玻璃磕痕是真实的损失，却产生了零赔付——在逐损失的画面里它仍然算作一次损失，只是赔付为零罢了。逐赔付视角则站在保险公司的理赔柜台前，只看那些真正开出了支票的事件：它*早已*把每一个低于免赔额的损失剔除了，因此它的频率更低，而你看到的金额都是在「大到足以赔付」这一条件下的。同一个底层现实，两副不同的镜片——而你选哪副镜片，必须与你要回答的问题相匹配。

下面这一点微妙之处，足以让它自成一节。提高免赔额并不只是从每笔赔付里削去一个固定数额——它还改变你*观测到的频率*，因为那些原本能越过门槛的损失，如今从逐赔付的数据里消失了。分解的两半同时在动。正因如此，一个粗心的分析师若拿实际开出的支票去拟合一条强度曲线，然后又把它当作描述了全部损失那样去套用，就会把一张采用不同免赔额的保单严重定错价。把这两个视角分得清清楚楚，并非咬文嚼字；它关乎一个模型究竟是能跨越不同免赔额与限额通行无阻，还是会在合同条款一变就悄无声息地崩坏。

诚实面对这套拆分的局限

这套分解之所以强大，恰恰因为它做出了一些强力的简化假设，而一个诚实的建模者会时刻把手指搭在每一个假设上。我们假设各次理赔*大致相互独立*——可一场冰雹或飓风一夜之间就能击碎这个假设，一个下午砸坏上千座屋顶，于是频率与强度一齐飙升，那条整齐的乘积公式便低估了危险。我们假设频率与强度*彼此独立*——可在通胀时期，那些推高修车成本的力量，也可能微妙地改变小额理赔的报案频率。我们还假设拟合出来的分布*会持续成立*——然而拿一条曲线去拟合去年的数据，是对过去的描述，而非对未来的保证。

每当你面对一笔总成本，拒绝正面去给它建模——先把它拆成「出几次」（频率）和「每次多大」（强度）。
给每个数字都贴上量纲：频率是计数，强度是货币——并记住它们的乘积只是*期望*成本，而非全部风险。
在报出任何强度数字之前，先问一句「逐损失还是逐赔付？」——并核对数据里的免赔额和限额是否与你正在定价的那张保单相匹配。