频率模型与 (a,b,0) 分布类

频率为何值得单独建模

上一篇你见到了非寿险的统领范式：频率—严重度分解。理赔总成本干净地一分为二——理赔*多久来一次*，以及*每次有多大*。本篇把镜头一路推近，对准前一半——频率，也就是一张保单或一整组保单在某段时间里产生理赔次数的那个随机计数。严重度留待日后，我们就把这个计数本身当作一个取整数值 0、1、2、3、… 的随机变量来端详。

为什么非要把次数单独拎出来建模？因为驱动*多久一次*的那些力量，往往和驱动*每次多大*的力量大不相同。一个酷寒的冬天、一条新的安全法规、一场反欺诈整顿，都会改变理赔频率，却丝毫不动单笔理赔的金额；而医疗通胀恰好反过来。单独为频率建模——也就是一个理赔频率分布——能让你把每一股力量孤立开来观察、估计、压力测试，再把它们重新合成为总量。几乎全部的定价、准备金评估与风险理论，都筑在这一份纪律之上。

三个计数分布

精算师整套计数工具箱，归根结底就是三个有名有姓的分布，各讲一个略有差异的故事。二项分布数的是*固定*次数独立试验中的成功数——当存在一个硬上限时它最自然，比如"我那 40 辆卡车，每辆今年要么出事、要么没事"。计数永远不会超过试验次数，而尤为关键的是，它的方差*小于*均值。最后这一点，日后会大有讲究。

泊松分布是主力——泊松频率模型是理赔次数默认的首选。它的故事是*大池子里的稀有事件*：保单众多，每张单独看都不大可能报赔，事件以一个稳定的平均速率 λ 独立地零星到来。泊松的招牌性质，是它的方差*等于*均值——二者都是 λ。于是一组平均每年 200 笔理赔、用泊松建模的业务，便被默认假定为围绕 200 抖动、方差也是 200（标准差约 14）。它干净，只有一个参数，而且加总起来妙极了：把两组独立的泊松业务合在一起，总数仍是泊松，速率相加即可。

负二项分布，是当泊松显得太过温顺时你会伸手去拿的那一个。负二项频率模型有*两个*参数，这换来一个总是*大于*均值的方差。它背后有两个等价的故事：在固定成功次数到来之前数失败次数；以及——对精算师有用得多的——一个其速率 λ 本身就是随机、并随保单而异的泊松。记住第二个故事，它正是本篇最重要那个念头的钥匙。

一条优雅的法则：(a,b,0) 分布类

下面这个漂亮的意外，把三者系在了一起。这三个分布——二项、泊松、负二项——以及*仅*这三个（外加几何分布，它是负二项的一个特例）服从同一条简单的递推法则。恰好出现 k 笔理赔的概率，与出现 k − 1 笔的概率之比，是 1/k 的一条*直线*。把这个比值写成 a + b/k，你就定义出了整个(a,b,0) 分布类。那个"0"，标记着递推是从零笔理赔的概率起步的。

(a,b,0) class:   P(k) / P(k-1) = a + b/k,   for k = 1, 2, 3, ...

  Poisson(lambda):            a = 0,            b = lambda
  Binomial(n, q):             a = -q/(1-q),     b = (n+1)*q/(1-q)   (a < 0)
  Negative binomial(r, beta): a = beta/(1+beta), b = (r-1)*beta/(1+beta)   (a > 0)

  sign of a tells the whole story:  a<0 binomial,  a=0 Poisson,  a>0 neg. binomial

三个分布，一条递推式。单单一个数 a——负、零、或正——就决定了你落在三者中的哪一个，而且（恰巧）也决定了计数相对均值是欠离散、恰好相等、还是过度离散。

这不只是整齐的记账——它是一件真能干活的工具。因为每一个 (a,b,0) 分布都共享同一副递推骨架，一套算法就能为其中任意一个生成整张概率表：从 P(0) 起步，再一步一步往上推。同一条递推，正是 Panjer 递推背后的引擎——它（在后面的篇章里）让你无须模拟，就能精确算出*总*理赔成本的分布。所以，把 (a,b,0) 这一族学透，是一笔会两度回本的投资。

把零点掰弯：(a,b,1) 分布类

真实的理赔数据有一个 (a,b,0) 分布类难以照单全收的别扭习性：报*零*笔理赔的保单数目，常常和这些分布预测的相去甚远。绝大多数保单根本从不报赔，于是零点处那根尖峰可能高得多——或者，在那种只在理赔*之后*才采集的数据里，又矮得多——超出了递推式所愿意给的。补救之道，是(a,b,1) 分布类：对 k = 2、3、4、… 保留一模一样的 a + b/k 递推，但*在零点处把它松开*，让零笔理赔的概率自由设定。那个"1"，示意递推如今从 k = 1 而非 k = 0 起步。

这点小小的自由，解锁了两个真正有用的形状。零截断分布把零笔的概率硬压到恰好为零——这对那种你只看得到*确实*报过赔的保单的数据再合适不过（你看不到金额为零的理赔）。零修正分布，也就是更宽泛的零修正情形，则让你把零笔概率往上或往下调到数据所显示的任意值，再把其余部分重新缩放，使总和仍为一。有了它，你就能为譬如这样一组车险业务建模：92% 的司机从不报赔，而报赔的那些则遵循负二项的格局。

过度离散：当理赔扎堆

现在来听本篇最要紧的一声诚实警告。泊松那条整齐的"方差等于均值"假设，是一个*建模选择*，而非自然律——而真实的理赔次数动辄就违背它。远比想象中更常见的是，观测到的方差大于均值。这就是过度离散，在非寿险数据里它是常态，而非例外。当你撞见它，泊松就在对你撒谎：它会告诉你这个计数比真实情形更平静、更好预测。

过度离散为何会发生？两个寻常的缘由。其一，异质性：投保人并非千篇一律——谨慎的司机和鲁莽的司机都在这本业务里，于是真实速率 λ 因保单而异。若你把许多不同速率的泊松掺到一起，这个混合就是过度离散的，而且——回想前面那第二个故事——它最终现形为一个*负二项*。其二，传染或扎堆：一场冰雹一口气报上一千笔理赔，于是理赔并不像泊松所要求的那样相互独立。无论哪一种，计数的散布都会膨胀，越过它的均值。

后果既具体又昂贵。定价、尤其是资本，依赖于结果的*散布*，而不只是平均值。若真实方差是你那个泊松所设定的两倍，那么出现极坏年份的概率，远高于模型所承认的——而你为那个坏年份留存的资本，便太单薄了。这正是为什么负二项是从业者频繁采用的默认选择：它用那个额外的参数，换得让方差诚实发声的权利。要记住的纪律很简单——在信任一个泊松之前，永远拿方差去和均值核对一遍。频率模型是对世界的一种选定的描述，绝非世界本身；过度离散，正是世界在提醒你二者之间的差别。