累积损失：集体风险模型

从两块拼图到一个总数

本阶到目前为止的一切，都活在那条伟大的频率—强度分界线的某一侧。你学会了为理赔*多久*来一次建模——也就是频率分布，通常是一个泊松计数；又另起一摊，为每一笔理赔*有多大*建模——也就是强度分布，一个正值、重尾的金额。两个干净的小模型，安放在两个干净的小盒子里。可是，从来没有哪家保险公司为一个「频率」开过支票。它真正付出去的，是累积损失：一年里每一笔理赔加总起来的那个大总数。这个唯一的随机数，正是本篇要谈的。

把这个总数记作 S。用大白话说：S 是 N 笔单独理赔金额 X1、X2、…… 的和，其中 N 本身是随机的（你事先并不知道今年会来多少笔理赔），而每一个 Xi 也是随机的。两颗骰子同时在滚——理赔的*数目*，以及每一笔的*大小*。正是这份双重的随机性，让 S 比你迄今处理过的任何东西都更丰富，也更棘手。它是每一笔财产与意外（P&C）险保费、每一个资本数字、每一项再保险决策最终所倚靠的那个对象。

两种加总的方式：个体模型与集体模型

要建出 S 的分布，有两条诚实的路，它们回答的问题略有不同。个体风险模型逐张保单地走。对组合里 n 份合同中的每一份，它都问：*这一张*保单会出险吗？若出险，有多大？然后把这 n 个可能为零的金额加起来。对于一个保单数目固定、且大多数保单什么都不报的账册来说，这是最自然的图景——团体寿险就是经典例子：一份已知的名单，名单上每个人在这一年里要么身故、要么没有。

集体风险模型则不再盯着单张保单，而是把整个组合看作一台单一的「理赔生产机」。它不在乎是哪张保单触发的；它只问：这本*账册*总共生产了多少笔理赔 N，每一笔又有多大？这就是集体视角，而 S = X1 + … + XN 配上一个随机的 N，正是它的标志性形态。对于一个庞大且不断翻腾的组合——汽车每天都在投保和退保——这远比逐张追踪保单来得自然。你很少能确知究竟哪辆车会出事；但你能把整个车队会出多少次事，建模得相当好。

留意这笔交易。个体模型对组合的构成是精确的，却笨拙难算——要回答 n 个分开的「出不出、出多少」的问题。集体模型扔掉了保单的标签，换回来的是巨大的数学便利；正是这份便利，才有了下一节的存在。关键在于：对一本大账册而言，两者给出的 S 几乎一模一样，因为大数定律把差异抹平了。集体模型是你睁着眼睛选下的一个近似，而不是你偷工减料抄的一条近路。

复合泊松模型，及它两个干净的答案

集体模型最受宠的版本，把计数 N 取为泊松分布。这就是复合泊松模型：一个泊松数目的理赔，每一笔都是从同一个强度分布里独立抽出的。「复合」无非是指：随机数目的随机块件叠在一起——由此得到的 S 的分布，是一个复合分布。它几乎是所有财产与意外险风险理论默认的起点，而它配得上这个位置，靠的是它对许多险种既贴近现实、又出奇地易于概括。

回报来了，而它是整个领域里最漂亮的结果之一。你并不需要完整的分布，就能拿到你最想要的那两个数。总损失的均值，不过就是平均次数乘以平均每笔金额——这是直觉上一眼可见的：期望的理赔笔数，每笔花费期望的金额。方差才是那个微妙的，而正是在这里，双重随机性的魔法显露了出来。

Compound Poisson, with lambda = expected # claims:

  E[S]   = lambda * E[X]          (mean count x mean severity)
  Var[S] = lambda * E[X^2]        (count x second moment of severity)

Example: lambda = 100 claims/year
         severity mean E[X]    = 2,000
         severity E[X^2]       = 20,000,000  (so Var[X]=16,000,000)

  E[S]   = 100 x 2,000          = 200,000
  Var[S] = 100 x 20,000,000     = 2,000,000,000
  SD[S]  = sqrt(2,000,000,000)  = 44,721

两条公式扛起了实务中的大部分担子。方差用的是二阶矩 E[X^2]，而不只是强度的方差——单单这一个事实，就抓住了一点：撑起总损失波动的，是大额理赔，而不只是频繁的理赔。

在你爱上这些公式之前，有两条诚实的告诫。第一，均值和方差*并不是*分布本身。在我们的例子里 E[S] 是 200,000、标准差约 44,700——可 S 是右偏的，所以坏年份向均值上方伸出去的距离，远比好年份向下方落的要长。定价与资本，住在那条右尾里，而不在均值上。第二，这些干净的公式倚赖独立性：假设理赔不会扎堆。一场冰雹一次触发一千笔彼此相关的屋顶理赔，会把这条假设狠狠打破——这也正是为什么巨灾风险要单独建模，而不是硬塞进一个齐整的复合泊松里。

拿到整条分布：用大白话讲 Panjer 递推

当你面对的问题住在尾部时，均值和方差就不够用了：「我们的总损失会有多大，大到每两百年才超过一次？」要回答这个，你需要 S 的完整分布，而这是真正的难题——把*随机*数目的随机理赔加起来，不是哪一条公式能一举解决的和。在计算机出现之前，精算师靠中心极限定理来假装 S 是正态的，可这个近似在右尾里撒了大谎，而那恰恰是最要紧的地方。

**Panjer 递推**是那条优雅的脱身之路。它是一种精确、对计算机友好的办法，一格一格地建出 S 的分布——总损失等于 0 的概率，再到等于 1 个单位、2 个单位…… 的概率，每一步都踩着已经算出的答案往上爬。你沿着可能总损失的阶梯往上走，递推会告诉你，如何从下方那些格子精确地算出下一格的概率。不用模拟，不用正态曲线来糊弄：只是一场诚实的、机械的攀爬。

有一个值得点名的前提。这条递推只有当频率分布属于一个特殊、性情温良的家族时才管用——那就是 (a,b,0) 类，其成员恰好就是泊松、负二项与二项分布；还有一个稍大些的 (a,b,1) 类，它另外能处理一个被调整过的「零理赔概率」。这并不是一个狭窄的笼子；那些正是精算师真正在用的计数分布。这条递推还需要先把强度放到一张离散网格上——把理赔金额四舍五入到最近的单位，比如最近的 100——这会引入一个小而可控的离散化误差，作为换取那条精确递推的代价。

这条分布接下来把你带向何方

一旦你能产出 S 的分布，你就握住了风险理论大半的万能钥匙，三扇门随之打开。第一扇是定价：每张保单的期望累积损失，就是纯保费——在加上任何费用或利润附加之前，那份保障在精算上公允的成本。第二扇是资本：从右尾上读出一个高分位数——你每两百年才会超过一次的那个损失——你就得到了一个风险价值（VaR）。把那一点之外的一切取平均，你就得到那个更温和、把整条尾巴看得更全的尾部风险价值（TVaR），它正是现代经济资本的基础。

在这扇门口要留心一个著名的误解：VaR 告诉你那个每两百年突破一次的*门槛*，却对*一旦突破之后*会糟到什么地步只字不提。一场刚好越过门槛的风暴，和一场大上十倍的风暴，在 VaR 眼里长得一模一样——它无视那条远尾。正是这个盲点，使得对突破本身的严重程度取平均的 TVaR，在偿付能力监管框架里稳步取代了它。还有一句贯穿整个本阶的提醒：从 S 算出的准备金，并不是一笔搁着等花的闲钱——它是一份关于尚未完全显露的损失、经过度量的承诺。

第三扇门，径直通往阶梯接下来的几级。把保费流入减去损失流出的滚动余额沿时间追踪下去，S 就动了起来：你得到了破产理论里的盈余过程，去问保险公司的盈余有多大可能在某一刻跌破零。而当你一开口问「我该多大程度上信任*这本*组合自己的损失经验、相对于更广阔的市场？」时，你就已经踏进了可信度问题——把一个群体的数据与更宽泛的信息糅合起来，这正是你紧接着会遇见的念头。集体风险模型不是一个终点；它是定价、资本、破产与可信度全都交汇的那个路口。