JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

累积损失:集体风险模型

你已经分别建好了模型:理赔多久来一次、每一笔有多大。现在,把它们粘合成那个真正让保险公司彻夜难眠的数字——这一年的总损失。来认识复合泊松模型、Panjer 递推,以及从这里通往可信度理论与破产理论的那座桥。

从两块拼图到一个总数

本阶到目前为止的一切,都活在那条伟大的频率—强度分界线的某一侧。你学会了为理赔*多久*来一次建模——也就是频率分布,通常是一个泊松计数;又另起一摊,为每一笔理赔*有多大*建模——也就是强度分布,一个正值、重尾的金额。两个干净的小模型,安放在两个干净的小盒子里。可是,从来没有哪家保险公司为一个「频率」开过支票。它真正付出去的,是累积损失:一年里每一笔理赔加总起来的那个大总数。这个唯一的随机数,正是本篇要谈的。

把这个总数记作 S。用大白话说:S 是 N 笔单独理赔金额 X1、X2、…… 的和,其中 N 本身是随机的(你事先并不知道今年会来多少笔理赔),而每一个 Xi 也是随机的。两颗骰子同时在滚——理赔的*数目*,以及每一笔的*大小*。正是这份双重的随机性,让 S 比你迄今处理过的任何东西都更丰富,也更棘手。它是每一笔财产与意外(P&C)险保费、每一个资本数字、每一项再保险决策最终所倚靠的那个对象。

两种加总的方式:个体模型与集体模型

要建出 S 的分布,有两条诚实的路,它们回答的问题略有不同。个体风险模型逐张保单地走。对组合里 n 份合同中的每一份,它都问:*这一张*保单会出险吗?若出险,有多大?然后把这 n 个可能为零的金额加起来。对于一个保单数目固定、且大多数保单什么都不报的账册来说,这是最自然的图景——团体寿险就是经典例子:一份已知的名单,名单上每个人在这一年里要么身故、要么没有。

集体风险模型则不再盯着单张保单,而是把整个组合看作一台单一的「理赔生产机」。它不在乎是哪张保单触发的;它只问:这本*账册*总共生产了多少笔理赔 N,每一笔又有多大?这就是集体视角,而 S = X1 + … + XN 配上一个随机的 N,正是它的标志性形态。对于一个庞大且不断翻腾的组合——汽车每天都在投保和退保——这远比逐张追踪保单来得自然。你很少能确知究竟哪辆车会出事;但你能把整个车队会出多少次事,建模得相当好。

留意这笔交易。个体模型对组合的构成是精确的,却笨拙难算——要回答 n 个分开的「出不出、出多少」的问题。集体模型扔掉了保单的标签,换回来的是巨大的数学便利;正是这份便利,才有了下一节的存在。关键在于:对一本大账册而言,两者给出的 S 几乎一模一样,因为大数定律把差异抹平了。集体模型是你睁着眼睛选下的一个近似,而不是你偷工减料抄的一条近路。

复合泊松模型,及它两个干净的答案

集体模型最受宠的版本,把计数 N 取为泊松分布。这就是复合泊松模型:一个泊松数目的理赔,每一笔都是从同一个强度分布里独立抽出的。「复合」无非是指:随机数目的随机块件叠在一起——由此得到的 S 的分布,是一个复合分布。它几乎是所有财产与意外险风险理论默认的起点,而它配得上这个位置,靠的是它对许多险种既贴近现实、又出奇地易于概括。

回报来了,而它是整个领域里最漂亮的结果之一。你并不需要完整的分布,就能拿到你最想要的那两个数。总损失的均值,不过就是平均次数乘以平均每笔金额——这是直觉上一眼可见的:期望的理赔笔数,每笔花费期望的金额。方差才是那个微妙的,而正是在这里,双重随机性的魔法显露了出来。

Compound Poisson, with lambda = expected # claims:

  E[S]   = lambda * E[X]          (mean count x mean severity)
  Var[S] = lambda * E[X^2]        (count x second moment of severity)

Example: lambda = 100 claims/year
         severity mean E[X]    = 2,000
         severity E[X^2]       = 20,000,000  (so Var[X]=16,000,000)

  E[S]   = 100 x 2,000          = 200,000
  Var[S] = 100 x 20,000,000     = 2,000,000,000
  SD[S]  = sqrt(2,000,000,000)  = 44,721
两条公式扛起了实务中的大部分担子。方差用的是二阶矩 E[X^2],而不只是强度的方差——单单这一个事实,就抓住了一点:撑起总损失波动的,是大额理赔,而不只是频繁的理赔。

在你爱上这些公式之前,有两条诚实的告诫。第一,均值和方差*并不是*分布本身。在我们的例子里 E[S] 是 200,000、标准差约 44,700——可 S 是右偏的,所以坏年份向均值上方伸出去的距离,远比好年份向下方落的要长。定价与资本,住在那条右尾里,而不在均值上。第二,这些干净的公式倚赖独立性:假设理赔不会扎堆。一场冰雹一次触发一千笔彼此相关的屋顶理赔,会把这条假设狠狠打破——这也正是为什么巨灾风险要单独建模,而不是硬塞进一个齐整的复合泊松里。

拿到整条分布:用大白话讲 Panjer 递推

当你面对的问题住在尾部时,均值和方差就不够用了:「我们的总损失会有多大,大到每两百年才超过一次?」要回答这个,你需要 S 的完整分布,而这是真正的难题——把*随机*数目的随机理赔加起来,不是哪一条公式能一举解决的和。在计算机出现之前,精算师靠中心极限定理来假装 S 是正态的,可这个近似在右尾里撒了大谎,而那恰恰是最要紧的地方。

**Panjer 递推**是那条优雅的脱身之路。它是一种精确、对计算机友好的办法,一格一格地建出 S 的分布——总损失等于 0 的概率,再到等于 1 个单位、2 个单位…… 的概率,每一步都踩着已经算出的答案往上爬。你沿着可能总损失的阶梯往上走,递推会告诉你,如何从下方那些格子精确地算出下一格的概率。不用模拟,不用正态曲线来糊弄:只是一场诚实的、机械的攀爬。

有一个值得点名的前提。这条递推只有当频率分布属于一个特殊、性情温良的家族时才管用——那就是 (a,b,0) 类,其成员恰好就是泊松、负二项与二项分布;还有一个稍大些的 (a,b,1) 类,它另外能处理一个被调整过的「零理赔概率」。这并不是一个狭窄的笼子;那些正是精算师真正在用的计数分布。这条递推还需要先把强度放到一张离散网格上——把理赔金额四舍五入到最近的单位,比如最近的 100——这会引入一个小而可控的离散化误差,作为换取那条精确递推的代价。

这条分布接下来把你带向何方

一旦你能产出 S 的分布,你就握住了风险理论大半的万能钥匙,三扇门随之打开。第一扇是定价:每张保单的期望累积损失,就是纯保费——在加上任何费用或利润附加之前,那份保障在精算上公允的成本。第二扇是资本:从右尾上读出一个高分位数——你每两百年才会超过一次的那个损失——你就得到了一个风险价值(VaR)。把那一点之外的一切取平均,你就得到那个更温和、把整条尾巴看得更全的尾部风险价值(TVaR),它正是现代经济资本的基础。

在这扇门口要留心一个著名的误解:VaR 告诉你那个每两百年突破一次的*门槛*,却对*一旦突破之后*会糟到什么地步只字不提。一场刚好越过门槛的风暴,和一场大上十倍的风暴,在 VaR 眼里长得一模一样——它无视那条远尾。正是这个盲点,使得对突破本身的严重程度取平均的 TVaR,在偿付能力监管框架里稳步取代了它。还有一句贯穿整个本阶的提醒:从 S 算出的准备金,并不是一笔搁着等花的闲钱——它是一份关于尚未完全显露的损失、经过度量的承诺。

第三扇门,径直通往阶梯接下来的几级。把保费流入减去损失流出的滚动余额沿时间追踪下去,S 就动了起来:你得到了破产理论里的盈余过程,去问保险公司的盈余有多大可能在某一刻跌破零。而当你一开口问「我该多大程度上信任*这本*组合自己的损失经验、相对于更广阔的市场?」时,你就已经踏进了可信度问题——把一个群体的数据与更宽泛的信息糅合起来,这正是你紧接着会遇见的念头。集体风险模型不是一个终点;它是定价、资本、破产与可信度全都交汇的那个路口。