JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

贝叶斯视角与经验贝叶斯

Bühlmann 把信度权重作为一个巧妙的猜测交到你手上;而贝叶斯则揭示:它从一开始就是那个正确答案。紧接着登场的,是让整台机器靠真实数据运转起来的诀窍——从投资组合本身把先验估计出来。

信度,原来是乔装打扮的贝叶斯定理

到现在,信度公式已经让你觉得眼熟:把投保人自己的经验跟投资组合的平均值掺在一起,给个人数据配上权重 Z、给平均值配上权重(1 减 Z)。前面几篇用两种方式为 Z 寻找理由——先是要求数据足够稳定(有限波动),再是把平方误差最小化(Bühlmann 信度)。两条路几乎都凭着工程师的直觉,落到了一个加权平均上。本篇要揭示更深一层的真相:这个掺和并不是某种近似、也不是什么巧妙的启发式做法。对一大类既宽广又重要的模型而言,它恰恰就是概率法则所要求的那个答案。信度,正是披着精算师外套的贝叶斯更新

回想概率论那一阶里的贝叶斯定理。它是一条在证据面前改变想法的规则。你先有一个先验——在看到这位投保人的数据之前,你对某个未知量所持的信念。这里的未知量,是这位投保人自己真实的风险水平——记作 θ——它对你是隐藏的,因为风险本就看不见。这个先验,是整个投资组合教给你的东西:θ 在一个又一个客户之间是如何变化的。接着,这位客户产生了一些理赔,这便是证据。贝叶斯定理机械地把先验和证据合成一个后验——也就是当你观察这个人一段时间之后,对他那个 θ 所持的、更新过的信念。

看看这个后验究竟是什么。先验以投资组合的平均值为中心——那正是每个新人起步时所用的标准费率。证据则把估计往客户自己观测到的经验上拽。后验最终落在两者之间的某处:当你的数据很多时它偏向数据,当数据很少时它偏向先验。这恰恰就是那个信度掺和。所以贝叶斯信度并不是你已经学过的东西的对手——它是那些东西的根基。你之前算出来的那个 Z,一直都是后验在悄声说话。

干净利落的共轭故事:泊松遇上伽玛

贝叶斯定理是诚实的,但一般而言它是一场算术噩梦——后验是一个积分,极少有整洁的形式。然而存在一对魔法般的搭配,能让它始终保持简单;它之所以是教科书里的范例,正是因为这是你能徒手算出来的那一个。把每位投保人的年度理赔次数建模为参数是其个人比率 θ 的泊松分布。放眼整个投资组合,这些 θ 值本身是变动的,我们用一个伽玛分布作为先验来刻画这种分散。伽玛正是为了与泊松似然相配而塑造出来的先验,二者天生一对。

下面是那个小小的奇迹。当先验是伽玛、数据是泊松时,后验又是一个伽玛——还是同一个家族,只是参数更新了。一个其形态能像这样在更新中幸存下来的先验,就叫共轭先验;而泊松数据的共轭先验,恰恰就是伽玛。这个更新简单得近乎荒唐:伽玛的两个参数常被昵称为“形状”和“速率”。要得到后验,你把观测到的理赔总数加到形状上,把观察的年数加到速率上。整个计算就这些——加法而已。

Prior belief about a driver's true rate theta:  Gamma(shape=3, rate=2)
   prior mean = shape / rate = 3 / 2 = 1.5 claims per year  (the manual rate)

Observe this driver for 4 years: 2 + 1 + 0 + 1 = 4 claims total

Posterior  = Gamma(shape + claims, rate + years)
           = Gamma(3 + 4, 2 + 4) = Gamma(7, 6)
   posterior mean = 7 / 6 = 1.167 claims per year   <- the new premium rate

It is a credibility blend:  1.167 = Z * (own rate) + (1-Z) * 1.5
   own observed rate = 4 claims / 4 years = 1.0
   1.167 = Z*1.0 + (1-Z)*1.5  ->  Z = 4 / (4 + 2) = 0.667
   Z = years / (years + rate-parameter)  <- exactly the Buhlmann form, k = 2
泊松-伽玛后验均值,就是信度保费本身:给自己的经验配上权重 Z = 年数/(年数+k),其余配给先验。没有任何近似——Bühlmann 的线性掺和,在这里就是精确的贝叶斯答案。

盯着这些算出来的数字,关键的那一击就落了下来。后验均值 1.167,字面上就是这位司机自己的比率(1.0)与标准费率(1.5)的一个加权平均,权重 Z = 0.667——而这个 Z 等于年数除以(年数加上一个常数)。那个常数不是别的,正是 Bühlmann 的信度常数 k。于是,精确的贝叶斯保费与近似的 Bühlmann 信度保费并不只是接近而已;对泊松-伽玛模型,它们就是同一个数字。原来在这个情形里,Bühlmann 那条线性捷径,根本就不是什么捷径——它就是真相。

为什么这要紧——以及它在哪里不再精确

这种一致令人安心,但我们得诚实地说清楚为什么 Bühlmann 仍然值得掌握。精确的贝叶斯后验之所以这么干净,只是因为先验和似然恰好共轭。换上另一种理赔分布、或者一个不那么配合的先验,后验就会变成一个没有闭式解的积分,逼着你要么做繁重的数值计算、要么搞模拟。Bühlmann 的高明之处在于他索取得更少:他不求完整的后验,只求对它最好的那条直线近似。这个线性估计对任何模型都只需几个矩就能算出来;而在共轭的那些情形里,它一分钱代价都不要你付,因为它恰好就是精确的。

这里还有一个更微妙的诚实之处。整套贝叶斯故事都建立在先验正确这一前提上——建立在伽玛确实刻画了风险在你客户之间如何变化这件事上。如果先验选得很糟,那么无论涌入多少数据,后验都会继承这份缺陷(不过谢天谢地,足够多的数据最终会把一个错误的先验淹没掉)。可是在实务中,一位刚入职的精算师,又能从哪里弄来一个值得信赖的先验?没人是揣着一个先验走进门的。这道鸿沟——一套优美的理论,却需要一个你手上没有的输入——恰恰就是本篇最后那个想法要去填补的。

经验贝叶斯:让数据自己把先验递给你

现在来看实务上的窘境。贝叶斯这套配方需要一个先验——对 Bühlmann 来说,那意味着两个结构性的数字:整个投资组合的总体均值,以及那个常数 k;而 k 本身又是你上一篇见过的两个量之比——过程方差的期望,与假设均值的方差。一个纯粹主义者会从外部信念里把这些供出来。可这种信念又能从哪里来呢?对一位盯着一座庞大数据库的精算师来说,诚实的回答是:从数据本身把它们估计出来。这一步——用投资组合去估计那个随后又拿来评判投资组合的先验——就叫经验贝叶斯

这个想法朴实得令人欣喜,而它正是信度直接插回统计学那一阶的接口。你有数以百计的投保人,每人都有那么几年的数据。这座数据库里,两种变异在互相推搡。在单个投保人内部,理赔逐年纯粹靠运气上下蹦跳——这种散布在所有人身上平均一下,就估计出了过程方差的期望。在不同投保人之间,那些长期的平均值是真切地有差别的,因为各人承担的风险不同——这种各人平均值的分散,就估计出了假设均值的方差。前者是噪声,后者是信号。经验贝叶斯信度把两者都直接从数据里抽出来,不需要任何先验信念。

  1. 估计投资组合均值——把所有投保人、所有年份的理赔取一个总平均。这就是新人、以及数据稀薄者会被拽向的那个标准费率。
  2. 估计过程方差的期望——把每位投保人内部逐年的散布做个平均。这就是那种纯粹的噪声,它让任何一个人的记录都成了不可靠的证人。
  3. 估计假设均值的方差——在把上面那层噪声扣掉之后,各人长期平均值彼此究竟差了多少。这才是真正的、风险与风险之间的信号。
  4. 把 k 构造为这个比值(过程方差除以均值的方差),再为每位投保人算 Z = n /(n + k),最后把他自己的平均值和投资组合均值掺起来。整台信度机器,如今全靠你早就握在手里的那些数据运转。

几句诚实告诫,以及回到统计学的那条线索

请留意这个回路收得有多么齐整。那些结构性的量,是用一种与统计学那一阶里的矩估计极为相近的办法估出来的——让观测到的散布对上理论方差,再解出来。而贝叶斯保费是一个后验均值,是概率论里贝叶斯定理的造物。信度并不是一座自成一体的怪岛;它就是概率与统计,被用到了那个让保险公司魂牵梦萦的唯一问题上——该在多大程度上信任稀薄的数据——再裹上保费与投资组合这套工作语言。你早先一级级爬上来的数学,正是通向这间屋子的那架梯子。

于是这一阶在它暗中起步的地方画上了句点。开篇那几篇立起了问题——稀薄的数据对阵宽泛的平均——并给出一个便利得几乎过了头的加权答案。贝叶斯视角解释了这个答案为何是对的;共轭的泊松-伽玛情形让你看到它精确地对;经验贝叶斯则展示了当(一如既往地)没人递给你一个先验时,该如何让整套装置照常运转。你要带走的,是一种比公式活得更久的思维习惯:永远别全然信任一个小样本,也永远别全然无视它,并让投资组合的广度,去定下两者之间的那个汇率。