贝叶斯视角与经验贝叶斯

信度，原来是乔装打扮的贝叶斯定理

到现在，信度公式已经让你觉得眼熟：把投保人自己的经验跟投资组合的平均值掺在一起，给个人数据配上权重 Z、给平均值配上权重（1 减 Z）。前面几篇用两种方式为 Z 寻找理由——先是要求数据足够稳定（有限波动），再是把平方误差最小化（Bühlmann 信度）。两条路几乎都凭着工程师的直觉，落到了一个加权平均上。本篇要揭示更深一层的真相：这个掺和并不是某种近似、也不是什么巧妙的启发式做法。对一大类既宽广又重要的模型而言，它恰恰就是概率法则所要求的那个答案。信度，正是披着精算师外套的贝叶斯更新。

回想概率论那一阶里的贝叶斯定理。它是一条在证据面前改变想法的规则。你先有一个先验——在看到这位投保人的数据之前，你对某个未知量所持的信念。这里的未知量，是这位投保人自己真实的风险水平——记作 θ——它对你是隐藏的，因为风险本就看不见。这个先验，是整个投资组合教给你的东西：θ 在一个又一个客户之间是如何变化的。接着，这位客户产生了一些理赔，这便是证据。贝叶斯定理机械地把先验和证据合成一个后验——也就是当你观察这个人一段时间之后，对他那个 θ 所持的、更新过的信念。

看看这个后验究竟是什么。先验以投资组合的平均值为中心——那正是每个新人起步时所用的标准费率。证据则把估计往客户自己观测到的经验上拽。后验最终落在两者之间的某处：当你的数据很多时它偏向数据，当数据很少时它偏向先验。这恰恰就是那个信度掺和。所以贝叶斯信度并不是你已经学过的东西的对手——它是那些东西的根基。你之前算出来的那个 Z，一直都是后验在悄声说话。

干净利落的共轭故事：泊松遇上伽玛

贝叶斯定理是诚实的，但一般而言它是一场算术噩梦——后验是一个积分，极少有整洁的形式。然而存在一对魔法般的搭配，能让它始终保持简单；它之所以是教科书里的范例，正是因为这是你能徒手算出来的那一个。把每位投保人的年度理赔次数建模为参数是其个人比率 θ 的泊松分布。放眼整个投资组合，这些 θ 值本身是变动的，我们用一个伽玛分布作为先验来刻画这种分散。伽玛正是为了与泊松似然相配而塑造出来的先验，二者天生一对。

下面是那个小小的奇迹。当先验是伽玛、数据是泊松时，后验又是一个伽玛——还是同一个家族，只是参数更新了。一个其形态能像这样在更新中幸存下来的先验，就叫共轭先验；而泊松数据的共轭先验，恰恰就是伽玛。这个更新简单得近乎荒唐：伽玛的两个参数常被昵称为“形状”和“速率”。要得到后验，你把观测到的理赔总数加到形状上，把观察的年数加到速率上。整个计算就这些——加法而已。

Prior belief about a driver's true rate theta:  Gamma(shape=3, rate=2)
   prior mean = shape / rate = 3 / 2 = 1.5 claims per year  (the manual rate)

Observe this driver for 4 years: 2 + 1 + 0 + 1 = 4 claims total

Posterior  = Gamma(shape + claims, rate + years)
           = Gamma(3 + 4, 2 + 4) = Gamma(7, 6)
   posterior mean = 7 / 6 = 1.167 claims per year   <- the new premium rate

It is a credibility blend:  1.167 = Z * (own rate) + (1-Z) * 1.5
   own observed rate = 4 claims / 4 years = 1.0
   1.167 = Z*1.0 + (1-Z)*1.5  ->  Z = 4 / (4 + 2) = 0.667
   Z = years / (years + rate-parameter)  <- exactly the Buhlmann form, k = 2

泊松-伽玛后验均值，就是信度保费本身：给自己的经验配上权重 Z = 年数/(年数+k)，其余配给先验。没有任何近似——Bühlmann 的线性掺和，在这里就是精确的贝叶斯答案。

盯着这些算出来的数字，关键的那一击就落了下来。后验均值 1.167，字面上就是这位司机自己的比率（1.0）与标准费率（1.5）的一个加权平均，权重 Z = 0.667——而这个 Z 等于年数除以（年数加上一个常数）。那个常数不是别的，正是 Bühlmann 的信度常数 k。于是，精确的贝叶斯保费与近似的 Bühlmann 信度保费并不只是接近而已；对泊松-伽玛模型，它们就是同一个数字。原来在这个情形里，Bühlmann 那条线性捷径，根本就不是什么捷径——它就是真相。

为什么这要紧——以及它在哪里不再精确

这种一致令人安心，但我们得诚实地说清楚为什么 Bühlmann 仍然值得掌握。精确的贝叶斯后验之所以这么干净，只是因为先验和似然恰好共轭。换上另一种理赔分布、或者一个不那么配合的先验，后验就会变成一个没有闭式解的积分，逼着你要么做繁重的数值计算、要么搞模拟。Bühlmann 的高明之处在于他索取得更少：他不求完整的后验，只求对它最好的那条直线近似。这个线性估计对任何模型都只需几个矩就能算出来；而在共轭的那些情形里，它一分钱代价都不要你付，因为它恰好就是精确的。

这里还有一个更微妙的诚实之处。整套贝叶斯故事都建立在先验正确这一前提上——建立在伽玛确实刻画了风险在你客户之间如何变化这件事上。如果先验选得很糟，那么无论涌入多少数据，后验都会继承这份缺陷（不过谢天谢地，足够多的数据最终会把一个错误的先验淹没掉）。可是在实务中，一位刚入职的精算师，又能从哪里弄来一个值得信赖的先验？没人是揣着一个先验走进门的。这道鸿沟——一套优美的理论，却需要一个你手上没有的输入——恰恰就是本篇最后那个想法要去填补的。

经验贝叶斯：让数据自己把先验递给你

现在来看实务上的窘境。贝叶斯这套配方需要一个先验——对 Bühlmann 来说，那意味着两个结构性的数字：整个投资组合的总体均值，以及那个常数 k；而 k 本身又是你上一篇见过的两个量之比——过程方差的期望，与假设均值的方差。一个纯粹主义者会从外部信念里把这些供出来。可这种信念又能从哪里来呢？对一位盯着一座庞大数据库的精算师来说，诚实的回答是：从数据本身把它们估计出来。这一步——用投资组合去估计那个随后又拿来评判投资组合的先验——就叫经验贝叶斯。

这个想法朴实得令人欣喜，而它正是信度直接插回统计学那一阶的接口。你有数以百计的投保人，每人都有那么几年的数据。这座数据库里，两种变异在互相推搡。在单个投保人内部，理赔逐年纯粹靠运气上下蹦跳——这种散布在所有人身上平均一下，就估计出了过程方差的期望。在不同投保人之间，那些长期的平均值是真切地有差别的，因为各人承担的风险不同——这种各人平均值的分散，就估计出了假设均值的方差。前者是噪声，后者是信号。经验贝叶斯信度把两者都直接从数据里抽出来，不需要任何先验信念。

估计投资组合均值——把所有投保人、所有年份的理赔取一个总平均。这就是新人、以及数据稀薄者会被拽向的那个标准费率。
估计过程方差的期望——把每位投保人内部逐年的散布做个平均。这就是那种纯粹的噪声，它让任何一个人的记录都成了不可靠的证人。
估计假设均值的方差——在把上面那层噪声扣掉之后，各人长期平均值彼此究竟差了多少。这才是真正的、风险与风险之间的信号。
把 k 构造为这个比值（过程方差除以均值的方差），再为每位投保人算 Z = n /（n + k），最后把他自己的平均值和投资组合均值掺起来。整台信度机器，如今全靠你早就握在手里的那些数据运转。

几句诚实告诫，以及回到统计学的那条线索

请留意这个回路收得有多么齐整。那些结构性的量，是用一种与统计学那一阶里的矩估计极为相近的办法估出来的——让观测到的散布对上理论方差，再解出来。而贝叶斯保费是一个后验均值，是概率论里贝叶斯定理的造物。信度并不是一座自成一体的怪岛；它就是概率与统计，被用到了那个让保险公司魂牵梦萦的唯一问题上——该在多大程度上信任稀薄的数据——再裹上保费与投资组合这套工作语言。你早先一级级爬上来的数学，正是通向这间屋子的那架梯子。

于是这一阶在它暗中起步的地方画上了句点。开篇那几篇立起了问题——稀薄的数据对阵宽泛的平均——并给出一个便利得几乎过了头的加权答案。贝叶斯视角解释了这个答案为何是对的；共轭的泊松-伽玛情形让你看到它精确地对；经验贝叶斯则展示了当（一如既往地）没人递给你一个先验时，该如何让整套装置照常运转。你要带走的，是一种比公式活得更久的思维习惯：永远别全然信任一个小样本，也永远别全然无视它，并让投资组合的广度，去定下两者之间的那个汇率。