信度问题 — JOVANA Education

一张真实的办公桌，一个真实的两难

你正在为一家面包房定工伤补偿险的价。在你那本涵盖数千家雇主的整体业务里，平均损失大约是每名员工每年 1,000 美元——这个数字你信得过，因为它建立在一大堆数据之上。可这家面包房跟着你才三年，只雇了寥寥数人，而在这三年里，它自己的损失平均下来只有每名员工 400 美元。那么明年的价该倚重哪一边：面包房自己那令人愉快的 400 美元，还是整本业务那冷静的 1,000 美元？这一个问题，就是本阶的全部内容，它有一个名字——信度问题。

有两种本能在诱惑你，而两者都错。第一种说：「这是*他们*的数据，就照他们自己的 400 美元收。」可是寥寥数人的三年实在太薄了——回想估计那几篇所讲的，一个估计本身就是一个随机变量，而小样本会让它剧烈地跳动。要是抽签时运气稍差一点，那 400 美元很容易就变成 1,300 美元。第二种本能说：「别理他们，所有人都照整本业务的 1,000 美元收。」可这就扔掉了一个货真价实的信号——也许这家面包房当真就比平均水平更安全，而假装不是这样，既不公平，又等于悄悄地请它那些经营得更好的同行另寻他家。

拒绝那个虚假的选择：去掺

从那两种糟糕本能里脱身的办法简单得几乎让人不好意思，可它偏偏是精算师所拥有的最优美的念头之一。别选。去掺。 把这个群体自己那个数字，和那条更宽泛的平均线，取一个加权平均，再让一个权重——叫它 Z，一个介于 0 和 1 之间的数——来决定信任该如何分配。这就是信度加权估计，它的样子值得记牢，因为本阶里每一个模型，都不过是配出 Z 的一种不同方子。

Estimate = Z * (your own data) + (1 - Z) * (the prior/book average)

Bakery example, book = 1000, own data = 400:
  Z = 0    -> 0*400 + 1*1000 = 1000   (ignore the bakery entirely)
  Z = 1    -> 1*400 + 0*1000 =  400   (trust the bakery entirely)
  Z = 0.25 -> 0.25*400 + 0.75*1000 = 850   (a little credit, mostly the book)
  Z = 0.75 -> 0.75*400 + 0.25*1000 = 550   (mostly the bakery)

贯穿整阶的那一个公式。Z 让答案在整本业务的平均值与群体自己的数据之间滑动；剩下唯一真正的问题，是 Z 该取多少。

请留意这一掺为你买到了什么。当 Z = 0.25 时，面包房缴 850 美元——低于整本业务的 1,000 美元，于是它那三个好年头得到了奖赏，却又远没有低到那个鲁莽的 400 美元，因为那个数字未必经得起一段幸运期消退后的考验。这个估计被拉向整本业务的平均值，也就是被「收缩」了；而群体自己的数据越小、越嘈杂，它就被拉得越狠。这种拉扯不是含糊其辞，也不是骑墙对冲；我们将会看到，它恰恰是统计上最优的做法，是你在还不知道那 400 美元究竟是本事还是运气时，理性地付出的代价。整个信度加权估计，就是这样一种有纪律的、部分信任的行为。

那么 Z 该取决于什么？

如今一切有意思的东西都住在 Z 里头，而在任何公式登场之前，你的直觉就已经能列出它该对什么作出反应了。有三股压力，把 Z 往上推向 1（信群体）、或往下推向 0（信整本业务）。把每一股都好好体会一遍——等下几篇里公式来了，它们无非就是把这些本能给精确化罢了。

这个群体有多少数据？暴露量越大——更多员工、更多年头、更多理赔——意味着群体自己的平均值是个更锋利、更不爱跳的估计，于是 Z 该往 1 升。一家观察了三十年的面包房，理应比观察了三年的得到多得多的信任。这正是大数定律干着它一贯干的事：对更多独立观测取平均，结果就会安定下来。
单次观测有多嘈杂？如果这一类业务的损失年复一年地剧烈摆动——许许多多小理赔里夹着寥寥几笔巨额理赔——那么哪怕攒下一段像样的数据也靠不住，于是 Z 该被压低。每个数据点越嘈杂，你就得攒得越多，才肯相信那个平均值。这跟估计那一阶里掌管标准误的、那种「按样本量平方根」而来的谦卑，是同一回事。
各群体彼此之间有多不同？如果你这本业务里每一家面包房当真都一个样，那么这一家滑到 400 美元，几乎肯定只是噪声，你就该死死倚重那个共同的 1,000 美元——Z 接近 0。可如果各家面包房在底层风险性上确实差得很大，那么一个偏低的数字，就更可能反映出一种真实、持久、值得据以收费的差异，于是 Z 该上升。整本业务的平均值，其信息量有多大，全取决于各群体彼此有多相似。

前两股压力关乎群体自己的数据——它的数量，与它内在的噪声。第三股更微妙，正是它把你即将遇见的两大流派区分开来。最古老的那条路，有限波动信度，只看前两股：它问的是这个群体需要多少数据，才能让自己的数字稳到足以倚重，而把第三股压力完全撇在一边。随后那条更深的路，Bühlmann 信度，则把三股压力一并编织进一个有原则的 Z 里。这条从一条实用的经验法则，走到一套能解释「为什么」的理论的进程，正是贯穿整阶的那道弧线。

那个「先验」到底是什么

公式里有一个词值得仔细对待：那个 (1 − Z) 的权重，骑在先验之上——也就是在你看这个群体自己的数据*之前*，你对它所持的信念。在我们的面包房例子里，它是那个全业务范围的 1,000 美元；但所谓先验，是指假如你对这家特定面包房一无所知、只知道它是一家面包房，你会诚实地收多少。它可能是专指所有面包房的平均，或所有餐饮服务类雇主的平均，又或是整本业务的总平均。挑对那个用来比较的群体，是一桩实打实的判断，而非天上掉下来的现成答案；一个马虎的先验，会悄无声息地毒害每一个掺出来的答案。

这一掺里头还藏着一种优雅的对称。当你完全信任群体（Z = 1）时，先验消失，你做的就是纯粹的经验费率。当你完全不信它（Z = 0）时，你自己的数据消失，你做的就是依据先验的纯粹手册费率。每一个真实的答案，都落在这两个极端之间的连续谱上——信度理论与其说是发明了一种新的估计，不如说是画出了那条诚实地连接两种旧估计的线，并告诉你：你的数据，挣到了站在这条线上哪个位置的资格。

诚实的边界，以及接下来的路

也要提防两种常见的误读。Z 不是「这个群体的数字是对的」的概率——它是一个权重，一个最优的混合比例，仅此而已。而一个偏低的 Z，也不是惩罚，更不是「这家面包房暗地里很危险」的判决；它无非是在承认：三年，还无法盖过数千家雇主所累积的证据。只要用得诚实，信度便是少有的那种「天生就公平」的工具：它给一个群体在自家价格上的话语权，恰好等于它的数据所挣到的那么多，不多，也不少。

如今你可以把整阶浓缩成一句话：答案就是 Z 乘以你的数据，加上 (1 − Z) 乘以先验，而剩下唯一的手艺，是把 Z 选好。下一篇会做出第一次认真的尝试——有限波动信度，它问的是那个直白得让人卸下防备的问题：「多少数据才*足以*被完全采信？」并围绕它搭起那条著名的平方根法则。再往后，Bühlmann 的 Z 会给出那个深刻而最优的答案，悄悄地把其余几种都当作特例收纳进去。这一路都把那家面包房记在心里；前方每一个公式，都不过是为了把它的价格定得公平，而打磨出的一件更锋利的工具。