现代定价：广义线性模型与费率方案

为什么单因素表格会悄悄重复计数

在上一篇里，你用老派的方法搭出了一份分类费率方案：把每个费率变量轮流拿出来，按它的各个级别把损失经验排开，再读出一个相对度——年轻司机是基准的 1.4 倍，跑车是基准的 1.3 倍，依此类推。这叫单因素分析，因为你一次只顺着一个变量往下看。它直观，而且数十年来就是这门手艺的全部。可它也有一个藏在明面上的毛病。

毛病在于费率变量彼此重叠。假设年轻司机确实更容易出事——可年轻司机偏偏又格外爱开快车。当你做年龄表时，你归咎于年轻的那些高损失，有一部分其实是他们恰好拥有的那些车造成的；当你做车型表时，你归咎于跑车的那些高损失，又有一部分是恰好拥有它们的年轻人造成的。每一张单因素表，都吸走了另一张表里的一部分效应。对一个年轻司机，按年龄收 1.4、再按车型收 1.3，你就把同一份底层的“坏”计了两遍——这位客户被多收了钱，而一个精明的对手会把他挖走。

这不过是费率变量之间的相关性，正是你在统计里遇过的那个小妖怪，如今换了一身定价的戏服。单因素表看不见它，因为它从不把两个变量放在一起看。你真正想要的，是在固定车型的前提下年龄的效应、以及在固定年龄的前提下车型的效应——也就是在其他变量都先说完话之后，每个变量真正的那份贡献。

广义线性模型一次解开所有变量

解决这个问题的工具，你早就见过了。在统计那一阶，你认识了广义线性模型：它就是回归那套各因素的加权求和，配上一个贴合保险数据的分布、和一个把每个因子变成乘数的对数连接。它用于定价时，有一项不动声色的超能力。GLM 是同时估计所有变量的相对度的，于是每一个系数，自动就是“在模型已经把其他所有变量都考虑进去之后”那个变量的效应。重复计数随之溶解；留下来的，是每个因素对风险真正的、边际的那份贡献。

具体来说，现代的做法是在同一份多变量数据上拟合两个 GLM，呼应那个频率—强度拆分：一个泊松模型管理赔多久来一次，一个伽马模型管它有多大。每个变量在每个模型里都得到一份公平的相对度，与它的邻居们彼此解开。把频率预测乘以强度预测，你就为风险特征的任意一种组合算出了一个纯保费——也就是期望损失成本——而不只是那些你恰好观测得很多的单元。

从模型到费率方案：损失成本乘数

GLM 给你的是纯保费——也就是期望损失——可客户账单上的钱不只是损失。回想那个基本保险等式：保费还必须支付各项费用和一份公平的利润。从模型给出的损失成本通向最终价格的那座桥，就是损失成本乘数（LCM）。它是一个数，把纯保费向上放大，以覆盖损失之外的一切；如此一来，搭模型的精算师和往上加费用的公司，便能各自独立地工作。

这点算术不大，却值得一看。假设固定费用占保费的 10%，佣金和其他变动费用再占 15%，公司还想要 5% 的承保利润。那么损失就必须塞进每一块保费里剩下的 70%——这 70% 就是允许损失率。损失成本乘数，无非就是 1 除以这个比例，1 ÷ 0.70 ≈ 1.43。每一块钱的建模损失成本，都会变成大约 1.43 元的保费。

Permissible loss ratio = 1 - 0.10 - 0.15 - 0.05 = 0.70
Loss-cost multiplier   = 1 / 0.70           = 1.4286

RATING ALGORITHM (one policy)
  Base loss cost                       300
  x  Age relativity   (driver 22)    x 1.35
  x  Vehicle relativity (sports)     x 1.20
  x  Territory relativity (urban)    x 1.10
  = Modelled loss cost  300*1.35*1.20*1.10 = 534.6
  x  Loss-cost multiplier            x 1.4286
  = Indicated premium                = 763.7
  +  Policy fee                      + 25
  = Final premium                    = 788.7

费率算法就是这条精确、可复现的序列：从一个基准出发，乘上这个风险的各项 GLM 相对度，用损失成本乘数向上放大，再加上固定费用。任何人重跑一遍都会得到同一个数——正是这份可复现性，让一个价格得以申报。

这条序列就是费率算法：那一组精确、有序的乘法、加法、封顶与下限，把一个基准费率变成客户续保通知上的那个数字。GLM 提供各项相对度；费率算法则是把它们组装起来的方式，再加上 GLM 不去建模的那些部分——固定保单费、为更高保额准备的增额限额因子、免赔额折扣，以及“任何保费都不得低于某个底线”的规则。整份方案——每一个基准费率、每一个因子、每一条规则——就是保险公司向监管机构申报的东西。

公平、充足、且可解释

一份更锋利的费率方案，不会自动就是更好的方案。有三条标准伴随着每一个费率，你也已经认识它们了：它必须充足（足以赔付并维持偿付能力）、不过高（没有敲竹杠）、且不构成不公平歧视。最微妙的是最后这一句——费率公平并不意味着对所有人收一样的钱，而是意味着价格的差异必须建立在真实的、被允许的成本差异之上。一个 GLM，因为跑车确实更贵保而对它多收钱，是公平的；而若因为一个法律禁止的变量、或一个仅仅替代了被禁变量的变量而多收钱，就不公平。

正是在这里，替代变量问题咬了上来。把种族这样一个被禁的变量从模型里删掉，你未必就移除了它的影响——一个被允许的变量，比如邮区或职业，可能悄悄替它把这份影响带了进来，只因这份数据生成于一个这些东西彼此相关的社会里。一个模型，可以在数学上完全客观，却仍旧编入了它从数据中学来的某段历史不公。这恰恰就是统计那一阶里那条数据质量与伦理的警告，如今系上了真金白银和活生生的人。一个变量究竟是公平的成因、还是不公平的替代，这个问题的归属是精算师，而不是算法。

透明，是入场的门票。在大多数市场，保险公司必须通过费率与条款申报把方案递上去，并向监管者为之辩护——而监管者可以驳回它。这正是为什么可解释的 GLM、而非准确度更高的黑箱，至今仍是申报费率的行业主力。监管者可以读一张相对度表，并追问为什么 25 岁以下的司机要付 1.35；却没有人能用同样的方式去盘问一个神经网络。你解释不了的准确度，或者藏着一个不公平替代的准确度，是你用不了的准确度。

这场军备竞赛，以及精算师立于何处

这一切背后有一份竞争优势，值得把它直说出来。如果你的对手用多变量定价、而你用单因素定价，他们就能识别出你正在向哪些客户多收钱，并报给那些人更低的价；同时把那些你正在少收钱的客户留给你。日子久了，你留下的都是坏风险、失去的都是好风险——这正是从最最开头那一阶就出现的逆向选择漩涡，如今由“谁的模型更好”所驱动。细分，曾经是一种精修，如今已成了一项生存技能。

至此，「费率厘定与定价」这一阶就收尾了。你从那个基本保险等式出发——保费 = 损失 + 费用 + 利润——在通往总体指示的纯保费法与损失率法这两条路之间做了选择，把原始历史经过趋势化与进展处理、变成对未来的一份公平看法，再按类别把费率拆开，而如今你已看到，现代定价如何把这些类别重新编织成一份连贯、多变量、可申报的方案。通回统计的那条线索如今已清晰无误：费率厘定就是被职业判断所治理的、应用化了的概率与回归。接下来，阶梯将转向再保险——一家保险公司在为自己的风险定完价之后，如何把其中一部分风险再传递出去。