为什么单因素表格会悄悄重复计数
在上一篇里,你用老派的方法搭出了一份分类费率方案:把每个费率变量轮流拿出来,按它的各个级别把损失经验排开,再读出一个相对度——年轻司机是基准的 1.4 倍,跑车是基准的 1.3 倍,依此类推。这叫单因素分析,因为你一次只顺着一个变量往下看。它直观,而且数十年来就是这门手艺的全部。可它也有一个藏在明面上的毛病。
毛病在于费率变量彼此重叠。假设年轻司机确实更容易出事——可年轻司机偏偏又格外爱开快车。当你做年龄表时,你归咎于年轻的那些高损失,有一部分其实是他们恰好拥有的那些车造成的;当你做车型表时,你归咎于跑车的那些高损失,又有一部分是恰好拥有它们的年轻人造成的。每一张单因素表,都吸走了另一张表里的一部分效应。对一个年轻司机,按年龄收 1.4、再按车型收 1.3,你就把同一份底层的“坏”计了两遍——这位客户被多收了钱,而一个精明的对手会把他挖走。
这不过是费率变量之间的相关性,正是你在统计里遇过的那个小妖怪,如今换了一身定价的戏服。单因素表看不见它,因为它从不把两个变量放在一起看。你真正想要的,是在固定车型的前提下年龄的效应、以及在固定年龄的前提下车型的效应——也就是在其他变量都先说完话之后,每个变量真正的那份贡献。
广义线性模型一次解开所有变量
解决这个问题的工具,你早就见过了。在统计那一阶,你认识了广义线性模型:它就是回归那套各因素的加权求和,配上一个贴合保险数据的分布、和一个把每个因子变成乘数的对数连接。它用于定价时,有一项不动声色的超能力。GLM 是同时估计所有变量的相对度的,于是每一个系数,自动就是“在模型已经把其他所有变量都考虑进去之后”那个变量的效应。重复计数随之溶解;留下来的,是每个因素对风险真正的、边际的那份贡献。
具体来说,现代的做法是在同一份多变量数据上拟合两个 GLM,呼应那个频率—强度拆分:一个泊松模型管理赔多久来一次,一个伽马模型管它有多大。每个变量在每个模型里都得到一份公平的相对度,与它的邻居们彼此解开。把频率预测乘以强度预测,你就为风险特征的任意一种组合算出了一个纯保费——也就是期望损失成本——而不只是那些你恰好观测得很多的单元。
从模型到费率方案:损失成本乘数
GLM 给你的是纯保费——也就是期望损失——可客户账单上的钱不只是损失。回想那个基本保险等式:保费还必须支付各项费用和一份公平的利润。从模型给出的损失成本通向最终价格的那座桥,就是损失成本乘数(LCM)。它是一个数,把纯保费向上放大,以覆盖损失之外的一切;如此一来,搭模型的精算师和往上加费用的公司,便能各自独立地工作。
这点算术不大,却值得一看。假设固定费用占保费的 10%,佣金和其他变动费用再占 15%,公司还想要 5% 的承保利润。那么损失就必须塞进每一块保费里剩下的 70%——这 70% 就是允许损失率。损失成本乘数,无非就是 1 除以这个比例,1 ÷ 0.70 ≈ 1.43。每一块钱的建模损失成本,都会变成大约 1.43 元的保费。
Permissible loss ratio = 1 - 0.10 - 0.15 - 0.05 = 0.70 Loss-cost multiplier = 1 / 0.70 = 1.4286 RATING ALGORITHM (one policy) Base loss cost 300 x Age relativity (driver 22) x 1.35 x Vehicle relativity (sports) x 1.20 x Territory relativity (urban) x 1.10 = Modelled loss cost 300*1.35*1.20*1.10 = 534.6 x Loss-cost multiplier x 1.4286 = Indicated premium = 763.7 + Policy fee + 25 = Final premium = 788.7
这条序列就是费率算法:那一组精确、有序的乘法、加法、封顶与下限,把一个基准费率变成客户续保通知上的那个数字。GLM 提供各项相对度;费率算法则是把它们组装起来的方式,再加上 GLM 不去建模的那些部分——固定保单费、为更高保额准备的增额限额因子、免赔额折扣,以及“任何保费都不得低于某个底线”的规则。整份方案——每一个基准费率、每一个因子、每一条规则——就是保险公司向监管机构申报的东西。
公平、充足、且可解释
一份更锋利的费率方案,不会自动就是更好的方案。有三条标准伴随着每一个费率,你也已经认识它们了:它必须充足(足以赔付并维持偿付能力)、不过高(没有敲竹杠)、且不构成不公平歧视。最微妙的是最后这一句——费率公平并不意味着对所有人收一样的钱,而是意味着价格的差异必须建立在真实的、被允许的成本差异之上。一个 GLM,因为跑车确实更贵保而对它多收钱,是公平的;而若因为一个法律禁止的变量、或一个仅仅替代了被禁变量的变量而多收钱,就不公平。
正是在这里,替代变量问题咬了上来。把种族这样一个被禁的变量从模型里删掉,你未必就移除了它的影响——一个被允许的变量,比如邮区或职业,可能悄悄替它把这份影响带了进来,只因这份数据生成于一个这些东西彼此相关的社会里。一个模型,可以在数学上完全客观,却仍旧编入了它从数据中学来的某段历史不公。这恰恰就是统计那一阶里那条数据质量与伦理的警告,如今系上了真金白银和活生生的人。一个变量究竟是公平的成因、还是不公平的替代,这个问题的归属是精算师,而不是算法。
透明,是入场的门票。在大多数市场,保险公司必须通过费率与条款申报把方案递上去,并向监管者为之辩护——而监管者可以驳回它。这正是为什么可解释的 GLM、而非准确度更高的黑箱,至今仍是申报费率的行业主力。监管者可以读一张相对度表,并追问为什么 25 岁以下的司机要付 1.35;却没有人能用同样的方式去盘问一个神经网络。你解释不了的准确度,或者藏着一个不公平替代的准确度,是你用不了的准确度。
这场军备竞赛,以及精算师立于何处
这一切背后有一份竞争优势,值得把它直说出来。如果你的对手用多变量定价、而你用单因素定价,他们就能识别出你正在向哪些客户多收钱,并报给那些人更低的价;同时把那些你正在少收钱的客户留给你。日子久了,你留下的都是坏风险、失去的都是好风险——这正是从最最开头那一阶就出现的逆向选择漩涡,如今由“谁的模型更好”所驱动。细分,曾经是一种精修,如今已成了一项生存技能。
至此,「费率厘定与定价」这一阶就收尾了。你从那个基本保险等式出发——保费 = 损失 + 费用 + 利润——在通往总体指示的纯保费法与损失率法这两条路之间做了选择,把原始历史经过趋势化与进展处理、变成对未来的一份公平看法,再按类别把费率拆开,而如今你已看到,现代定价如何把这些类别重新编织成一份连贯、多变量、可申报的方案。通回统计的那条线索如今已清晰无误:费率厘定就是被职业判断所治理的、应用化了的概率与回归。接下来,阶梯将转向再保险——一家保险公司在为自己的风险定完价之后,如何把其中一部分风险再传递出去。