为什么普通回归在保险数据上会崩
在上一篇里,你认识了线性回归和它的姐姐多元回归:在一团散点中画出最佳的直线(或平面),再读出每个因素如何推动结果。这是个漂亮的工具——但它的行李里藏着几条假设。普通回归悄悄相信:结果可以是任何数、围绕直线的散布到处都一样大、而误差会堆成一条对称的钟形曲线。对世上许多事物而言,这已经足够接近了;可对保险数据来说,这三条全都错了。
想想精算师真正在建模的是什么。一张保单一年内报案的次数是一个计数:0、1、2——绝不会是 1.7,也绝不会是负数。一次理赔的金额是一个正值、右偏的数:大多数不大,少数极其巨大,而且没有一个能低于零。把直线模型硬套到这些数据上,它会兴高采烈地为安全的司机预测出负的报案次数,并假设一笔 200 元的挡风玻璃理赔,其波动性和一场 200 万元的火灾一样大——两者都是胡话。不是数据在捣乱,只是这件工具的形状压根就不对。
这正是你之前见过的频率—强度拆分,如今换上统计学家的眼睛再看一遍。频率(多久来一次)长得像一个泊松计数;强度(有多大)长得像一个长尾、严格为正的伽马或对数正态金额。普通回归对两者都假设成正态钟形曲线。我们需要一种办法,既留住回归那个优雅的念头——把许多因素合成一个预测——又能换上一个贴合现实的分布。
广义线性模型让你拧的两个旋钮
广义线性模型(GLM)就是答案,而它对你已经掌握的东西只动了惊人地小的一下。GLM 保留了回归那台熟悉的引擎——把各项因素加权求和,比如 费率 = b0 + b1·年龄 + b2·地区——但加上了两个可调的旋钮,让模型能贴合那些并非钟形曲线的数据。几乎整个现代非寿险定价,都跑在这一个念头之上。
第一个旋钮是分布(统计学家称之为响应族)。你不再强行套上正态钟形曲线,而是告诉模型这个结果真正的形状:报案次数选泊松,理赔金额选伽马,像保单是否失效这类“是/否”事件就选二项分布。然后,模型会用这个诚实的形状来评判自己拟合得好不好,而不是假装一切都是对称的散布。
第二个旋钮是连接函数,它是两者中更精巧的一个。连接函数决定那个加权求和如何接到最终的预测上。普通回归是直接相连的(把各项加起来,那就是答案——而它可能变成负数)。GLM 则可以改用对数连接,它说:把各项加起来,再取 e 的那个次方。因为 e 的任何次方都恒为正,预测就永远不会跌破零——这对报案次数和成本来说再合适不过。更妙的是,对数连接把相加变成了相乘:每个因素都成了基准费率上的一个乘法系数——而这恰恰就是保险费率表自古以来的搭建方式。
Base rate = 500 Male, under-25 x 1.40 Urban territory x 1.25 No prior claims x 0.80 ------------------------------------- Premium = 500 x 1.40 x 1.25 x 0.80 = 700 (A log-link GLM learns those factors: log(rate) = log(500) + 0.336 + 0.223 - 0.223 )
广义线性模型如何诚实地学出它的数字
模型是怎么挑出它的系数的?普通回归靠最小化误差平方和,而这只有在散布服从正态钟形曲线时才是正确之举。GLM 改用最大似然估计——也就是你两篇之前认识的那个方法。说白了就是:在所有可能的系数组合里,挑出那一组,让你实际观测到的数据显得最不令人意外。因为你已经事先告诉了模型那个真实的分布,这就诚实地照顾到了一个事实:大额理赔很罕见,而计数不可能为负。
回报在于,一个拟合好的 GLM 交到你手上的,是真正的精算量,而不只是抽象的斜率。在频率上跑一个泊松 GLM,你得到每张保单的期望报案次数;在强度上跑一个伽马 GLM,你得到期望理赔金额;把两者相乘,你就为每一个风险单元算出了一个纯保费。这正是一家现代个人险种保险公司为数百万张保单定价的核心——每张保单都有它自己那套费率变量的组合。产出的不是单一的平均费率,而是一份量身定制的价格,由那些真正能撬动风险的因素搭建而成。
机器学习:诚实的承诺与边界
在 GLM 之外,是预测分析与机器学习那个更广阔的世界:梯度提升树、随机森林、神经网络。为它们辩护的理由是真实存在的。它们能嗅出人类绝不会想到要写下来的交互作用和弯曲模式——比方说,汽车马力的影响如何以一种扭曲的、非乘法的方式取决于驾驶人的年龄——而且它们预测纯保费往往比手工搭建的 GLM 更准。在一张纯以预测误差来排名的榜单上,它们经常胜出。
可是,纯粹的预测准确度并不是精算师拿钱要交付的唯一东西,而正是在这里,那些边界狠狠地咬了上来。保险是一门受监管的生意。在大多数司法管辖区,保险公司必须申报其费率,并且必须能够逐个因素地解释,为什么这位客户比那位付得更多。监管者不会接受“神经网络说要这样”。这个价格必须站得住脚,不得使用被禁止的、或构成替代性歧视的变量,而且必须足够稳定,以致两位几乎一模一样的客户不会被报出天差地别的保费。一个答不出“为什么是这个价”的黑箱,在这个场景下,无论它多么准确,都是不可用的。
这里还有第二个、更深的陷阱:只要你放任它,一个灵活的模型就会把你数据里的噪声背下来。树够多、层够深,它几乎能把过去拟合得天衣无缝——连那些永不重演的随机怪癖也一并记住——然后把未来预测得一塌糊涂。这就是过拟合,而唯一诚实的防御,是把模型拿到它从未见过的数据上去检验。模型不是现实;它是一张贴合了某一段路况的地图,而唯一要紧的问题是:它在前方的路上是否还管用。
模型背后,精算师的责任
无论你伸手去拿哪个模型,那个最深的边界始终如一,它贯穿了整个本阶:一个模型的诚实程度,仅取决于你喂给它的数据和假设。在这里,“垃圾进、垃圾出”不是一句陈词滥调——它是一份职业风险。如果你的历史数据里早已编入了某种人为偏见,模型就会忠实地学会并放大那份偏见,外表却看起来无比客观。数据质量与伦理不是预测分析的一条脚注,它们是那面承重墙。
所以现代精算师的工作,不是被算法打败,而是去治理它。这意味着:要把 GLM 摸得足够熟,以读懂它在说什么;要把机器学习了解得足够深,以在它真正帮得上忙的地方用上它;并且要有那份职业脊梁,在一个模型虽准却无法解释、不稳定、或不公平时,能说出“我们不会申报这个”。一份费率申报书底部的那个签名,所承诺的远不止预测误差这一件事。
至此,「统计与数据」这一阶就收尾了。你起步时,是先学会一个模型、再从中读出不确定性;而你结束时,已经能从杂乱的现实中把模型学出来、诚实地检验它,并判断一个聪明的模型何时已经跑过了你能负责任地为之辩护的边界。你如今握住的回归机器——尤其是 GLM——正是从课本里的概率通往工作世界的那座桥。接下来,阶梯将转向利息理论,在那里,这套同样有纪律的直觉,会被对准货币的时间价值。