JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

假设检验与拟合优度

如何把一个论断拉到数据面前受审,以及卡方与柯尔莫哥洛夫-斯米尔诺夫检验如何帮你诚实地判断哪个分布真正贴合一堆损失数据——连同那些常见的陷阱。

把论断送上审判台

在前几篇里,你学会了*估计*:拿一堆杂乱的数据,产出一个数字,比如给去年的理赔次数拟合一个泊松分布的均值。但单凭估计,永远无法告诉你*一个关于世界的论断*是否可信。假设一位定价同事坚称:"我们新推出的安全驾驶计划,把平均理赔频率压到了每张保单 0.10 次以下。"数据本来就上下摆动;你怎么判断这个下降是真的,还是只是运气?假设检验正是让这类论断接受审判的那座纪律森严的法庭。

这场审判带着一种刻意的不对称,正如刑事法庭推定无罪。我们先写下一个原假设——那个无聊、怀疑一切的默认立场,通常是"什么都没变"(真实频率仍是 0.10)。与之对立的是备择假设,即那个有趣的论断(频率现在低于 0.10)。我们并不直接去*证明*备择假设;而是问:*倘若原假设为真*,我们实际看到的数据有多令人意外?只有那些在原假设下真正反常的数据,才赢得推翻它的资格。

p 值,以及它不是什么

为了量化"有多令人意外",我们从数据中算出一个检验统计量,再算它的 p 值:即在原假设为真的前提下,看到一个*至少和我们这个结果一样极端*的结果的概率。p 值很小,就意味着如果真的什么都没变,观测到的数据会是一次罕见的偶然——于是原假设看起来就站不住脚了。注意中心极限定理在这里默默地发挥着作用:是它告诉我们检验统计量在原假设下长什么样,而这正是判断"极端"与否的整个参照系。

我们会在看数据*之前*,先定下一个叫显著性水平的门槛,记作 α,常取 0.05。若 p 值低于 α,就拒绝原假设;否则不拒绝。这个 α 恰恰就是犯第一类错误的概率:拒绝了一个本为真的原假设,即一次假警报。它的镜像是第二类错误:没能拒绝一个本为假的原假设,即漏掉了一个信号。两者此消彼长。把 α 调小以避免假警报,检验就会变得迟钝、更慢察觉到真实变化;而检验的功效——它捕捉到真实效应的概率——正是 1 减去那个漏检率。

从检验一个数字,到检验整个形状

上面那场审判检验的是一个数字,一个均值。但精算师更深一层的问题,往往关乎*形状*:在拟合损失分布时,你要的不只是正确的平均值——你想知道理赔金额究竟服从帕累托分布、对数正态分布,还是别的什么完全不同的东西。选错了,会悄悄毒化下游的每一份保费与准备金,因为错误的形状恰恰会把最要紧的那些罕见巨额损失给说错。于是我们需要一种检验,它的原假设是一整个分布:*这批数据来自这个模型*。

这一族检验称为拟合优度检验。其逻辑与前面完全一致——原假设、检验统计量、p 值——只是现在统计量度量的是*数据与某个候选分布之间的差距*。有一处该早早点明的诚实的微妙:通常我们会先用这同一批数据去估计分布的参数(用前一篇讲过的极大似然估计)。这会让拟合显得比它应得的更好,因此参照分布必须做相应调整——这个细节,教科书里的那些检验要么通过消耗自由度、要么通过模拟临界值来处理。

卡方检验:把数据装进桶里清点

卡方拟合优度检验是这里的主力。它的想法很朴素:把数据分进几个桶里(比如理赔金额落在 0–1 千、1 千–5 千、5 千–2 万、2 万以上这几个区间),数一数实际各落进多少个,再把这些*观测*计数与候选分布所预测的*期望*计数相比。如果模型对,观测与期望应当相近;巨大的差异,就是反对它的证据。

chi-square = sum over buckets of (Observed - Expected)^2 / Expected

Bucket       Observed   Expected   (O-E)^2/E
0 - 1k          42         40        0.10
1k - 5k         28         33        0.76
5k - 20k        18         15        0.60
20k +           12         12        0.00
                                    -----
                          total =    1.46   -> small, fit looks fine
每个桶贡献 (观测减期望) 的平方再除以期望;加总即得卡方统计量。总和很小,说明观测计数与期望计数吻合良好。

除以期望计数是其中的精妙之处:它按"在那里纯靠运气本就该出现多大偏差"来缩放每一个差距,于是繁忙的桶和稀疏的桶都能被公平评判。把统计量加总后,再拿去与一个卡方参照分布比较;数值越大,p 值越小,我们就拒绝这个候选模型。两点诚实的告诫:该检验要求每个桶的期望计数都相当大(常用的经验法则是至少为 5),而且*桶的划分*由你决定——把同一批数据切得不一样,结论也可能随之改变,这恰恰是为什么你要在偷看答案之前就把桶定死。

柯尔莫哥洛夫-斯米尔诺夫检验:不用分桶

分桶的习惯让人觉得武断,而对理赔金额这类连续数据来说,它还白白丢掉了细节。柯尔莫哥洛夫-斯米尔诺夫(K-S)检验则完全不用分桶。回想一下概率阶梯里的累积分布函数——它是直到每个取值为止、概率的累计总和。K-S 检验直接从数据造出一条*经验*累积分布函数(一段每遇到一个观测值就上跳 1/n 的楼梯),再把它叠在候选分布的*理论*累积分布函数之上。它的统计量,不过就是这两条曲线沿线任意位置之间那道最大的垂直缝隙。

那道最大的缝隙很直观——它正是数据与模型分歧最深的那个位置。缝隙小,说明所提的曲线一路紧贴着数据;缝隙大,说明模型在某处与现实严重脱节,而一个很小的 p 值便告诉你该拒绝它。与卡方相比,K-S 不用分桶,且在整个取值范围内都敏感,这很适合连续的严重度数据。但要坦白它的盲点:K-S 在分布*中段*附近最为警觉,而在*尾部相对迟钝*——可那恰恰是精算师最在意的地方,因为遥远的尾部藏着灾难性的损失。一个模型可以通过 K-S 检验,却仍然低估了那种百年一遇的理赔。

没有任何一种拟合优度检验能*证明*某个分布是正确的;它顶多只能做到不拒绝它。真实的实务从不只靠单一一种检验。你会把这些统计量与肉眼检查搭配使用——把经验曲线叠在理论曲线上画图、直接审视尾部——再加上对"这个模型对这项风险是否说得通"的判断。检验是一只烟雾报警器,而不是一纸真理的判决。

选得明智,又保持谦卑

把这些拼块合起来,一套可操作的流程便浮现出来。先提出一个候选分布;用极大似然估计它的参数;再用拟合优度检验来评判拟合——数据自然落成计数或类别时用卡方,连续损失则用 K-S(或它那些对尾部更敏锐的表亲)——并且始终辅以图形。当好几个分布都"幸存"下来时,你便倚靠更广工具箱里的模型选择思想,而最重要的,是看哪一个在尾部表现得合情合理。

把这一切扣回这一阶梯的去向。拟合优度给出的是对单个候选分布的"是/否"判断;你之前认识的置信区间,则为你估出的参数套上诚实的误差棒;而接下来讲回归的几篇,会把这一切推而广之——不仅检验*哪个分布*合适,还检验*哪些驱动因素*(年龄、地区、车型)真正撬动了损失。检验与拟合,本是同一种纪律严明的习惯,只是放大了规模。

以这门学问最深的谦卑作结。这里的每一种检验都假设候选分布是一个*固定、已知的形状*,且数据干净又彼此独立——可面对真实的理赔数据,这些假设都会变形:它们常常成簇出现、随时间漂移,还带着误差到来。通过检验,意味着"暂未被这批数据推翻",绝非"为真"。模型是一张地图,从来不是疆域本身;负责任的精算师会随着新的损失不断到来而持续检验它,并在尾部格外警惕——正是在那里,自信满满的模型曾以最昂贵的代价栽过跟头。