假设检验与拟合优度

把论断送上审判台

在前几篇里，你学会了*估计*：拿一堆杂乱的数据，产出一个数字，比如给去年的理赔次数拟合一个泊松分布的均值。但单凭估计，永远无法告诉你*一个关于世界的论断*是否可信。假设一位定价同事坚称："我们新推出的安全驾驶计划，把平均理赔频率压到了每张保单 0.10 次以下。"数据本来就上下摆动；你怎么判断这个下降是真的，还是只是运气？假设检验正是让这类论断接受审判的那座纪律森严的法庭。

这场审判带着一种刻意的不对称，正如刑事法庭推定无罪。我们先写下一个原假设——那个无聊、怀疑一切的默认立场，通常是"什么都没变"（真实频率仍是 0.10）。与之对立的是备择假设，即那个有趣的论断（频率现在低于 0.10）。我们并不直接去*证明*备择假设；而是问：*倘若原假设为真*，我们实际看到的数据有多令人意外？只有那些在原假设下真正反常的数据，才赢得推翻它的资格。

p 值，以及它不是什么

为了量化"有多令人意外"，我们从数据中算出一个检验统计量，再算它的 p 值：即在原假设为真的前提下，看到一个*至少和我们这个结果一样极端*的结果的概率。p 值很小，就意味着如果真的什么都没变，观测到的数据会是一次罕见的偶然——于是原假设看起来就站不住脚了。注意中心极限定理在这里默默地发挥着作用：是它告诉我们检验统计量在原假设下长什么样，而这正是判断"极端"与否的整个参照系。

我们会在看数据*之前*，先定下一个叫显著性水平的门槛，记作 α，常取 0.05。若 p 值低于 α，就拒绝原假设；否则不拒绝。这个 α 恰恰就是犯第一类错误的概率：拒绝了一个本为真的原假设，即一次假警报。它的镜像是第二类错误：没能拒绝一个本为假的原假设，即漏掉了一个信号。两者此消彼长。把 α 调小以避免假警报，检验就会变得迟钝、更慢察觉到真实变化；而检验的功效——它捕捉到真实效应的概率——正是 1 减去那个漏检率。

从检验一个数字，到检验整个形状

上面那场审判检验的是一个数字，一个均值。但精算师更深一层的问题，往往关乎*形状*：在拟合损失分布时，你要的不只是正确的平均值——你想知道理赔金额究竟服从帕累托分布、对数正态分布，还是别的什么完全不同的东西。选错了，会悄悄毒化下游的每一份保费与准备金，因为错误的形状恰恰会把最要紧的那些罕见巨额损失给说错。于是我们需要一种检验，它的原假设是一整个分布：*这批数据来自这个模型*。

这一族检验称为拟合优度检验。其逻辑与前面完全一致——原假设、检验统计量、p 值——只是现在统计量度量的是*数据与某个候选分布之间的差距*。有一处该早早点明的诚实的微妙：通常我们会先用这同一批数据去估计分布的参数（用前一篇讲过的极大似然估计）。这会让拟合显得比它应得的更好，因此参照分布必须做相应调整——这个细节，教科书里的那些检验要么通过消耗自由度、要么通过模拟临界值来处理。

卡方检验：把数据装进桶里清点

卡方拟合优度检验是这里的主力。它的想法很朴素：把数据分进几个桶里（比如理赔金额落在 0–1 千、1 千–5 千、5 千–2 万、2 万以上这几个区间），数一数实际各落进多少个，再把这些*观测*计数与候选分布所预测的*期望*计数相比。如果模型对，观测与期望应当相近；巨大的差异，就是反对它的证据。

chi-square = sum over buckets of (Observed - Expected)^2 / Expected

Bucket       Observed   Expected   (O-E)^2/E
0 - 1k          42         40        0.10
1k - 5k         28         33        0.76
5k - 20k        18         15        0.60
20k +           12         12        0.00
                                    -----
                          total =    1.46   -> small, fit looks fine

每个桶贡献 (观测减期望) 的平方再除以期望；加总即得卡方统计量。总和很小，说明观测计数与期望计数吻合良好。

除以期望计数是其中的精妙之处：它按"在那里纯靠运气本就该出现多大偏差"来缩放每一个差距，于是繁忙的桶和稀疏的桶都能被公平评判。把统计量加总后，再拿去与一个卡方参照分布比较；数值越大，p 值越小，我们就拒绝这个候选模型。两点诚实的告诫：该检验要求每个桶的期望计数都相当大（常用的经验法则是至少为 5），而且*桶的划分*由你决定——把同一批数据切得不一样，结论也可能随之改变，这恰恰是为什么你要在偷看答案之前就把桶定死。

柯尔莫哥洛夫-斯米尔诺夫检验：不用分桶

分桶的习惯让人觉得武断，而对理赔金额这类连续数据来说，它还白白丢掉了细节。柯尔莫哥洛夫-斯米尔诺夫（K-S）检验则完全不用分桶。回想一下概率阶梯里的累积分布函数——它是直到每个取值为止、概率的累计总和。K-S 检验直接从数据造出一条*经验*累积分布函数（一段每遇到一个观测值就上跳 1/n 的楼梯），再把它叠在候选分布的*理论*累积分布函数之上。它的统计量，不过就是这两条曲线沿线任意位置之间那道最大的垂直缝隙。

那道最大的缝隙很直观——它正是数据与模型分歧最深的那个位置。缝隙小，说明所提的曲线一路紧贴着数据；缝隙大，说明模型在某处与现实严重脱节，而一个很小的 p 值便告诉你该拒绝它。与卡方相比，K-S 不用分桶，且在整个取值范围内都敏感，这很适合连续的严重度数据。但要坦白它的盲点：K-S 在分布*中段*附近最为警觉，而在*尾部相对迟钝*——可那恰恰是精算师最在意的地方，因为遥远的尾部藏着灾难性的损失。一个模型可以通过 K-S 检验，却仍然低估了那种百年一遇的理赔。

没有任何一种拟合优度检验能*证明*某个分布是正确的；它顶多只能做到不拒绝它。真实的实务从不只靠单一一种检验。你会把这些统计量与肉眼检查搭配使用——把经验曲线叠在理论曲线上画图、直接审视尾部——再加上对"这个模型对这项风险是否说得通"的判断。检验是一只烟雾报警器，而不是一纸真理的判决。

选得明智，又保持谦卑

把这些拼块合起来，一套可操作的流程便浮现出来。先提出一个候选分布；用极大似然估计它的参数；再用拟合优度检验来评判拟合——数据自然落成计数或类别时用卡方，连续损失则用 K-S（或它那些对尾部更敏锐的表亲）——并且始终辅以图形。当好几个分布都"幸存"下来时，你便倚靠更广工具箱里的模型选择思想，而最重要的，是看哪一个在尾部表现得合情合理。

把这一切扣回这一阶梯的去向。拟合优度给出的是对单个候选分布的"是/否"判断；你之前认识的置信区间，则为你估出的参数套上诚实的误差棒；而接下来讲回归的几篇，会把这一切推而广之——不仅检验*哪个分布*合适，还检验*哪些驱动因素*（年龄、地区、车型）真正撬动了损失。检验与拟合，本是同一种纪律严明的习惯，只是放大了规模。

以这门学问最深的谦卑作结。这里的每一种检验都假设候选分布是一个*固定、已知的形状*，且数据干净又彼此独立——可面对真实的理赔数据，这些假设都会变形：它们常常成簇出现、随时间漂移，还带着误差到来。通过检验，意味着"暂未被这批数据推翻"，绝非"为真"。模型是一张地图，从来不是疆域本身；负责任的精算师会随着新的损失不断到来而持续检验它，并在尾部格外警惕——正是在那里，自信满满的模型曾以最昂贵的代价栽过跟头。