JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

基准、消融与陷阱

排行榜上的分数是一种主张,而非事实。本指南展示基准、消融实验和显著性检验如何把数字变成证据——以及污染和对测试集的过拟合如何悄悄地把它们抬高。

基准究竟在主张什么

到这一步,你已经能挑选合适的指标并做诚实的验证。基准把这种自律打包成可共享的东西:固定的数据集、固定的任务和固定的评分规则,好让两个模型在同等条件下比较。然后排行榜给所有参赛者排名。这个承诺很诱人——一个数字、一个赢家——但那个数字只代表基准被设计出来要代表的含义。

像 ImageNet 这样的视觉基准衡量的是在一组精选物体照片上的 top-1 准确率;一个语言基准可能衡量精确匹配的问答。两者都不衡量“智能”,也都不能告诉你模型在你真实输入上的表现。基准是一个代理:用一份狭窄、冻结的样本代替一个广阔、不断变化的现实。代理与现实之间的差距,正是大多数意外发生的地方。

消融:证明真正起作用的是什么

当一个系统变好时,诚实的问题是*哪一部分*让它变好。[[ablation-study|消融实验]]通过一次移除或禁用一个组件再重新测量来回答这个问题。这个方法借自神经科学(在那里你损毁某个脑区,看看什么会出问题),消融实验把“我们加了五个技巧,它变好了”变成“技巧 #3 解释了几乎全部的提升,其余都是噪声”。

做得好的消融实验是“照搬迷信”式工程的解药。改动一件事,固定其他一切,然后报告效果。这种纪律和受控实验一样:如果你在同一次运行中既移除了 dropout *又*降低了学习率,你就无法把结果归因于其中任何一个。要么干净地消融,要么你什么也没学到。

config         test acc
----------------------------
full model       0.912
  - data aug     0.864   (-4.8)
  - pretraining  0.831   (-8.1)  <- the real driver
  - dropout      0.908   (-0.4)  noise?
一张极简的消融表:每行禁用一种成分,读出它的贡献。

注意最后一行:0.4 个百分点的下降很可能只是运行间的方差,而非真实效应。这一个观察恰恰说明了下一个概念为何重要——没有它,消融表会用虚假的精确度对你撒谎。

差异是真的吗?统计显著性

用不同的随机种子把*同一套*配置训练两次,你会得到略有不同的分数——不同的初始权重、不同的打乱顺序、不同的 dropout 掩码。所以当模型 A 比模型 B 高出 0.3 个百分点时,你必须问:这个差距是否超过了噪声。[[statistical-significance|统计显著性]]是这个问题的正式版本:如果两个模型其实一样好,我对这个差异应该感到多惊讶?

实践中,既省钱又诚实的做法是用多个种子各跑一次每个模型,报告均值 ± 标准差,而不是单一的“英雄数字”。如果 A 的波动范围与 B 的重叠,那么这个排名就不可信。对于已部署的系统,黄金标准是 A/B 测试:把真实流量分流到两个版本,并测量你真正关心的结果,样本量要足够大,使差异越过噪声底线。

污染与对测试集的过拟合

前面的台阶警告过你:永远不要在测试集上训练。基准让这种失败变得隐蔽而系统化。基准污染发生在测试题目——或它们的近似副本——泄漏进训练数据时。对于一个靠抓取整个网络来训练的大语言模型来说,这几乎是默认情形:公开基准及其答案就*在*网络上。一个实际上已经背下答案册的模型会刷出耀眼的分数,却对泛化毫无说明。

同一种病还有一个更缓慢、更具社会性的版本。当一个基准多年保持不变时,整个领域就会针对它的测试集去调整架构和超参数——通过成千上万篇各自偷看排行榜的论文。这就是社区规模的过拟合:基准不再衡量任务,而开始衡量“我们对*这个*基准调得有多好”。其征兆是排行榜分数与在一份全新、等价的测试集上的表现之间出现巨大的差距

像怀疑论者一样读排行榜

把这些汇成一种习惯。排行榜是提问的起点,而不是答案。在你相信某个排名之前,要像审视任何非凡主张那样审视它——关注基线、噪声、数据卫生,以及这个基准是否真的与你的问题相似。

  1. 找出基线和上限。最高分比一个平凡的猜测者高多少,又离人类水平或饱和点有多近?
  2. 索要误差棒。分数是否在多个种子上报告?第 1 名与第 5 名之间的差距是否超过了运行间的噪声?
  3. 检查是否污染。模型是否在可能包含测试项的数据上训练过?是否有全新或保留的变体?
  4. 把基准映射到你的现实。它的任务、分布和指标是否与你将要部署的相符,还是真实的分布偏移会把提升抹平?

最后做一次诚实检查,因为这一级台阶紧挨着前沿的炒作。当一个更大的模型突然攻克了它过去做不出的基准时,人们会把这种能力称为“涌现”。有时这确实反映了一种真正的新能力;但往往是一个严苛指标的假象(一道题在模型答得*完全*正确之前都计零分)再加上可能的污染所致。把戏剧性的跃升当作需要用消融实验和干净测试集去调查的假设——而不是智能被“打开了”的证据。