那个奇怪的读数：离群值与 Q 检验

那个你希望没测到的读数

你把一个样品滴定四次，得到 10.12、10.15、10.13 和 10.31 毫升。三个结果挤在 10.13 附近；第四个远远落在 10.31。一个可疑地远离其余值的结果，叫作离群值。诱惑很明显：删掉那个难看的，平均值就漂亮了。但删掉你只是不喜欢的数据，正是诚实的科学悄悄变成虚构的途径。

有两种无辜的解释，而它们要求相反的处理。要么是真的犯了大错——你看错了滴定管、一个气泡溜了进去、你记错了数字——这是过失误差，确实该删。要么这个点只是普通随机误差里倒霉的尾巴，是一个你必须保留的合法读数。难就难在：光看这个数字，两种情况长得一模一样。

删掉一个点最干净的理由，是有据可查的物理原因。所以在做任何统计之前，先查你的记录本：你有没有记下气泡、洒漏、仪器重新归零？如果你找到一个记录在案的失误，就移除该点并说明原因。如果什么都没找到，你就不允许凭直觉删除——这正是一个公平的统计检验大显身手的地方。

Q 检验（Dixon Q 检验）给出一条简单、站得住脚的规则。它的思路是：把可疑值与它最近邻居之间的间隔，和数据的总跨度作比较。如果这个间隔占整个极差的很大一部分，这个点就太远了，不可能是普通散布；如果只占一小部分，它就只是人群的一员。

计算出的 Q 超过了临界值，所以这个检验允许你把 10.31 当作离群值舍弃，对剩下三个求平均。要是 Q 算出来低于临界值，你就有义务保留每一个点——一厢情愿不是统计学。

Q 检验有真实的局限。只有三四个点时它很弱——很难可靠地区分真正的失误和单纯的坏运气。绝不要连用两次去剔除第二个点。而且它一次只判断一个值，所以对躲在同一侧的两个离群值是盲的。对一个不稳的数据集，诚实的解决办法几乎总是多测几个重复，而不是更使劲地检验。

也要记住剔除究竟改变了什么。去掉 10.31 后，平均值降到 10.133，标准差急剧缩小——你的结果看起来精密得多。这正是为什么规则必须客观、且要在你偷看答案之前就定好，绝不能为了讨好你期望的那个数字而扭曲。