怀疑者的出发点
一种更便宜的新方法给出平均含铁量 9.87%;受信赖的参比方法给出 9.91%。两者相差 0.04——但两种方法都有散布,所以任何两个平均值都会因纯粹偶然而略有不同。成熟的问题是:0.04 比单凭偶然所能产生的差异更大吗?要回答它,统计学家从一个故意「无聊」的假设出发。
这个假设就是零假设:「不存在真实差异;这个差距只是随机散布。」一开始我们既不相信也不否定它——而是把它送上审判。然后一个检验追问:如果零假设为真,我的数据会有多令人意外?如果在「没有差异」的前提下数据会非常令人意外,我们就拒绝零假设,断定差异是真实的。
多意外才算「太意外」?这个门槛你要事先定好:显著性水平,通常是 5%(记作 α = 0.05)。它是你愿意接受的「在其实没有差异时却高喊『有差异!』」的概率——一次假警报。更小的 α 让你更谨慎,但也更容易被一个真实的效应蒙混过去。
t 检验:两个平均值不同吗?
t 检验在考虑散布的前提下比较两个平均值。它的逻辑是一个比值:两个平均值之差,除以这个差的不确定度。大差异搭配小散布给出大的 t——有说服力。小差异淹没在大散布里给出小的 t——没说服力。你把算出的 t 与表里的临界 t 作比较,就像 Q 检验那样。
当两种方法的散布相近时,我们把它们的两个标准差合并成一个更好的估计,叫作合并标准差。合并是合理的,因为两组数据都在告诉你同一个底层的随机误差,所以把它们合在一起会带来更多自由度,检验比单用任何一组都更锐利。
F 检验:两个离散度不同吗?
有时真正有趣的问题不在于平均值,而在于离散度。这种便宜的新方法是不是精密度更差——散布更大?F 检验通过取两个方差(标准差的平方)的比值来比较两种精密度,并总是把较大的方差放在分子上,使 F ≥ 1。
如果两种方法精密度相当,它们的方差大致相等,F 落在 1 附近。如果一种散布大得多,F 就远爬过 1;一旦它超过表里的临界 F,你就断定两者精密度确实不同。F 检验也是 t 检验的把关人:你通常先用 F 检查两个散布是否足够相近,以判断一开始是否有理由合并它们的标准差。
相关性:两件事是否一起变动?
另一类问题:当一个量上升时,另一个量会随之上升吗?把仪器信号对已知浓度作图,你希望得到一条直线。相关系数(r)衡量这些点贴近一条直线的紧密程度。它从 −1 到 +1:r 接近 +1 表示紧密的上升直线,r 接近 −1 表示紧密的下降直线,r 接近 0 则表示一团没有线性趋势的散云。
这些工具共享一种安静的纪律。在看到结果之前就选好你的检验和显著性水平,把零假设明白地写出来,并如实报告结论,不管它是不是你期望的那个。正是这种纪律,把一堆数字变成了别人能够信赖的结论。