相同还是不同？t 检验、F 检验与相关性

怀疑者的出发点

一种更便宜的新方法给出平均含铁量 9.87%；受信赖的参比方法给出 9.91%。两者相差 0.04——但两种方法都有散布，所以任何两个平均值都会因纯粹偶然而略有不同。成熟的问题是：0.04 比单凭偶然所能产生的差异更大吗？要回答它，统计学家从一个故意「无聊」的假设出发。

这个假设就是零假设：「不存在真实差异；这个差距只是随机散布。」一开始我们既不相信也不否定它——而是把它送上审判。然后一个检验追问：如果零假设为真，我的数据会有多令人意外？如果在「没有差异」的前提下数据会非常令人意外，我们就拒绝零假设，断定差异是真实的。

多意外才算「太意外」？这个门槛你要事先定好：显著性水平，通常是 5%（记作 α = 0.05）。它是你愿意接受的「在其实没有差异时却高喊『有差异！』」的概率——一次假警报。更小的 α 让你更谨慎，但也更容易被一个真实的效应蒙混过去。

t 检验在考虑散布的前提下比较两个平均值。它的逻辑是一个比值：两个平均值之差，除以这个差的不确定度。大差异搭配小散布给出大的 t——有说服力。小差异淹没在大散布里给出小的 t——没说服力。你把算出的 t 与表里的临界 t 作比较，就像 Q 检验那样。

当两种方法的散布相近时，我们把它们的两个标准差合并成一个更好的估计，叫作合并标准差。合并是合理的，因为两组数据都在告诉你同一个底层的随机误差，所以把它们合在一起会带来更多自由度，检验比单用任何一组都更锐利。

有时真正有趣的问题不在于平均值，而在于离散度。这种便宜的新方法是不是精密度更差——散布更大？F 检验通过取两个方差（标准差的平方）的比值来比较两种精密度，并总是把较大的方差放在分子上，使 F ≥ 1。

如果两种方法精密度相当，它们的方差大致相等，F 落在 1 附近。如果一种散布大得多，F 就远爬过 1；一旦它超过表里的临界 F，你就断定两者精密度确实不同。F 检验也是 t 检验的把关人：你通常先用 F 检查两个散布是否足够相近，以判断一开始是否有理由合并它们的标准差。