每个测量背后的钟形曲线

重复数据的直方图

假设你不是把硬币称五次，而是称五百次，然后把结果分到一个个小区间里，并用一根柱子表示落在每个区间里的数量。一幅图就出现了：一个以平均值为中心的高高隆起，向两侧平滑而对称地下降。大多数读数靠近中间；少数零星地落在很远处。离中心越远，越稀有。

这个钟形不是巧合。每当一个测量被许多微小、独立、彼此叠加的随机误差推搡时，结果就会堆成同一条曲线。它如此普遍，以至于我们给它起了名字：高斯分布，也叫正态分布。

美妙之处在于：一条高斯曲线完全由上一篇里的两个数字决定。平均值决定峰值落在哪里——把它左移或右移。标准差决定钟形有多宽——小的 s 给出又高又窄、精密的隆起；大的 s 给出又矮又胖、潦草的隆起。调整这两个旋钮，你就能画出任何一条正态曲线。

钟形的宽度，正是之前讲的方差的故事，只是被画了出来。精密的方法方差小、峰尖锐。所以当有人报出一个平均值和一个标准差时，他们已经用两个利落的数字，悄悄把整条钟形——它的位置和宽度——交到了你手里。

因为每条高斯曲线形状相同，你可以通过数「离平均值有几个标准差」来读出固定比例的数据。大约 68% 的读数落在平均值的一个标准差之内；大约 95% 在两个标准差之内；大约 99.7% 在三个标准差之内。这有时叫作经验法则。

对硬币（平均值 4.010 克，s ≈ 0.016 克），这条法则预测：未来约 95% 的称重会落在 4.010 − 0.032 到 4.010 + 0.032 之间——也就是 3.978 到 4.042 克之间。所以标准差不只是给过去散布贴的标签；它是一份关于「下一个读数大概会落在哪里」的预报。

高斯曲线把随机误差描述得很漂亮，但它对一件事是盲的。如果你的天平每一次称重都偏重 0.05 克，整条钟形只会整体横移——它仍是同样尖锐、狭窄的形状，只是中心落在了错误的值上。这种恒定的偏移就是系统误差，它会悄悄毒害你的准确度，却完全不会让曲线变宽。

这正是为什么精密度（窄钟形）和准确度（钟形中心落在真值上）是两回事。小标准差告诉你读数彼此一致；它对「读数是否与现实一致」只字不提。要抓住一条移了位的钟形，需要一个已知的参照——这是后面几篇指南要逐步搭建的。