重复数据的直方图
假设你不是把硬币称五次,而是称五百次,然后把结果分到一个个小区间里,并用一根柱子表示落在每个区间里的数量。一幅图就出现了:一个以平均值为中心的高高隆起,向两侧平滑而对称地下降。大多数读数靠近中间;少数零星地落在很远处。离中心越远,越稀有。
这个钟形不是巧合。每当一个测量被许多微小、独立、彼此叠加的随机误差推搡时,结果就会堆成同一条曲线。它如此普遍,以至于我们给它起了名字:高斯分布,也叫正态分布。
两个数字就能画出整条曲线
美妙之处在于:一条高斯曲线完全由上一篇里的两个数字决定。平均值决定峰值落在哪里——把它左移或右移。标准差决定钟形有多宽——小的 s 给出又高又窄、精密的隆起;大的 s 给出又矮又胖、潦草的隆起。调整这两个旋钮,你就能画出任何一条正态曲线。
钟形的宽度,正是之前讲的方差的故事,只是被画了出来。精密的方法方差小、峰尖锐。所以当有人报出一个平均值和一个标准差时,他们已经用两个利落的数字,悄悄把整条钟形——它的位置和宽度——交到了你手里。
68–95–99.7 法则
因为每条高斯曲线形状相同,你可以通过数「离平均值有几个标准差」来读出固定比例的数据。大约 68% 的读数落在平均值的一个标准差之内;大约 95% 在两个标准差之内;大约 99.7% 在三个标准差之内。这有时叫作经验法则。
对硬币(平均值 4.010 克,s ≈ 0.016 克),这条法则预测:未来约 95% 的称重会落在 4.010 − 0.032 到 4.010 + 0.032 之间——也就是 3.978 到 4.042 克之间。所以标准差不只是给过去散布贴的标签;它是一份关于「下一个读数大概会落在哪里」的预报。
钟形看不见的东西:偏差
高斯曲线把随机误差描述得很漂亮,但它对一件事是盲的。如果你的天平每一次称重都偏重 0.05 克,整条钟形只会整体横移——它仍是同样尖锐、狭窄的形状,只是中心落在了错误的值上。这种恒定的偏移就是系统误差,它会悄悄毒害你的准确度,却完全不会让曲线变宽。
这正是为什么精密度(窄钟形)和准确度(钟形中心落在真值上)是两回事。小标准差告诉你读数彼此一致;它对「读数是否与现实一致」只字不提。要抓住一条移了位的钟形,需要一个已知的参照——这是后面几篇指南要逐步搭建的。