平均值的平均值也会抖动
你把硬币称了五次,得到平均值4.010 克。但有个令人不安的想法:如果同事也称五次,他们的平均值会略有不同——也许 4.008,也许 4.013。4.010 这个数本身,只是一个略带抖动的过程中抽到的一次。诚实的问题不是「我的平均值是多少?」,而是「我的平均值可能离真值多远?」
好消息:平均值的抖动远小于单个读数。随机的偏高和偏低在每个平均里相互抵消,所以五次的平均比任何单次称重都更稳。捕捉这种稳定性的数字,就是「平均值的标准误」。
标准误:平均值本身的离散度
平均值的标准误是标准差除以读数个数的平方根:s ÷ √n。对硬币:0.0158 ÷ √5 = 0.0158 ÷ 2.236 ≈ 0.0071 克。注意它比 s 本身更小——求平均缩小了抖动。
这个 √n 是关键的洞见——也是个警告。要把标准误减半,你需要四倍数量的测量;要把它降到十分之一,需要一百倍。靠纯粹重复买来的精密度很快就变得昂贵,这正是化学家也努力让每一次单独读数变好的原因。
给平均值裹上「正负」
置信区间把标准误变成一个明确的范围:「平均值 ±(一个乘数)× 标准误」。95% 置信区间的构造方式是:如果你把整个实验重复很多遍,大约 95% 的这种区间会包含真值。它是把测量不确定度大声说出来的正式方式。
为什么乘数不只是 1.96
如果你知道总体真实的离散度,那么来自高斯分布的 95% 乘数会是 1.96。但你并不知道——你是从极少几个读数里估计出 s 的,所以 s 本身也带着不确定。为了保持诚实,我们用一个略大的乘数,叫作 t 值,它取决于你有多少个读数。
这个数量由自由度捕捉,对一组重复数据来说就是 n − 1(与标准差公式里的 n − 1 相同)。读数少时,t 值远高于 1.96——五个读数(4 个自由度)的 95% t 值约为 2.78。随着你收集更多数据,t 会缩回 1.96 附近。样本小就被罚以更宽的区间,这正是公平所要求的。
把硬币的例子算到底
- 平均值 = 4.010 克,s = 0.0158 克,n = 5,所以自由度 = 4。
- 标准误 = s ÷ √n = 0.0158 ÷ 2.236 = 0.0071 克。
- 查 4 个自由度的 95% t 值:2.78。
- 半宽 = 2.78 × 0.0071 = 0.020 克,所以报告 4.010 ± 0.020 克(95% 置信度)。
现在你的结果说话诚实了:不是光秃秃的「4.010」,而是「4.010 ± 0.020 克,这个 ± 背后有明确的置信度」。这一个习惯——总是附上置信区间——把「值得信赖的数字」和「只是随手写下的数字」区分了开来。