置信区间：你的平均值有多靠得住？

平均值的平均值也会抖动

你把硬币称了五次，得到平均值4.010 克。但有个令人不安的想法：如果同事也称五次，他们的平均值会略有不同——也许 4.008，也许 4.013。4.010 这个数本身，只是一个略带抖动的过程中抽到的一次。诚实的问题不是「我的平均值是多少？」，而是「我的平均值可能离真值多远？」

好消息：平均值的抖动远小于单个读数。随机的偏高和偏低在每个平均里相互抵消，所以五次的平均比任何单次称重都更稳。捕捉这种稳定性的数字，就是「平均值的标准误」。

平均值的标准误是标准差除以读数个数的平方根：s ÷ √n。对硬币：0.0158 ÷ √5 = 0.0158 ÷ 2.236 ≈ 0.0071 克。注意它比 s 本身更小——求平均缩小了抖动。

这个 √n 是关键的洞见——也是个警告。要把标准误减半，你需要四倍数量的测量；要把它降到十分之一，需要一百倍。靠纯粹重复买来的精密度很快就变得昂贵，这正是化学家也努力让每一次单独读数变好的原因。

置信区间把标准误变成一个明确的范围：「平均值 ±（一个乘数）× 标准误」。95% 置信区间的构造方式是：如果你把整个实验重复很多遍，大约 95% 的这种区间会包含真值。它是把测量不确定度大声说出来的正式方式。

如果你知道总体真实的离散度，那么来自高斯分布的 95% 乘数会是 1.96。但你并不知道——你是从极少几个读数里估计出 s 的，所以 s 本身也带着不确定。为了保持诚实，我们用一个略大的乘数，叫作 t 值，它取决于你有多少个读数。

这个数量由自由度捕捉，对一组重复数据来说就是 n − 1（与标准差公式里的 n − 1 相同）。读数少时，t 值远高于 1.96——五个读数（4 个自由度）的 95% t 值约为 2.78。随着你收集更多数据，t 会缩回 1.96 附近。样本小就被罚以更宽的区间，这正是公平所要求的。

现在你的结果说话诚实了：不是光秃秃的「4.010」，而是「4.010 ± 0.020 克，这个 ± 背后有明确的置信度」。这一个习惯——总是附上置信区间——把「值得信赖的数字」和「只是随手写下的数字」区分了开来。