JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

置信区间:你的平均值有多靠得住?

五个读数给了你一个平均值,但再测五个会得到略微不同的另一个。那么你的平均值离真值有多近?置信区间为它裹上一个诚实的「正负多少」。

平均值的平均值也会抖动

你把硬币称了五次,得到平均值4.010 克。但有个令人不安的想法:如果同事也称五次,他们的平均值会略有不同——也许 4.008,也许 4.013。4.010 这个数本身,只是一个略带抖动的过程中抽到的一次。诚实的问题不是「我的平均值是多少?」,而是「我的平均值可能离真值多远?」

好消息:平均值的抖动远小于单个读数。随机的偏高和偏低在每个平均里相互抵消,所以五次的平均比任何单次称重都更稳。捕捉这种稳定性的数字,就是「平均值的标准误」。

标准误:平均值本身的离散度

平均值的标准误标准差除以读数个数的平方根:s ÷ √n。对硬币:0.0158 ÷ √5 = 0.0158 ÷ 2.236 ≈ 0.0071 克。注意它比 s 本身更小——求平均缩小了抖动。

这个 √n 是关键的洞见——也是个警告。要把标准误减半,你需要四倍数量的测量;要把它降到十分之一,需要一百倍。靠纯粹重复买来的精密度很快就变得昂贵,这正是化学家也努力让每一次单独读数变好的原因。

给平均值裹上「正负」

置信区间把标准误变成一个明确的范围:「平均值 ±(一个乘数)× 标准误」。95% 置信区间的构造方式是:如果你把整个实验重复很多遍,大约 95% 的这种区间会包含真值。它是把测量不确定度大声说出来的正式方式。

为什么乘数不只是 1.96

如果你知道总体真实的离散度,那么来自高斯分布的 95% 乘数会是 1.96。但你并不知道——你是从极少几个读数里估计出 s 的,所以 s 本身也带着不确定。为了保持诚实,我们用一个略大的乘数,叫作 t 值,它取决于你有多少个读数。

这个数量由自由度捕捉,对一组重复数据来说就是 n − 1(与标准差公式里的 n − 1 相同)。读数少时,t 值远高于 1.96——五个读数(4 个自由度)的 95% t 值约为 2.78。随着你收集更多数据,t 会缩回 1.96 附近。样本小就被罚以更宽的区间,这正是公平所要求的。

把硬币的例子算到底

  1. 平均值 = 4.010 克,s = 0.0158 克,n = 5,所以自由度 = 4。
  2. 标准误 = s ÷ √n = 0.0158 ÷ 2.236 = 0.0071 克。
  3. 查 4 个自由度的 95% t 值:2.78。
  4. 半宽 = 2.78 × 0.0071 = 0.020 克,所以报告 4.010 ± 0.020 克(95% 置信度)。

现在你的结果说话诚实了:不是光秃秃的「4.010」,而是「4.010 ± 0.020 克,这个 ± 背后有明确的置信度」。这一个习惯——总是附上置信区间——把「值得信赖的数字」和「只是随手写下的数字」区分了开来。