信賴區間：你的平均值有多靠得住？

平均值的平均值也會抖動

你把硬幣稱了五次，得到平均值4.010 克。但有個令人不安的想法：如果同事也稱五次，他們的平均值會略有不同——也許 4.008，也許 4.013。4.010 這個數本身，只是一個略帶抖動的過程中抽到的一次。誠實的問題不是「我的平均值是多少？」，而是「我的平均值可能離真值多遠？」

好消息：平均值的抖動遠小於單個讀數。隨機的偏高和偏低在每個平均裡相互抵消，所以五次的平均比任何單次稱重都更穩。捕捉這種穩定性的數字，就是「平均值的標準誤」。

平均值的標準誤是標準差除以讀數個數的平方根：s ÷ √n。對硬幣：0.0158 ÷ √5 = 0.0158 ÷ 2.236 ≈ 0.0071 克。注意它比 s 本身更小——求平均縮小了抖動。

這個 √n 是關鍵的洞見——也是個警告。要把標準誤減半，你需要四倍數量的測量；要把它降到十分之一，需要一百倍。靠純粹重複買來的精密度很快就變得昂貴，這正是化學家也努力讓每一次單獨讀數變好的原因。

信賴區間把標準誤變成一個明確的範圍：「平均值 ±（一個乘數）× 標準誤」。95% 信賴區間的構造方式是：如果你把整個實驗重複很多遍，大約 95% 的這種區間會包含真值。它是把測量不確定度大聲說出來的正式方式。

如果你知道母體真實的離散度，那麼來自高斯分布的 95% 乘數會是 1.96。但你並不知道——你是從極少幾個讀數裡估計出 s 的，所以 s 本身也帶著不確定。為了保持誠實，我們用一個略大的乘數，叫作 t 值，它取決於你有多少個讀數。

這個數量由自由度捕捉，對一組重複數據來說就是 n − 1（與標準差公式裡的 n − 1 相同）。讀數少時，t 值遠高於 1.96——五個讀數（4 個自由度）的 95% t 值約為 2.78。隨著你收集更多數據，t 會縮回 1.96 附近。樣本小就被罰以更寬的區間，這正是公平所要求的。

現在你的結果說話誠實了：不是光禿禿的「4.010」，而是「4.010 ± 0.020 克，這個 ± 背後有明確的信賴度」。這一個習慣——總是附上信賴區間——把「值得信賴的數字」和「只是隨手寫下的數字」區分了開來。