JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

信賴區間:你的平均值有多靠得住?

五個讀數給了你一個平均值,但再測五個會得到略微不同的另一個。那麼你的平均值離真值有多近?信賴區間為它裹上一個誠實的「正負多少」。

平均值的平均值也會抖動

你把硬幣稱了五次,得到平均值4.010 克。但有個令人不安的想法:如果同事也稱五次,他們的平均值會略有不同——也許 4.008,也許 4.013。4.010 這個數本身,只是一個略帶抖動的過程中抽到的一次。誠實的問題不是「我的平均值是多少?」,而是「我的平均值可能離真值多遠?」

好消息:平均值的抖動遠小於單個讀數。隨機的偏高和偏低在每個平均裡相互抵消,所以五次的平均比任何單次稱重都更穩。捕捉這種穩定性的數字,就是「平均值的標準誤」。

標準誤:平均值本身的離散度

平均值的標準誤標準差除以讀數個數的平方根:s ÷ √n。對硬幣:0.0158 ÷ √5 = 0.0158 ÷ 2.236 ≈ 0.0071 克。注意它比 s 本身更小——求平均縮小了抖動。

這個 √n 是關鍵的洞見——也是個警告。要把標準誤減半,你需要四倍數量的測量;要把它降到十分之一,需要一百倍。靠純粹重複買來的精密度很快就變得昂貴,這正是化學家也努力讓每一次單獨讀數變好的原因。

給平均值裹上「正負」

信賴區間把標準誤變成一個明確的範圍:「平均值 ±(一個乘數)× 標準誤」。95% 信賴區間的構造方式是:如果你把整個實驗重複很多遍,大約 95% 的這種區間會包含真值。它是把測量不確定度大聲說出來的正式方式。

為什麼乘數不只是 1.96

如果你知道母體真實的離散度,那麼來自高斯分布的 95% 乘數會是 1.96。但你並不知道——你是從極少幾個讀數裡估計出 s 的,所以 s 本身也帶著不確定。為了保持誠實,我們用一個略大的乘數,叫作 t 值,它取決於你有多少個讀數。

這個數量由自由度捕捉,對一組重複數據來說就是 n − 1(與標準差公式裡的 n − 1 相同)。讀數少時,t 值遠高於 1.96——五個讀數(4 個自由度)的 95% t 值約為 2.78。隨著你收集更多數據,t 會縮回 1.96 附近。樣本小就被罰以更寬的區間,這正是公平所要求的。

把硬幣的例子算到底

  1. 平均值 = 4.010 克,s = 0.0158 克,n = 5,所以自由度 = 4。
  2. 標準誤 = s ÷ √n = 0.0158 ÷ 2.236 = 0.0071 克。
  3. 查 4 個自由度的 95% t 值:2.78。
  4. 半寬 = 2.78 × 0.0071 = 0.020 克,所以報告 4.010 ± 0.020 克(95% 信賴度)。

現在你的結果說話誠實了:不是光禿禿的「4.010」,而是「4.010 ± 0.020 克,這個 ± 背後有明確的信賴度」。這一個習慣——總是附上信賴區間——把「值得信賴的數字」和「只是隨手寫下的數字」區分了開來。