每個測量背後的鐘形曲線

重複數據的直方圖

假設你不是把硬幣稱五次，而是稱五百次，然後把結果分到一個個小區間裡，並用一根柱子表示落在每個區間裡的數量。一幅圖就出現了：一個以平均值為中心的高高隆起，向兩側平滑而對稱地下降。大多數讀數靠近中間；少數零星地落在很遠處。離中心越遠，越稀有。

這個鐘形不是巧合。每當一個測量被許多微小、獨立、彼此疊加的隨機誤差推搡時，結果就會堆成同一條曲線。它如此普遍，以至於我們給它起了名字：高斯分布，也叫常態分布。

美妙之處在於：一條高斯曲線完全由上一篇裡的兩個數字決定。平均值決定峰值落在哪裡——把它左移或右移。標準差決定鐘形有多寬——小的 s 給出又高又窄、精密的隆起；大的 s 給出又矮又胖、潦草的隆起。調整這兩個旋鈕，你就能畫出任何一條常態曲線。

鐘形的寬度，正是之前講的變異數的故事，只是被畫了出來。精密的方法變異數小、峰尖銳。所以當有人報出一個平均值和一個標準差時，他們已經用兩個俐落的數字，悄悄把整條鐘形——它的位置和寬度——交到了你手裡。

因為每條高斯曲線形狀相同，你可以透過數「離平均值有幾個標準差」來讀出固定比例的數據。大約 68% 的讀數落在平均值的一個標準差之內；大約 95% 在兩個標準差之內；大約 99.7% 在三個標準差之內。這有時叫作經驗法則。

對硬幣（平均值 4.010 克，s ≈ 0.016 克），這條法則預測：未來約 95% 的稱重會落在 4.010 − 0.032 到 4.010 + 0.032 之間——也就是 3.978 到 4.042 克之間。所以標準差不只是給過去散布貼的標籤；它是一份關於「下一個讀數大概會落在哪裡」的預報。

高斯曲線把隨機誤差描述得很漂亮，但它對一件事是盲的。如果你的天平每一次稱重都偏重 0.05 克，整條鐘形只會整體橫移——它仍是同樣尖銳、狹窄的形狀，只是中心落在了錯誤的值上。這種恆定的偏移就是系統誤差，它會悄悄毒害你的準確度，卻完全不會讓曲線變寬。

這正是為什麼精密度（窄鐘形）和準確度（鐘形中心落在真值上）是兩回事。小標準差告訴你讀數彼此一致；它對「讀數是否與現實一致」隻字不提。要抓住一條移了位的鐘形，需要一個已知的參照——這是後面幾篇指南要逐步搭建的。