Z 分數與 68-95-99.7 法則

一條鐘形統御眾鐘形

在上一篇你認識了常態分配 X ~ Normal(mu, sigma^2)：一整族鐘形曲線，每一組中心 mu 與離散程度 sigma 都對應一條。聽起來好像有無窮多種形狀要學，但這裡有個讓人鬆一口氣的事實——它們其實都是同一種形狀，只是沿著座標軸平移、再拉伸或壓縮而已。一條以公分為單位的身高鐘形，與一條考試分數的鐘形，差別只在於峰頂落在哪裡、以及有多寬；側頭看、再重新縮放，一條就能恰好變成另一條。所以我們不必研究一千條鐘形，只研究一條，然後學會把其他所有的東西翻譯成它的語言。

那條作為基準的鐘形就是標準常態，寫作 Z ~ Normal(0, 1)：以 mu = 0 為中心，標準差 sigma = 1。它的任務是當一把通用的量尺。把任何常態 X 變成 Z 的配方很短，值得刻進腦海：先減去平均值，再除以標準差。算出來的數叫做 z 分數，它回答一個乾淨俐落的問題——這個數值在平均值之上（正號）或之下（負號）幾個標準差？

寫成公式，這個配方就是 Z = (X - mu) / sigma，幾個算過的數字能把它定錨。拿一場分數為 X ~ Normal(70, 8) 的考試，所以 mu = 70、sigma = 8。考 86 分得 z = (86 - 70)/8 = +2.0，代表平均之上兩個標準差。考 62 分得 z = (62 - 70)/8 = -1.0，平均之下一個標準差。剛好考 70 分得 z = 0，正中央。請注意，同一個 z = +2.0 既可描述高出平均兩個 sigma 的身高，也可描述高出平均兩個 sigma 的薪水——這正是一把共用量尺的全部意義。

為何標準化不改變形狀

為什麼可以這樣減、這樣除，卻不破壞任何東西？因為這仰賴你早幾階就已證過的、關於平移與縮放隨機變數的規則。若你對 X 加上一個常數，平均值會移動那個常數，而離散程度不變；若你把 X 乘上一個常數，平均值與標準差都會被它縮放，所以變異數被它的平方縮放。乾淨地寫出來：對於變換 a + bX，有 E[a + bX] = a + b E[X] 與 Var(a + bX) = b^2 Var(X)。z 分數正是這個變換，其中 a = -mu/sigma、b = 1/sigma——若記憶模糊，可回顧隨機變數那一階的縮放與平移規則。

把這些規則套用在 Z = (X - mu)/sigma 上，奇蹟就憑簡單的算術掉出來。新的平均值是 E[Z] = (E[X] - mu)/sigma = (mu - mu)/sigma = 0。新的變異數是 Var(Z) = Var(X)/sigma^2 = sigma^2/sigma^2 = 1，所以它的標準差是 1。又因為平移與縮放一個常態變數會得到另一個常態變數（這是這一族的特殊性質，不是泛用的），所以 Z 真的是 Normal(0, 1)。因此標準化把峰頂搬到零、把量尺重設為一——卻不扭曲曲線，就像把一張照片傾斜並重新縮放，仍保持每張臉的比例不變。

68-95-99.7 法則

既然每一個常態都說同一套標準化的語言，一組機率就能服務所有常態。經驗法則——也叫三標準差法則——說：對任何常態分配，約有 68% 的機率落在距平均值一個標準差之內，約 95% 落在兩個之內，約 99.7% 落在三個之內。用 z 分數來說就是：P(-1 < Z < 1) 約為 0.68，P(-2 < Z < 2) 約為 0.95，P(-3 < Z < 3) 約為 0.997。這不是每個分配都要分開記的三條事實；它們是關於那唯一一條標準鐘形的三條事實，你把它們搬進每一道題目即可。

把它畫在曲線上想像。鐘形對零對稱，所以一個 sigma 之內的 68% 留下兩側尾端合計 32%——每側 16%。兩個 sigma 之內的 95% 留下 5%，所以每側尾端 2.5%；這正是統計學裡到處在用的著名「95% 區間」的來源。三個 sigma 之內坐著 99.7%，所以只有 0.3% 的機率——千分之三——落在正負三個標準差之外，每側尾端各 0.15%。對一個常態變數來說，超過 z = 3 的值確實罕見，這也使得這條法則成了辨識異常資料的快速測謊器。

interval        z range        prob inside     prob in EACH tail
  mu +/- 1 sigma   -1 < Z < 1      ~ 0.68          ~ 0.16
  mu +/- 2 sigma   -2 < Z < 2      ~ 0.95          ~ 0.025
  mu +/- 3 sigma   -3 < Z < 3      ~ 0.997         ~ 0.0015

(symmetry: prob in each tail = (1 - prob inside) / 2)

經驗法則，以及對稱性所迫出的尾端分配。

實際運用：比較與定位數值

z 分數的第一項超能力是跨不同尺度的比較。假設美在一場 Normal(70, 8) 的數學考試考了 86 分，林在一場 Normal(75, 5) 的歷史考試考了 84 分。相對於各自的班級，誰表現得比較好？算 z 分數：美是 z = (86 - 70)/8 = +2.0，林是 z = (84 - 75)/5 = +1.8。美位於她班平均之上兩個標準差，林位於她班平均之上 1.8 個——所以就相對而言美略勝一籌，儘管原始分數很接近、又是不同的考試。z 分數正是讓蘋果與橘子能在同一把尺上排名的東西。

寫出模型與問題：在 X ~ Normal(70, 8) 之下，有多少比例的學生分數超過 86？
把臨界值標準化：z = (86 - 70)/8 = +2.0，所以「X 超過 86」與「Z 超過 2」是同一個事件。
套用法則：正負 2 個 sigma 之內約 95%，留下約 5% 在兩側尾端，所以每側約 2.5%。
讀出答案：P(Z > 2) 約為 0.025，所以大約 2.5% 的學生分數超過 86。

把同一台機器反向運轉，就能從機率反推數值——例如前 2.5% 的臨界分數，或一個分配的百分位數。你先找出留下所需尾端機率的 z（此處為前 2.5% 對應 z = 2），再用反向的配方去標準化：X = mu + z sigma = 70 + 2 * 8 = 86。這個來回的動作正是分位數函數在運作：累積分配函數把數值變成左尾機率，而分位數函數把機率變回數值。

這條法則不是什麼，以及它在哪裡失效

經驗法則是關於常態分配的事實，不是關於一般資料的事實。若你的資料偏斜、厚尾或雙峰，68-95-99.7 這組百分比可能錯得離譜——沒有什麼東西逼真實的測量值非得呈鐘形不可。一個較鈍、較弱的界叫做柴比雪夫不等式（你在不等式那段遇過的一種尾端界），它對任何有限變異數的分配都成立：至少 75% 的機率落在兩個 sigma 之內，至少 89% 落在三個之內。注意這些保證比 95% 與 99.7% 弱了多少；經驗法則之所以更緊，是對常態這個強假設的回報，而一旦該假設失效，這份緊度就蒸發了。

還有兩個陷阱值得一提。z 分數本身並不告訴你機率，除非該變數真的是常態——對於 t 分配或其他厚尾形狀，z 等於 3 遠不如每側 0.15% 那麼罕見，因為更多機率住在尾端。並且請記得密度那段的討論：z 分數是一個位置，不是機率，而鐘形在該位置的高度是一個密度，不是機率。連續變數的機率是曲線下、兩點之間的面積，這正是為什麼上面每一道題都變成「這個 z 之外有多少面積？」而不是「曲線在這裡的高度是多少？」。