JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

Z 分數與 68-95-99.7 法則

每一條鐘形曲線其實都是同一條鐘形曲線。減去平均值、除以標準差,任何常態變數都變成那唯一的標準常態——其中有 68%、95% 與 99.7% 的機率落在距中心一步、兩步與三步之內。

一條鐘形統御眾鐘形

在上一篇你認識了常態分配 X ~ Normal(mu, sigma^2):一整族鐘形曲線,每一組中心 mu 與離散程度 sigma 都對應一條。聽起來好像有無窮多種形狀要學,但這裡有個讓人鬆一口氣的事實——它們其實都是同一種形狀,只是沿著座標軸平移、再拉伸或壓縮而已。一條以公分為單位的身高鐘形,與一條考試分數的鐘形,差別只在於峰頂落在哪裡、以及有多寬;側頭看、再重新縮放,一條就能恰好變成另一條。所以我們不必研究一千條鐘形,只研究一條,然後學會把其他所有的東西翻譯成它的語言。

那條作為基準的鐘形就是標準常態,寫作 Z ~ Normal(0, 1):以 mu = 0 為中心,標準差 sigma = 1。它的任務是當一把通用的量尺。把任何常態 X 變成 Z 的配方很短,值得刻進腦海:先減去平均值,再除以標準差。算出來的數叫做 z 分數,它回答一個乾淨俐落的問題——這個數值在平均值之上(正號)或之下(負號)幾個標準差?

寫成公式,這個配方就是 Z = (X - mu) / sigma,幾個算過的數字能把它定錨。拿一場分數為 X ~ Normal(70, 8) 的考試,所以 mu = 70、sigma = 8。考 86 分得 z = (86 - 70)/8 = +2.0,代表平均之上兩個標準差。考 62 分得 z = (62 - 70)/8 = -1.0,平均之下一個標準差。剛好考 70 分得 z = 0,正中央。請注意,同一個 z = +2.0 既可描述高出平均兩個 sigma 的身高,也可描述高出平均兩個 sigma 的薪水——這正是一把共用量尺的全部意義。

為何標準化不改變形狀

為什麼可以這樣減、這樣除,卻不破壞任何東西?因為這仰賴你早幾階就已證過的、關於平移與縮放隨機變數的規則。若你對 X 加上一個常數,平均值會移動那個常數,而離散程度不變;若你把 X 乘上一個常數,平均值與標準差都會被它縮放,所以變異數被它的平方縮放。乾淨地寫出來:對於變換 a + bX,有 E[a + bX] = a + b E[X] 與 Var(a + bX) = b^2 Var(X)。z 分數正是這個變換,其中 a = -mu/sigma、b = 1/sigma——若記憶模糊,可回顧隨機變數那一階的縮放與平移規則

把這些規則套用在 Z = (X - mu)/sigma 上,奇蹟就憑簡單的算術掉出來。新的平均值是 E[Z] = (E[X] - mu)/sigma = (mu - mu)/sigma = 0。新的變異數是 Var(Z) = Var(X)/sigma^2 = sigma^2/sigma^2 = 1,所以它的標準差是 1。又因為平移與縮放一個常態變數會得到另一個常態變數(這是這一族的特殊性質,不是泛用的),所以 Z 真的是 Normal(0, 1)。因此標準化把峰頂搬到零、把量尺重設為一——卻不扭曲曲線,就像把一張照片傾斜並重新縮放,仍保持每張臉的比例不變。

68-95-99.7 法則

既然每一個常態都說同一套標準化的語言,一組機率就能服務所有常態。經驗法則——也叫三標準差法則——說:對任何常態分配,約有 68% 的機率落在距平均值一個標準差之內,約 95% 落在兩個之內,約 99.7% 落在三個之內。用 z 分數來說就是:P(-1 < Z < 1) 約為 0.68,P(-2 < Z < 2) 約為 0.95,P(-3 < Z < 3) 約為 0.997。這不是每個分配都要分開記的三條事實;它們是關於那唯一一條標準鐘形的三條事實,你把它們搬進每一道題目即可。

把它畫在曲線上想像。鐘形對零對稱,所以一個 sigma 之內的 68% 留下兩側尾端合計 32%——每側 16%。兩個 sigma 之內的 95% 留下 5%,所以每側尾端 2.5%;這正是統計學裡到處在用的著名「95% 區間」的來源。三個 sigma 之內坐著 99.7%,所以只有 0.3% 的機率——千分之三——落在正負三個標準差之外,每側尾端各 0.15%。對一個常態變數來說,超過 z = 3 的值確實罕見,這也使得這條法則成了辨識異常資料的快速測謊器。

interval        z range        prob inside     prob in EACH tail
  mu +/- 1 sigma   -1 < Z < 1      ~ 0.68          ~ 0.16
  mu +/- 2 sigma   -2 < Z < 2      ~ 0.95          ~ 0.025
  mu +/- 3 sigma   -3 < Z < 3      ~ 0.997         ~ 0.0015

(symmetry: prob in each tail = (1 - prob inside) / 2)
經驗法則,以及對稱性所迫出的尾端分配。

實際運用:比較與定位數值

z 分數的第一項超能力是跨不同尺度的比較。假設美在一場 Normal(70, 8) 的數學考試考了 86 分,林在一場 Normal(75, 5) 的歷史考試考了 84 分。相對於各自的班級,誰表現得比較好?算 z 分數:美是 z = (86 - 70)/8 = +2.0,林是 z = (84 - 75)/5 = +1.8。美位於她班平均之上兩個標準差,林位於她班平均之上 1.8 個——所以就相對而言美略勝一籌,儘管原始分數很接近、又是不同的考試。z 分數正是讓蘋果與橘子能在同一把尺上排名的東西。

  1. 寫出模型與問題:在 X ~ Normal(70, 8) 之下,有多少比例的學生分數超過 86?
  2. 把臨界值標準化:z = (86 - 70)/8 = +2.0,所以「X 超過 86」與「Z 超過 2」是同一個事件。
  3. 套用法則:正負 2 個 sigma 之內約 95%,留下約 5% 在兩側尾端,所以每側約 2.5%。
  4. 讀出答案:P(Z > 2) 約為 0.025,所以大約 2.5% 的學生分數超過 86。

把同一台機器反向運轉,就能從機率反推數值——例如前 2.5% 的臨界分數,或一個分配的百分位數。你先找出留下所需尾端機率的 z(此處為前 2.5% 對應 z = 2),再用反向的配方去標準化:X = mu + z sigma = 70 + 2 * 8 = 86。這個來回的動作正是分位數函數在運作:累積分配函數把數值變成左尾機率,而分位數函數把機率變回數值。

這條法則不是什麼,以及它在哪裡失效

經驗法則是關於常態分配的事實,不是關於一般資料的事實。若你的資料偏斜、厚尾或雙峰,68-95-99.7 這組百分比可能錯得離譜——沒有什麼東西逼真實的測量值非得呈鐘形不可。一個較鈍、較弱的界叫做柴比雪夫不等式(你在不等式那段遇過的一種尾端界),它對任何有限變異數的分配都成立:至少 75% 的機率落在兩個 sigma 之內,至少 89% 落在三個之內。注意這些保證比 95% 與 99.7% 弱了多少;經驗法則之所以更緊,是對常態這個強假設的回報,而一旦該假設失效,這份緊度就蒸發了。

還有兩個陷阱值得一提。z 分數本身並不告訴你機率,除非該變數真的是常態——對於 t 分配或其他厚尾形狀,z 等於 3 遠不如每側 0.15% 那麼罕見,因為更多機率住在尾端。並且請記得密度那段的討論:z 分數是一個位置,不是機率,而鐘形在該位置的高度是一個密度,不是機率。連續變數的機率是曲線下、兩點之間的面積,這正是為什麼上面每一道題都變成「這個 z 之外有多少面積?」而不是「曲線在這裡的高度是多少?」。