JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

常態分配與鐘形曲線

在所有連續模型中,有一個總是不請自來:鐘形的常態分配。本篇講清楚它的公式、它那兩個旋鈕究竟在控制什麼,以及它為何能主宰世界上這麼多事物的深層原因。

那個一再回來的形狀

在這個階段裡,你目前遇到的模型都個性鮮明。均勻分配是一塊平板:它範圍內的每個值都同樣受青睞。指數分配是一道從高處往下走、不斷衰減的斜坡,也就是前幾篇那個無記憶的等待時間。相較之下,常態分配則是那個沒有邊、沒有角的——一座平滑、對稱的小山,在正中央升到單一的山頂,再朝兩側溫和地收細。人們叫它鐘形曲線,理由很明顯:畫在紙上,它看起來就像一口鐘的輪廓。

讓常態分配值得單獨用一整篇來講的,不是它好看,而是它頑強的無所不在。成年女性的身高、一次仔細測量的誤差、感測器讀數裡每天的雜訊、許多微小且彼此獨立的推擠加總起來——一次又一次,當你收集這類資料並畫出直方圖時,同一座小山就出現了。它常見到有兩個世紀的時間裡,人們乾脆叫它誤差曲線。我們稍後會看到,這絕非巧合;它來自一條定理,而不是運氣。

兩個旋鈕:它坐在哪、攤得多寬

每一個常態分配都由恰好兩個數字完整描述,而且它們的意義清爽直接。第一個是平均數 mu(希臘字母 mu),在這裡它同時也是中位數和眾數——由於對稱,山頂正好落在 mu 上方。把 mu 滑動一下,整座鐘就沿著數軸左移或右移,而形狀完全不變;mu 是「位置」旋鈕。第二個是標準差 sigma,它控制寬度。小的 sigma 給出又高又窄、集中的尖峰;大的 sigma 給出又矮又胖、攤得很開的土堆。關鍵是,滑動或拉伸這座鐘從不破壞它的常態性:一個平移、縮放後的常態,仍然是常態。

這是 Normal(mu, sigma^2) 的機率密度的真正公式。別被它嚇到——幾乎沒有人會用手去算它。f(x) = (1 / (sigma * sqrt(2*pi))) * e^(-(x - mu)^2 / (2*sigma^2))。你可以直接從這個代數式讀出它的形狀。(x - mu)^2 這一項量的是 x 離中心有多遠;負號加上指數 e^(-...) 把「離中心遠」變成「高度迅速消失」,這正是尾巴為什麼會掉下去的原因。分母裡的 2*sigma^2 告訴你:sigma 越大,那個掉落就越慢,於是鐘就越寬。前面那一坨 1/(sigma*sqrt(2*pi)),只是讓曲線下方總面積等於 1 的記帳常數。

f(x) = -------------- * e^(-(x - mu)^2 / (2 * sigma^2))
        sigma*sqrt(2pi)

  (x - mu)^2   -> distance from the centre, squared
  e^(-...)     -> turns distance into fast-fading height (the tails)
  2*sigma^2    -> larger sigma => slower fade => wider bell
  1/(sigma*sqrt(2pi)) -> makes the total area equal 1

  X ~ Normal(mu, sigma^2):  E[X] = mu,   Var(X) = sigma^2
常態密度函數,每一塊都標上它在塑造鐘形時所做的工作。

密度是高度,不是機率

人們很容易把 f(x) 讀成「X 恰好等於 x 的機率」,但對任何連續變數而言這根本是錯的,常態也不例外。f(x) 這個值是曲線的「高度」,不是機率——而事實上對一座又高又窄的鐘,f(x) 可以超過 1,這是任何機率都做不到的。這就是你在這個階段稍早遇過的密度不是機率這一點,而它在這裡咬得最兇,因為鐘形看起來太具體了。對連續的 X,落在任何單一數字上的機率是零:P(X = mu) = 0,連山頂也是。這沒有矛盾——山頂是結果密集堆積的地方,而不是任何單一結果帶有份量的地方。

連續變數的機率住在「面積」裡,不在高度裡。P(a <= X <= b) 是鐘形在 a 與 b 之間底下的面積——也就是 f 從 a 到 b 的積分。因為單一點寬度為零,面積也就為零,這正是 P(X = x) = 0 的原因,也正是你可以對端點隨便一點的原因:在這裡 P(X < b) 與 P(X <= b) 相等。整條曲線圍出的面積是 1,也就是全部的機率。要算 X 落在離平均數一個標準差以內的機率,你就把 mu - sigma 到 mu + sigma 這一條畫上陰影並量它的面積;結果接近 0.68,正是下一篇要專門講的那條著名規則的第一個數字。

一座鐘統御眾鐘:標準化

因為每一個常態都是同一個形狀,只是被 mu 平移、被 sigma 拉伸,所以有一座「母鐘」可以讓所有其他鐘都化約過去:標準常態 Z ~ Normal(0, 1),以 0 為中心、標準差為 1。執行這個化約的把戲就是 z 分數。給定 X ~ Normal(mu, sigma^2),定義 Z = (X - mu) / sigma。減去 mu 把鐘重新置中於 0;除以 sigma 把它擠到寬度 1。了不起的事實是:不論你一開始的 mu 和 sigma 是什麼,這個新的 Z 恰好就是標準常態。所以 z 分數回答一個乾淨的問題:這個值在平均數之上或之下幾個標準差?

這就是為什麼一張表,或計算機上的一個函式,就能處理世上每一個常態問題。假設成年人的靜止心率大約是 Normal(mu = 70, sigma^2 = 100),所以 sigma = 10 下/分鐘。一個心率 90 的人,z = (90 - 70) / 10 = 2.0——在平均之上兩個標準差。心率 55 的人,z = (55 - 70) / 10 = -1.5,在平均之下一個半。z 分數剝掉了單位(下、元、公分),留下在那座通用鐘上的純粹位置,任何機率都能由此查得。下一篇就把這些 z 分數變成 68-95-99.7 規則,並從中讀出真正的機率。

  1. 寫下模型:X ~ Normal(mu, sigma^2),並讀出 mu(中心)與 sigma(離散程度,即變異數的平方根)。
  2. 把你關心的值標準化:Z = (X - mu) / sigma。這把你的值換算成「離平均數幾個 sigma」。
  3. 在標準常態上查那個 z 對應的面積——用表、用計算機,或對整數情形用 68-95-99.7 規則。
  4. 把面積譯回你真正想要的機率(之上、之下、或之間),別忘了對稱性:-z 以下的面積等於 +z 以上的面積。

鐘形為何無所不在:中央極限定理一瞥

現在來談深層的問題:為什麼這「一個」形狀能主宰身高、誤差,以及這麼多其他東西,明明一個人的身高看起來一點也不像 e^(-(x-mu)^2/...)?答案是 中央極限定理,是等在這座階梯頂端的皇冠寶石。粗略地說,它指出:當你把許多微小、彼此獨立的影響「加總」起來——而沒有任何一個獨大——它們的總和會趨向一個常態分配,幾乎不論每一個個別影響本身是什麼形狀。身高是許多基因與營養推擠的總和;測量誤差是許多微小擾動的總和。把夠多的小而獨立的片段加起來,鐘形就自己冒出來了。

常態還有一份禮物,讓它在這裡成為自然的吸引子:它對加法封閉。如果 X 與 Y 是獨立的常態,那麼 X + Y 又恰好是常態,且平均數與「變異數」相加:E[X+Y] = E[X] + E[Y],而且因為獨立,Var(X+Y) = Var(X) + Var(Y)。注意是變異數相加,不是標準差相加——所以兩個獨立的 Normal(0, 1) 加起來是 Normal(0, 2),其離散程度是 sqrt(2),不是 2。正是這份穩定性,使得一旦某個量是由許多近似常態的可加片段構成,它就維持為單一座乾淨的鐘,而不會退化成某種坑坑巴巴的一團——而這也正是我們會一路拉到中央極限定理的那條線。

當鐘形是錯的模型

正因為常態這麼受寵,真正的本事在於知道何時「不該」用它。三個誠實的警訊。第一,偏斜:所得、房價、城市人口都有一條長長的右尾,而在零處有一道硬地板——一座連左尾都伸進負值的對稱鐘並不合適,這時對數常態往往更好用。第二,硬邊界:常態對每一個實數都賦予正的機率,所以對一個不可能為負的量(例如等待時間或重量),它永遠不可能完全正確;只有當 mu 坐在零之上好幾個 sigma 時,它才能當成一個方便的近似。

第三,肥尾。常態的尾巴消退得異常地快——超過四、五個 sigma 的值稀有到幾乎等於被禁止。但許多真實系統,尤其在金融與自然災害的規模上,產生極端事件的頻率遠高於鐘形的預測。把這類資料當成常態來建模,可能哄得你以為五個 sigma 的崩盤「不可能發生」,而事實上對的模型有更厚重的尾巴。最殘酷的例子是柯西分配:它乍看像一座鐘,尾巴卻厚重到「沒有」有限的平均數、也「沒有」有限的變異數,這正是上面那則提示所說、中央極限定理對它拒不適用的原因。看起來像鐘形,並不等於就是常態。