常態分配與鐘形曲線

那個一再回來的形狀

在這個階段裡，你目前遇到的模型都個性鮮明。均勻分配是一塊平板：它範圍內的每個值都同樣受青睞。指數分配是一道從高處往下走、不斷衰減的斜坡，也就是前幾篇那個無記憶的等待時間。相較之下，常態分配則是那個沒有邊、沒有角的——一座平滑、對稱的小山，在正中央升到單一的山頂，再朝兩側溫和地收細。人們叫它鐘形曲線，理由很明顯：畫在紙上，它看起來就像一口鐘的輪廓。

讓常態分配值得單獨用一整篇來講的，不是它好看，而是它頑強的無所不在。成年女性的身高、一次仔細測量的誤差、感測器讀數裡每天的雜訊、許多微小且彼此獨立的推擠加總起來——一次又一次，當你收集這類資料並畫出直方圖時，同一座小山就出現了。它常見到有兩個世紀的時間裡，人們乾脆叫它誤差曲線。我們稍後會看到，這絕非巧合；它來自一條定理，而不是運氣。

兩個旋鈕：它坐在哪、攤得多寬

每一個常態分配都由恰好兩個數字完整描述，而且它們的意義清爽直接。第一個是平均數 mu（希臘字母 mu），在這裡它同時也是中位數和眾數——由於對稱，山頂正好落在 mu 上方。把 mu 滑動一下，整座鐘就沿著數軸左移或右移，而形狀完全不變；mu 是「位置」旋鈕。第二個是標準差 sigma，它控制寬度。小的 sigma 給出又高又窄、集中的尖峰；大的 sigma 給出又矮又胖、攤得很開的土堆。關鍵是，滑動或拉伸這座鐘從不破壞它的常態性：一個平移、縮放後的常態，仍然是常態。

這是 Normal(mu, sigma^2) 的機率密度的真正公式。別被它嚇到——幾乎沒有人會用手去算它。f(x) = (1 / (sigma * sqrt(2*pi))) * e^(-(x - mu)^2 / (2*sigma^2))。你可以直接從這個代數式讀出它的形狀。(x - mu)^2 這一項量的是 x 離中心有多遠；負號加上指數 e^(-...) 把「離中心遠」變成「高度迅速消失」，這正是尾巴為什麼會掉下去的原因。分母裡的 2*sigma^2 告訴你：sigma 越大，那個掉落就越慢，於是鐘就越寬。前面那一坨 1/(sigma*sqrt(2*pi))，只是讓曲線下方總面積等於 1 的記帳常數。

f(x) = -------------- * e^(-(x - mu)^2 / (2 * sigma^2))
        sigma*sqrt(2pi)

  (x - mu)^2   -> distance from the centre, squared
  e^(-...)     -> turns distance into fast-fading height (the tails)
  2*sigma^2    -> larger sigma => slower fade => wider bell
  1/(sigma*sqrt(2pi)) -> makes the total area equal 1

  X ~ Normal(mu, sigma^2):  E[X] = mu,   Var(X) = sigma^2

常態密度函數，每一塊都標上它在塑造鐘形時所做的工作。

密度是高度，不是機率

人們很容易把 f(x) 讀成「X 恰好等於 x 的機率」，但對任何連續變數而言這根本是錯的，常態也不例外。f(x) 這個值是曲線的「高度」，不是機率——而事實上對一座又高又窄的鐘，f(x) 可以超過 1，這是任何機率都做不到的。這就是你在這個階段稍早遇過的密度不是機率這一點，而它在這裡咬得最兇，因為鐘形看起來太具體了。對連續的 X，落在任何單一數字上的機率是零：P(X = mu) = 0，連山頂也是。這沒有矛盾——山頂是結果密集堆積的地方，而不是任何單一結果帶有份量的地方。

連續變數的機率住在「面積」裡，不在高度裡。P(a <= X <= b) 是鐘形在 a 與 b 之間底下的面積——也就是 f 從 a 到 b 的積分。因為單一點寬度為零，面積也就為零，這正是 P(X = x) = 0 的原因，也正是你可以對端點隨便一點的原因：在這裡 P(X < b) 與 P(X <= b) 相等。整條曲線圍出的面積是 1，也就是全部的機率。要算 X 落在離平均數一個標準差以內的機率，你就把 mu - sigma 到 mu + sigma 這一條畫上陰影並量它的面積；結果接近 0.68，正是下一篇要專門講的那條著名規則的第一個數字。

一座鐘統御眾鐘：標準化

因為每一個常態都是同一個形狀，只是被 mu 平移、被 sigma 拉伸，所以有一座「母鐘」可以讓所有其他鐘都化約過去：標準常態 Z ~ Normal(0, 1)，以 0 為中心、標準差為 1。執行這個化約的把戲就是 z 分數。給定 X ~ Normal(mu, sigma^2)，定義 Z = (X - mu) / sigma。減去 mu 把鐘重新置中於 0；除以 sigma 把它擠到寬度 1。了不起的事實是：不論你一開始的 mu 和 sigma 是什麼，這個新的 Z 恰好就是標準常態。所以 z 分數回答一個乾淨的問題：這個值在平均數之上或之下幾個標準差？

這就是為什麼一張表，或計算機上的一個函式，就能處理世上每一個常態問題。假設成年人的靜止心率大約是 Normal(mu = 70, sigma^2 = 100)，所以 sigma = 10 下／分鐘。一個心率 90 的人，z = (90 - 70) / 10 = 2.0——在平均之上兩個標準差。心率 55 的人，z = (55 - 70) / 10 = -1.5，在平均之下一個半。z 分數剝掉了單位（下、元、公分），留下在那座通用鐘上的純粹位置，任何機率都能由此查得。下一篇就把這些 z 分數變成 68-95-99.7 規則，並從中讀出真正的機率。

寫下模型：X ~ Normal(mu, sigma^2)，並讀出 mu（中心）與 sigma（離散程度，即變異數的平方根）。
把你關心的值標準化：Z = (X - mu) / sigma。這把你的值換算成「離平均數幾個 sigma」。
在標準常態上查那個 z 對應的面積——用表、用計算機，或對整數情形用 68-95-99.7 規則。
把面積譯回你真正想要的機率（之上、之下、或之間），別忘了對稱性：-z 以下的面積等於 +z 以上的面積。

鐘形為何無所不在：中央極限定理一瞥

現在來談深層的問題：為什麼這「一個」形狀能主宰身高、誤差，以及這麼多其他東西，明明一個人的身高看起來一點也不像 e^(-(x-mu)^2/...)？答案是中央極限定理，是等在這座階梯頂端的皇冠寶石。粗略地說，它指出：當你把許多微小、彼此獨立的影響「加總」起來——而沒有任何一個獨大——它們的總和會趨向一個常態分配，幾乎不論每一個個別影響本身是什麼形狀。身高是許多基因與營養推擠的總和；測量誤差是許多微小擾動的總和。把夠多的小而獨立的片段加起來，鐘形就自己冒出來了。

常態還有一份禮物，讓它在這裡成為自然的吸引子：它對加法封閉。如果 X 與 Y 是獨立的常態，那麼 X + Y 又恰好是常態，且平均數與「變異數」相加：E[X+Y] = E[X] + E[Y]，而且因為獨立，Var(X+Y) = Var(X) + Var(Y)。注意是變異數相加，不是標準差相加——所以兩個獨立的 Normal(0, 1) 加起來是 Normal(0, 2)，其離散程度是 sqrt(2)，不是 2。正是這份穩定性，使得一旦某個量是由許多近似常態的可加片段構成，它就維持為單一座乾淨的鐘，而不會退化成某種坑坑巴巴的一團——而這也正是我們會一路拉到中央極限定理的那條線。

當鐘形是錯的模型

正因為常態這麼受寵，真正的本事在於知道何時「不該」用它。三個誠實的警訊。第一，偏斜：所得、房價、城市人口都有一條長長的右尾，而在零處有一道硬地板——一座連左尾都伸進負值的對稱鐘並不合適，這時對數常態往往更好用。第二，硬邊界：常態對每一個實數都賦予正的機率，所以對一個不可能為負的量（例如等待時間或重量），它永遠不可能完全正確；只有當 mu 坐在零之上好幾個 sigma 時，它才能當成一個方便的近似。

第三，肥尾。常態的尾巴消退得異常地快——超過四、五個 sigma 的值稀有到幾乎等於被禁止。但許多真實系統，尤其在金融與自然災害的規模上，產生極端事件的頻率遠高於鐘形的預測。把這類資料當成常態來建模，可能哄得你以為五個 sigma 的崩盤「不可能發生」，而事實上對的模型有更厚重的尾巴。最殘酷的例子是柯西分配：它乍看像一座鐘，尾巴卻厚重到「沒有」有限的平均數、也「沒有」有限的變異數，這正是上面那則提示所說、中央極限定理對它拒不適用的原因。看起來像鐘形，並不等於就是常態。