什麼是隨機變數？

從事件走向數字

在你身後的那幾個階段裡，機率住在由原始結果組成的樣本空間上，而你用柯爾莫哥洛夫公理為事件——也就是整批整批的結果——指派數值。這很有力，但對日常的問題來說也很笨拙。擲兩顆骰子，原始結果是一個像 (3, 5) 這樣的數對。多數時候你不在乎這個數對；你在乎的是總和（這裡是 8），或者總和是否至少為 10，又或者這些總和平均來說怎麼表現。你想處理的是數字，而不是一袋一袋的結果。

這正是隨機變數存在的全部理由。它是一座橋，把你從「結果的世界」載到「數字的世界」，在那裡微積分與算術終於能幫上忙。本階段裡的一切——質量函數、密度、累積分布函數、分位數——都只是用不同方式來描述一個隨機變數所產生的那些數字。所以現在就把核心想法弄得分毫不差，會在後面每一篇指南裡得到回報。

隨機變數是一個函數，不是一個數字

精確的想法是這樣的，而且幾乎每個人第一次看到都會嚇一跳。隨機變數是一個函數，它吃進一個結果，吐出一個實數。我們通常用大寫字母來寫它，比方說 X，並用 X(omega) 表示它指派給結果 omega 的那個數。隨機性並不住在 X 裡面——函數本身是一條固定、確定的規則。隨機性住在「實驗恰好產生了哪一個結果 omega」這件事上。X 只是從出現的那個結果上讀出一個數字。

拿兩顆骰子的例子來說。樣本空間是全部 36 個有順序的數對。定義 X = 兩個點數之和。那麼 X 就是「把兩個數相加」這條規則：X((3, 5)) = 8、X((6, 6)) = 12、X((1, 1)) = 2。在你擲出之前，你說不出 X 會取什麼值——但 X 本身從來不曾不確定。它在你說出「總和」的那一刻就已經被決定了。這就是為什麼這個名字有點誤導：隨機變數既不特別隨機，也不是代數意義下的變數。「結果上的隨機函數」會更誠實，但傳統的名字已經沿用下來了。

omega        X(omega) = sum
----------   --------------
(1,1)            2
(3,5)            8
(5,3)            8
(6,6)           12

X maps each of the 36 outcomes to a number on the real line.

隨機變數 X 是一條從結果到數字的固定規則；唯一隨機的，是哪一個結果發生。

隨機變數如何繼承它的機率

一旦 X 把結果變成數字，每一句關於 X 的陳述其實偷偷都是一句關於事件的陳述。當我們寫 P(X = 8) 時，意思是事件 {所有滿足 X(omega) = 8 的結果 omega} 的機率。對骰子總和來說，這些結果是 (2,6)、(3,5)、(4,4)、(5,3)、(6,2)——36 個同樣可能的數對裡的五個——所以 P(X = 8) = 5/36。同樣地，P(X >= 10) 是事件 {總和為 10、11 或 12 的結果} 的機率。隨機變數並沒有發明新的機率；它是從它所指向的事件那裡把機率拉回來。

這個「拉回」賦予隨機變數它自己的一套機率記帳，稱為 X 的分布律（或分布）：這條配方說明，對於任何一組數字 B，X 落在 B 裡面的機率是多少。讓這件事永遠行得通的那個要求，甚至還有個技術名稱——X 必須是一個可測函數，意思是集合 {X 落在 B 裡} 永遠是一個我們真的能指派機率的合法事件。對本課程裡的一般變數而言，這個條件會自動成立，所以你現在可以輕輕帶過；只要知道它是引擎蓋底下那行誠實的細則就好。

兩種口味：計數與量測

隨機變數有兩大類風格，而這個分野決定了你會去拿哪一套工具。離散型隨機變數取值於一張你數得出來的清單——通常是整數：骰子的總和（2 到 12）、十次拋擲裡正面的次數、一小時內到達的電子郵件數。連續型隨機變數則取值於實數線上的一整段區間：一個人精確的身高、燈泡燒壞前的時間、從刻度盤上讀出的量測值。這個區別正是離散型與連續型隨機變數的主題，而接下來兩篇指南會各給其中一種風格一整章。

對離散型變數，你藉由列出每個值上坐了多少機率來描述它：P(X = 2) = 1/36、P(X = 3) = 2/36，依此類推。這張「逐點機率」的表，就是機率質量函數，簡稱 pmf。對連續型變數你沒辦法這樣做，原因確實重要：單一一個精確的值，機率是零。一個身高*恰好*是 170.000…… 公分、後面無窮多位全是零的機會，是 0。所以連續型變數改用一個密度來描述，它量的是「單位長度上的機率」，而不是「某一點上的機率」。

一個描述統管全局：累積分布函數

pmf 適用於離散型變數，密度適用於連續型變數，但有一個描述對兩者都管用，連介於中間的雜亂情況也行：累積分布函數，簡稱 cdf。它定義為 F(x) = P(X <= x)：X 取到不超過門檻 x 的機率。當你把 x 從最左邊滑到最右邊時，F 會從 0 一路爬升到 1，沿途把機率一點一點掃進來。因為它回答的是「在這裡左邊有多少機率？」，所以無論機率是坐在離散的點上、抹在一段區間上、還是兩者兼有，cdf 永遠說得通。

正是這種普適性，讓 cdf 擁有自己的一篇指南（第 4 篇），也讓它成為四種描述中最深刻的一個。它還帶著一個值得先預告的優美事實：cdf 是這個變數的完整指紋。分布就是完整的機率描述——兩個有相同 cdf 的隨機變數，在你所能問的關於它們取值的每一個問題上，統計上都無法區分，即使其中一個是骰子總和，另一個來自一個截然不同的實驗。當兩個變數像這樣共享同一個分布律時，我們說它們是同分布的。

離散型：用 pmf——一張逐點質量 P(X = 值) 的表——來描述 X，而 cdf 會在每個值處往上跳。
連續型：用密度來描述 X，機率是曲線下方的面積，而 cdf 平滑地上升。
無論哪一種：cdf F(x) = P(X <= x) 都管用，它從 0 爬升到 1，把整個分布都編碼進去。

把分布倒過來讀：分位數與存活

cdf 問的是「給定一個值 x，它下方有多少機率？」你常常想要相反的問題：「給定一個機率，哪一個值正好坐在那個水平上？」這個逆運算就是分位數。最熟悉的分位數是中位數，也就是兩側各有一半機率的那個值，P(X <= m) = 0.5。百分位數是同一個想法的百分之一刻度：一場考試的第 90 百分位數，就是有 90% 的人落在它或它以下的那個分數。分位數讓你不必死守單一個平均值，就能談論典型值與極端值，而它正是第 5 篇指南的主題。

cdf 還有一個倒過來的表親，在可靠度與存活分析裡到處出現：存活函數 S(x) = P(X > x) = 1 - F(x)，也就是「撐到 x *以後*」的機率。如果 X 是一台機器的壽命，S(x) 就是它在時間 x 之後仍在運轉的機會。存活函數及其衰減的速率（風險率）是「還要多久才會故障」這類問題的自然語言，它們為第 5 篇指南收尾。請注意它們並不是新的資訊——兩者都只是 cdf，從另一頭讀起而已。

退一步，你就能看見整個階段的架構。一個隨機變數是「從結果到數字」的一個函數；支撐集是它實際能取到的那組值；而 pmf、密度、cdf、分位數函數與存活函數，是望向*同一個*底層分布的五扇不同的窗。為手上的問題挑對窗——區間用面積、「至多」用 cdf、「哪個值」用分位數、「多久」用存活——就是你在這裡正在培養的大半實務技巧。