從事件走向數字
在你身後的那幾個階段裡,機率住在由原始結果組成的樣本空間上,而你用柯爾莫哥洛夫公理為事件——也就是整批整批的結果——指派數值。這很有力,但對日常的問題來說也很笨拙。擲兩顆骰子,原始結果是一個像 (3, 5) 這樣的數對。多數時候你不在乎這個數對;你在乎的是總和(這裡是 8),或者總和是否至少為 10,又或者這些總和平均來說怎麼表現。你想處理的是數字,而不是一袋一袋的結果。
這正是隨機變數存在的全部理由。它是一座橋,把你從「結果的世界」載到「數字的世界」,在那裡微積分與算術終於能幫上忙。本階段裡的一切——質量函數、密度、累積分布函數、分位數——都只是用不同方式來描述一個隨機變數所產生的那些數字。所以現在就把核心想法弄得分毫不差,會在後面每一篇指南裡得到回報。
隨機變數是一個函數,不是一個數字
精確的想法是這樣的,而且幾乎每個人第一次看到都會嚇一跳。隨機變數是一個函數,它吃進一個結果,吐出一個實數。我們通常用大寫字母來寫它,比方說 X,並用 X(omega) 表示它指派給結果 omega 的那個數。隨機性並不住在 X 裡面——函數本身是一條固定、確定的規則。隨機性住在「實驗恰好產生了哪一個結果 omega」這件事上。X 只是從出現的那個結果上讀出一個數字。
拿兩顆骰子的例子來說。樣本空間是全部 36 個有順序的數對。定義 X = 兩個點數之和。那麼 X 就是「把兩個數相加」這條規則:X((3, 5)) = 8、X((6, 6)) = 12、X((1, 1)) = 2。在你擲出之前,你說不出 X 會取什麼值——但 X 本身從來不曾不確定。它在你說出「總和」的那一刻就已經被決定了。這就是為什麼這個名字有點誤導:隨機變數既不特別隨機,也不是代數意義下的變數。「結果上的隨機函數」會更誠實,但傳統的名字已經沿用下來了。
omega X(omega) = sum ---------- -------------- (1,1) 2 (3,5) 8 (5,3) 8 (6,6) 12 X maps each of the 36 outcomes to a number on the real line.
隨機變數如何繼承它的機率
一旦 X 把結果變成數字,每一句關於 X 的陳述其實偷偷都是一句關於事件的陳述。當我們寫 P(X = 8) 時,意思是事件 {所有滿足 X(omega) = 8 的結果 omega} 的機率。對骰子總和來說,這些結果是 (2,6)、(3,5)、(4,4)、(5,3)、(6,2)——36 個同樣可能的數對裡的五個——所以 P(X = 8) = 5/36。同樣地,P(X >= 10) 是事件 {總和為 10、11 或 12 的結果} 的機率。隨機變數並沒有發明新的機率;它是從它所指向的事件那裡把機率拉回來。
這個「拉回」賦予隨機變數它自己的一套機率記帳,稱為 X 的分布律(或分布):這條配方說明,對於任何一組數字 B,X 落在 B 裡面的機率是多少。讓這件事永遠行得通的那個要求,甚至還有個技術名稱——X 必須是一個可測函數,意思是集合 {X 落在 B 裡} 永遠是一個我們真的能指派機率的合法事件。對本課程裡的一般變數而言,這個條件會自動成立,所以你現在可以輕輕帶過;只要知道它是引擎蓋底下那行誠實的細則就好。
兩種口味:計數與量測
隨機變數有兩大類風格,而這個分野決定了你會去拿哪一套工具。離散型隨機變數取值於一張你數得出來的清單——通常是整數:骰子的總和(2 到 12)、十次拋擲裡正面的次數、一小時內到達的電子郵件數。連續型隨機變數則取值於實數線上的一整段區間:一個人精確的身高、燈泡燒壞前的時間、從刻度盤上讀出的量測值。這個區別正是離散型與連續型隨機變數的主題,而接下來兩篇指南會各給其中一種風格一整章。
對離散型變數,你藉由列出每個值上坐了多少機率來描述它:P(X = 2) = 1/36、P(X = 3) = 2/36,依此類推。這張「逐點機率」的表,就是機率質量函數,簡稱 pmf。對連續型變數你沒辦法這樣做,原因確實重要:單一一個精確的值,機率是零。一個身高*恰好*是 170.000…… 公分、後面無窮多位全是零的機會,是 0。所以連續型變數改用一個密度來描述,它量的是「單位長度上的機率」,而不是「某一點上的機率」。
一個描述統管全局:累積分布函數
pmf 適用於離散型變數,密度適用於連續型變數,但有一個描述對兩者都管用,連介於中間的雜亂情況也行:累積分布函數,簡稱 cdf。它定義為 F(x) = P(X <= x):X 取到不超過門檻 x 的機率。當你把 x 從最左邊滑到最右邊時,F 會從 0 一路爬升到 1,沿途把機率一點一點掃進來。因為它回答的是「在這裡左邊有多少機率?」,所以無論機率是坐在離散的點上、抹在一段區間上、還是兩者兼有,cdf 永遠說得通。
正是這種普適性,讓 cdf 擁有自己的一篇指南(第 4 篇),也讓它成為四種描述中最深刻的一個。它還帶著一個值得先預告的優美事實:cdf 是這個變數的完整指紋。分布就是完整的機率描述——兩個有相同 cdf 的隨機變數,在你所能問的關於它們取值的每一個問題上,統計上都無法區分,即使其中一個是骰子總和,另一個來自一個截然不同的實驗。當兩個變數像這樣共享同一個分布律時,我們說它們是同分布的。
- 離散型:用 pmf——一張逐點質量 P(X = 值) 的表——來描述 X,而 cdf 會在每個值處往上跳。
- 連續型:用密度來描述 X,機率是曲線下方的面積,而 cdf 平滑地上升。
- 無論哪一種:cdf F(x) = P(X <= x) 都管用,它從 0 爬升到 1,把整個分布都編碼進去。
把分布倒過來讀:分位數與存活
cdf 問的是「給定一個值 x,它下方有多少機率?」你常常想要相反的問題:「給定一個機率,哪一個值正好坐在那個水平上?」這個逆運算就是分位數。最熟悉的分位數是中位數,也就是兩側各有一半機率的那個值,P(X <= m) = 0.5。百分位數是同一個想法的百分之一刻度:一場考試的第 90 百分位數,就是有 90% 的人落在它或它以下的那個分數。分位數讓你不必死守單一個平均值,就能談論典型值與極端值,而它正是第 5 篇指南的主題。
cdf 還有一個倒過來的表親,在可靠度與存活分析裡到處出現:存活函數 S(x) = P(X > x) = 1 - F(x),也就是「撐到 x *以後*」的機率。如果 X 是一台機器的壽命,S(x) 就是它在時間 x 之後仍在運轉的機會。存活函數及其衰減的速率(風險率)是「還要多久才會故障」這類問題的自然語言,它們為第 5 篇指南收尾。請注意它們並不是新的資訊——兩者都只是 cdf,從另一頭讀起而已。
退一步,你就能看見整個階段的架構。一個隨機變數是「從結果到數字」的一個函數;支撐集是它實際能取到的那組值;而 pmf、密度、cdf、分位數函數與存活函數,是望向*同一個*底層分布的五扇不同的窗。為手上的問題挑對窗——區間用面積、「至多」用 cdf、「哪個值」用分位數、「多久」用存活——就是你在這裡正在培養的大半實務技巧。