作為可測函數的隨機變數

還是那個老隨機變數，只多了一條新條款

當你第一次認識隨機變數 X 時，那幅圖像其實已經分毫不差：X 是一個函數，吃進一個結果 omega、吐出一個實數 X(omega)。隨機性從不住在 X 本身——X 是一條固定、確定的規則——它住在「實驗端出哪一個結果」這件事上。擲兩顆骰子、令 X 為總和，那麼 X((3,5)) = 8，而這條規則本身毫無不確定性。本階段裡這個故事一點都不會變。我們不是要替換這個想法；我們是要查驗它的執照。

前幾篇指南把一道缺口逼到了檯面上。在第 1 篇你看到了為什麼樸素機率會崩潰：在連續空間上，你無法給每個子集都指派一個合理的大小，所以一個不可測集根本沒有機率可言。在第 2 篇你藉由住在一個可測空間 (Omega, F) 上、且只對 σ-代數 F 中的事件指派機率，修補了這一點。但這個修補對隨機變數帶來一個初等課程悄悄略過的後果：當我們寫 P(X <= 3) 時，我們問的是集合 {omega : X(omega) <= 3} 的機率。若這個集合不在 F 裡，那個問題就不是「困難」——而是「無意義」。所以 X 不能是隨便一個函數；它必須是「它所有的問題都會落在合法事件上」的那種函數。

可測性，精確版：原像必須是事件

乾淨的定義如下。固定一個機率空間 (Omega, F, P)。一個函數 X: Omega -> R 是隨機變數——一個可測函數——若對實數線上的每個 Borel 集 B，其原像 X^(-1)(B) = {omega : X(omega) 落在 B 中} 都屬於 F。原像是「X 送入 B 的所有結果」所成的集合；說它在 F 裡，就是說那個集合是一個我們能度量的合法事件。請仔細看清方向：我們把線上的集合 B *拉回*到 Omega，並要求結果是一個事件。可測性講的是「原像的方向正確」，而不是「像往前去」。

「對每個 Borel 集 B 都成立」聽起來像是無窮無盡的查驗，而此處測度論遞給你一個漂亮的捷徑。你只需驗證單單一族就夠了：對每個實數 x，{omega : X(omega) <= x} 都是事件。為何這麼少就行？因為半直線 (-infinity, x] 生成整個 Borel σ-代數——每個 Borel 集都能用它們經由取補與可數聯集建構出來。由於原像「尊重」這些運算（補集的原像是補集，聯集的原像是聯集），所以若所有半直線都拉回成事件，那麼凡是你能由它們建構出來的，也都會拉回成事件。這正是你當初建構 Borel 集時所用的「由一小族生成」的同一招。

Two coin tosses:  Omega = {HH, HT, TH, TT},  F = all subsets
X = number of heads.

  B on the line          X^(-1)(B)  (pull back to Omega)     in F?
  ------------------     ---------------------------------    -----
  {1}                    {HT, TH}                             yes
  (-inf, 0]              {TT}                                 yes
  (-inf, 1]              {HT, TH, TT}                         yes
  [2, 5]                 {HH}                                 yes

Every range pulls back to a legal event, so X is measurable, and
P(X = 1) = P({HT, TH}) = 1/2.

親手驗證可測性：X 的每個範圍 B 都拉回成一個真正在 F 裡的集合，所以每個 P(X 落在 B 中) 都有定義。

為什麼這不只是繁文縟節

人們很想把可測性歸檔到無聊的細則底下，但它其實是承重的。回想較早的隨機變數階段，累積分布函數 F(x) = P(X <= x) 是那個對離散、連續與混合型變數一視同仁都管用的描述。而那個定義唯有在「{X <= x} 對每個 x 都是事件」時才說得通——這恰恰就是可測性條件。所以可測性不是事後栓到隨機變數上的附件；它正是「讓 cdf、從而讓整個分布得以存在」的那個最低條件。

那麼一個函數什麼時候會不可測呢？實務上幾乎永遠不會——而這正是真正令人安心的消息。凡是你能用公式、求和、乘積、合成、極限與連續運算寫下來的函數，都自動可測。連續函數可測；可測函數的和與積可測；可測函數的逐點極限也可測——這正是為何第 4 篇裡的收斂定理不會三不五時就把你推下懸崖。唯一會失敗的，是那些用選擇公理造出來的病態怪物——就是第 1 篇裡製造出不可測集的同一套機械。你絕不會不小心寫出一個來。

回報：把機率往前推到實數線上

現在來領回報。一旦 X 可測，每個原像 X^(-1)(B) 都是一個合法事件，所以我們能度量它——而這讓我們能定義一個完全住在實數線上的全新機率測度。對每個 Borel 集 B，令 P_X(B) = P(X^(-1)(B)) = P(X 落在 B 中)：P_X 給某區域 B 的權重，就是「X 映入 B 的所有結果」的原始機率。這個被搬運過去的測度 P_X，就是 P 沿著 X 的前推，也正是我們一直以來所說的 X 的分布律（或分布）。我們把機率從抽象的 Omega 往前推、推到 R 上。

這正是為什麼日常工作中你被允許忘掉底層的樣本空間。當你說 X ~ 常態(mu, sigma^2) 時，你根本沒有在描述任何 Omega——你是在直接為 R 上的那個前推測度命名。兩個前推相同的隨機變數，在你所能問的關於它們取值的每一個問題上，統計上都完全相同，即使其中一個由骰子造出、另一個由放射性衰變造出。cdf、密度、期望值 E[X]、變異數 Var(X)，以及每一個動差，全都僅由 P_X 計算而得。雜亂的 Omega 把我們載到了這裡、任務已了，現在可以安靜退場了。

從把實驗寫成機率空間 (Omega, F, P) 開始——原始結果的抽象世界。
挑一個可測的 X: Omega -> R；可測性保證每個 {X 落在 B 中} 都是一個真正的事件。
往前推：定義 P_X(B) = P(X 落在 B 中)，一個只住在實數線上的機率測度。
從此完全用 P_X 工作——cdf、密度、E[X]、Var(X)——再也不必提起 Omega。

誠實的細則，與通往前方的橋

兩條誠實的提醒讓這幅圖保持真確。第一，分布相同不代表隨機變數相同。對一個標準常態而言，X 與 -X 共享一模一樣的常態(0,1) 分布律——同一個前推——然而在任何給定的結果上它們取相反的值，根本不是同一個函數。分布遺忘了結果；它只記得值的散布。第二，前推確實丟掉了資訊：單憑 P_X，你既無法復原 Omega，也無法復原 X 與「同一實驗上的另一個變數 Y」之間的關係。聯合行為與相依性住在上游的 Omega 上——這就是為什麼我們不能把一切都往前推、然後永遠一走了之。

第二條提醒，正是交棒給本階段其餘部分的那一刻。因為每個 {X 落在 B 中} 都是一個合法事件，所有這類事件的全體就構成了 F 的一個子 σ-代數——也就是 X 所攜帶的資訊。第 4 篇將用可測性把 E[X] 定義為對 P 的勒貝格積分，這是一個同時處理離散求和與連續積分的單一構造，並附帶舊的黎曼積分給不了的極限定理。接著第 5 篇會問：兩個隨機變數何時攜帶*各自獨立*的資訊——獨立性與乘積測度——並以零一律收尾。可測性，就是這一切藉以轉動的那個安靜的鉸鏈。