JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

作為可測函數的隨機變數

很久以前你認識的隨機變數,是一條「從結果上讀出一個數字」的規則。現在我們補上那一行讓這條規則合法的細則——可測性——並看著整個分布以「被往前推到實數線上的機率」之姿重生。

還是那個老隨機變數,只多了一條新條款

當你第一次認識隨機變數 X 時,那幅圖像其實已經分毫不差:X 是一個函數,吃進一個結果 omega、吐出一個實數 X(omega)。隨機性從不住在 X 本身——X 是一條固定、確定的規則——它住在「實驗端出哪一個結果」這件事上。擲兩顆骰子、令 X 為總和,那麼 X((3,5)) = 8,而這條規則本身毫無不確定性。本階段裡這個故事一點都不會變。我們不是要替換這個想法;我們是要查驗它的執照。

前幾篇指南把一道缺口逼到了檯面上。在第 1 篇你看到了為什麼樸素機率會崩潰:在連續空間上,你無法給每個子集都指派一個合理的大小,所以一個不可測集根本沒有機率可言。在第 2 篇你藉由住在一個可測空間 (Omega, F) 上、且只對 σ-代數 F 中的事件指派機率,修補了這一點。但這個修補對隨機變數帶來一個初等課程悄悄略過的後果:當我們寫 P(X <= 3) 時,我們問的是集合 {omega : X(omega) <= 3} 的機率。若這個集合不在 F 裡,那個問題就不是「困難」——而是「無意義」。所以 X 不能是隨便一個函數;它必須是「它所有的問題都會落在合法事件上」的那種函數。

可測性,精確版:原像必須是事件

乾淨的定義如下。固定一個機率空間 (Omega, F, P)。一個函數 X: Omega -> R 是隨機變數——一個可測函數——若對實數線上的每個 Borel 集 B,其原像 X^(-1)(B) = {omega : X(omega) 落在 B 中} 都屬於 F。原像是「X 送入 B 的所有結果」所成的集合;說它在 F 裡,就是說那個集合是一個我們能度量的合法事件。請仔細看清方向:我們把線上的集合 B *拉回*到 Omega,並要求結果是一個事件。可測性講的是「原像的方向正確」,而不是「像往前去」。

「對每個 Borel 集 B 都成立」聽起來像是無窮無盡的查驗,而此處測度論遞給你一個漂亮的捷徑。你只需驗證單單一族就夠了:對每個實數 x,{omega : X(omega) <= x} 都是事件。為何這麼少就行?因為半直線 (-infinity, x] 生成整個 Borel σ-代數——每個 Borel 集都能用它們經由取補與可數聯集建構出來。由於原像「尊重」這些運算(補集的原像是補集,聯集的原像是聯集),所以若所有半直線都拉回成事件,那麼凡是你能由它們建構出來的,也都會拉回成事件。這正是你當初建構 Borel 集時所用的「由一小族生成」的同一招。

Two coin tosses:  Omega = {HH, HT, TH, TT},  F = all subsets
X = number of heads.

  B on the line          X^(-1)(B)  (pull back to Omega)     in F?
  ------------------     ---------------------------------    -----
  {1}                    {HT, TH}                             yes
  (-inf, 0]              {TT}                                 yes
  (-inf, 1]              {HT, TH, TT}                         yes
  [2, 5]                 {HH}                                 yes

Every range pulls back to a legal event, so X is measurable, and
P(X = 1) = P({HT, TH}) = 1/2.
親手驗證可測性:X 的每個範圍 B 都拉回成一個真正在 F 裡的集合,所以每個 P(X 落在 B 中) 都有定義。

為什麼這不只是繁文縟節

人們很想把可測性歸檔到無聊的細則底下,但它其實是承重的。回想較早的隨機變數階段,累積分布函數 F(x) = P(X <= x) 是那個對離散、連續與混合型變數一視同仁都管用的描述。而那個定義唯有在「{X <= x} 對每個 x 都是事件」時才說得通——這恰恰就是可測性條件。所以可測性不是事後栓到隨機變數上的附件;它正是「讓 cdf、從而讓整個分布得以存在」的那個最低條件。

那麼一個函數什麼時候會不可測呢?實務上幾乎永遠不會——而這正是真正令人安心的消息。凡是你能用公式、求和、乘積、合成、極限與連續運算寫下來的函數,都自動可測。連續函數可測;可測函數的和與積可測;可測函數的逐點極限也可測——這正是為何第 4 篇裡的收斂定理不會三不五時就把你推下懸崖。唯一會失敗的,是那些用選擇公理造出來的病態怪物——就是第 1 篇裡製造出不可測集的同一套機械。你絕不會不小心寫出一個來。

回報:把機率往前推到實數線上

現在來領回報。一旦 X 可測,每個原像 X^(-1)(B) 都是一個合法事件,所以我們能度量它——而這讓我們能定義一個完全住在實數線上的全新機率測度。對每個 Borel 集 B,令 P_X(B) = P(X^(-1)(B)) = P(X 落在 B 中):P_X 給某區域 B 的權重,就是「X 映入 B 的所有結果」的原始機率。這個被搬運過去的測度 P_X,就是 P 沿著 X 的前推,也正是我們一直以來所說的 X 的分布律(或分布)。我們把機率從抽象的 Omega 往前推、推到 R 上。

這正是為什麼日常工作中你被允許忘掉底層的樣本空間。當你說 X ~ 常態(mu, sigma^2) 時,你根本沒有在描述任何 Omega——你是在直接為 R 上的那個前推測度命名。兩個前推相同的隨機變數,在你所能問的關於它們取值的每一個問題上,統計上都完全相同,即使其中一個由骰子造出、另一個由放射性衰變造出。cdf、密度、期望值 E[X]、變異數 Var(X),以及每一個動差,全都僅由 P_X 計算而得。雜亂的 Omega 把我們載到了這裡、任務已了,現在可以安靜退場了。

  1. 從把實驗寫成機率空間 (Omega, F, P) 開始——原始結果的抽象世界。
  2. 挑一個可測的 X: Omega -> R;可測性保證每個 {X 落在 B 中} 都是一個真正的事件。
  3. 往前推:定義 P_X(B) = P(X 落在 B 中),一個只住在實數線上的機率測度。
  4. 從此完全用 P_X 工作——cdf、密度、E[X]、Var(X)——再也不必提起 Omega。

誠實的細則,與通往前方的橋

兩條誠實的提醒讓這幅圖保持真確。第一,分布相同不代表隨機變數相同。對一個標準常態而言,X 與 -X 共享一模一樣的常態(0,1) 分布律——同一個前推——然而在任何給定的結果上它們取相反的值,根本不是同一個函數。分布遺忘了結果;它只記得值的散布。第二,前推確實丟掉了資訊:單憑 P_X,你既無法復原 Omega,也無法復原 X 與「同一實驗上的另一個變數 Y」之間的關係。聯合行為與相依性住在上游的 Omega 上——這就是為什麼我們不能把一切都往前推、然後永遠一走了之。

第二條提醒,正是交棒給本階段其餘部分的那一刻。因為每個 {X 落在 B 中} 都是一個合法事件,所有這類事件的全體就構成了 F 的一個子 σ-代數——也就是 X 所攜帶的資訊。第 4 篇將用可測性把 E[X] 定義為對 P 的勒貝格積分,這是一個同時處理離散求和與連續積分的單一構造,並附帶舊的黎曼積分給不了的極限定理。接著第 5 篇會問:兩個隨機變數何時攜帶*各自獨立*的資訊——獨立性與乘積測度——並以零一律收尾。可測性,就是這一切藉以轉動的那個安靜的鉸鏈。