離散變數與機率質量函數

從隨機變數走到它的數值

在前一篇導讀中，我們認識了隨機變數，它是一個把試驗的每個結果轉成一個數字的規則——形式上是一個從樣本空間 Omega 到實數線的函數。本篇要把鏡頭拉近到最友善的那一種：離散隨機變數，它的可能取值構成一串彼此分開、你可以一個一個念出來的清單，例如 0、1、2、3、…… 或 {1, 2, 3, 4, 5, 6}。一個骰子點數、十次拋擲中正面的次數、午餐前的郵件計數——全都是離散的。

與之對照的——下一篇會完整展開——是連續隨機變數，它的取值填滿一整段沒有空隙的區間，例如「下一班公車到站的確切時刻」。誠實的分界線並不是「這些數字是不是整數？」，而是「你能不能把這些值一個一個列出來，即使這份清單永無止境？」。如果可以，這個變數就是離散的，本篇的工具便適用；如果這些值構成一片找不到「最近鄰居」的連續塗抹，你就得改用密度。

一個離散變數真正以正機率落上去的那些值，有個名字：分配的支撐集。對一顆公平的骰子，支撐集是 {1, 2, 3, 4, 5, 6}；對三次拋擲中正面的次數，支撐集是 {0, 1, 2, 3}。支撐集之外的一切，機率恰好是零，我們通常連列都不會去列那些值。把支撐集釘清楚，是描述任何離散變數時安靜的第一步。

機率質量函數：一個值，一份重量

對一個離散變數 X 的完整描述，簡單到令人吃驚：只要對每一個值 x，說出 X 恰好等於那個值的可能性有多大就好。這個規則就是機率質量函數，記作 p(x) = P(X = x)。質量這個字正是貼切的圖像：把實數線想成一根又長又細的桿子，你正把總量固定為一公斤的機率灑到它上面，只在支撐點上一團一團地丟下離散的塊。機率質量函數告訴你坐在每個值上的那一團有多重。

一個函數 p(x) 之所以配得上機率質量函數這個名稱，恰恰是當它遵守兩條誠實的規則時，而這兩條都是直接從機率公理繼承而來。第一，沒有任何一團可以是負的：對每一個 x 都有 p(x) >= 0，因為機率永遠不可能低於零。第二，所有的團加起來必須等於整整一公斤：p(x) 對支撐集中每一個值求和等於 1，因為支撐集中總得有某件事發生。任何取值非負且加總為 1 的函數，都是一個合法的機率質量函數；而每一個機率質量函數都是這樣一個函數——沒有別的了。

X = number of heads in 3 fair coin tosses

   x   |   0     1     2     3
  p(x) |  1/8   3/8   3/8   1/8        <- the pmf (a table of lumps)

  check non-negative:  every entry >= 0          OK
  check total mass:    1/8 + 3/8 + 3/8 + 1/8 = 8/8 = 1   OK

  P(X = 2)        = p(2)         = 3/8
  P(X >= 2)       = p(2) + p(3)  = 3/8 + 1/8 = 4/8 = 1/2
  P(1 <= X <= 2)  = p(1) + p(2)  = 3/8 + 3/8 = 6/8 = 3/4

機率質量函數不過是一張加總為 1 的重量表；任何事件的機率，都是把相關的幾團加起來而得。

一旦有了機率質量函數，你就能用加法回答關於 X 的每一個機率問題。X 落在某一組值之中的機會，就是坐在那些值上的總質量：P(X in A) = p(x) 對 A 中的 x 求和。沒有微積分，沒有微妙之處——離散機率就是記帳，是把一團一團小心地加起來。而這份簡單，正是在連續情形中會崩解的地方：那裡單點不帶任何質量，求和必須變成積分。

三個值得一眼認出的機率質量函數

你這輩子會遇到的大多數離散分配，都是少數幾個故事的盛裝版本。最簡單的是白努利分配：一次是／否的試驗，以機率 p 成功、以機率 1 - p 失敗。它的機率質量函數只有兩團，p(1) = p 與 p(0) = 1 - p。一枚以機率 p 落正面的硬幣、一次投進的罰球、一位買或不買的顧客——每一個二元事件都是一個白努利變數，它是建造更豐富計數的原子。

把 n 次獨立的白努利試驗疊起來，每次成功機率都是 p，然後數一數成功的次數：這個次數服從二項分配。它的機率質量函數 p(k) = C(n, k) * p^k * (1 - p)^(n - k) 讀起來像一個句子——選出 n 次試驗中是哪 k 次成功了（二項係數 C(n, k)），乘上 k 次成功（p^k）與 n - k 次失敗（(1 - p)^(n - k)）的機率。上面那張三枚硬幣的表格，正好就是 n = 3、p = 1/2 的二項分配，這也正是那些 C(3, k) 的計數 1、3、3、1 出現的原因。

更溫和的是離散均勻分配——也就是公平的骰子——其中大小為 n 的有限支撐集裡，每個值都得到一樣的一團，p(x) = 1/n。它是基礎階段那個「同樣可能的結果」的離散表親。當你在一個固定的窗口內計數稀有事件時，會出現一個不同而重要的形狀，例如一頁上的錯字或一小時內的來電：那就是卜瓦松分配，它唯一的參數 lambda 既是平均計數，也是調節質量如何分布的旋鈕。我們會在緊接著的下一階段把這每一個都好好拆開來講。

從質量到累積總和：累積分布函數

還有第二種、等價的方式來打包同樣的資訊：不去問恰好有多少質量坐在 x 上，而去問有多少質量落在 x 或更小處。這個累積的總和就是累積分布函數，F(x) = P(X <= x)。對一個離散變數而言，F 是靠著從左到右掃過去、每經過一團就把它加進來而建成的，所以它的圖形是一道階梯：在支撐點之間是平的，然後在每個坐有質量的值處，恰好向上直跳 p(x) 那麼高。

這道階梯和那張一團一團的表格，承載著完全相同的內容——你可以由其中一個重建出另一個。F 在某個值 x 處跳起的高度，恰恰就是那裡的機率質量函數：p(x) = F(x) - F(x 緊鄰左側的值)。所以一個離散變數會以「帶有真正垂直跳躍的累積分布函數」現身，而一個連續變數的累積分布函數則平滑地往上爬、完全沒有跳躍。這是判斷你身處哪一個世界最乾淨的試紙，也是本階段稍後那篇專講累積分布函數導讀的核心。

機率質量函數是什麼，又不是什麼

機率質量函數就是這個變數完整的身分證。兩個產生相同一團一團表格的不同試驗，就所有機率上的目的而言，是同一個隨機變數——即使它們底層的結果天差地別，它們仍是同分配的。兩次公平拋擲中正面的次數，與兩次擲骰中偶數結果的次數，擁有完全相同的機率質量函數 {0: 1/4, 1: 1/2, 2: 1/4}；一旦你知道機率質量函數，你就知道了機率所能告訴你的一切，而原本的樣本空間便悄悄地退出視線之外。

在進入下一篇之前，有兩個誠實的提醒。第一，機率質量函數的值確實就是一個機率——p(2) = 3/8 代表貨真價實的百分之三十七點五的機會——而這恰恰是連續的密度所不具備的性質：密度的值並不是機率，而在連續世界裡單一個點所帶的機率是零。請記住這個區別；它是下一篇的頭條。第二，p(x) 必須落在 0 與 1 之間，因為它是一個機率；而密度的高度卻可以合法地超過 1——這又是一個提示：質量與密度是不同的生物。

兩個世界之間還有一座俐落的橋：機率質量函數與密度，是對同一個問題——那一單位的機率是怎麼分散開來的？——針對兩種支撐集所給出的兩種答案。離散變數把它掛成你去相加的一團團；連續變數把它塗抹成你去積分的一個高度。而有些變數兩者兼具（例如一個有真實機會恰好為零、之後在正值上塗抹開來的降雨總量），這種混合情形累積分布函數能優雅地處理，因為一道階梯與一段平滑的上爬，本來就可以在同一張圖裡共存。