從隨機變數走到它的數值
在前一篇導讀中,我們認識了隨機變數,它是一個把試驗的每個結果轉成一個數字的規則——形式上是一個從樣本空間 Omega 到實數線的函數。本篇要把鏡頭拉近到最友善的那一種:離散隨機變數,它的可能取值構成一串彼此分開、你可以一個一個念出來的清單,例如 0、1、2、3、…… 或 {1, 2, 3, 4, 5, 6}。一個骰子點數、十次拋擲中正面的次數、午餐前的郵件計數——全都是離散的。
與之對照的——下一篇會完整展開——是連續隨機變數,它的取值填滿一整段沒有空隙的區間,例如「下一班公車到站的確切時刻」。誠實的分界線並不是「這些數字是不是整數?」,而是「你能不能把這些值一個一個列出來,即使這份清單永無止境?」。如果可以,這個變數就是離散的,本篇的工具便適用;如果這些值構成一片找不到「最近鄰居」的連續塗抹,你就得改用密度。
一個離散變數真正以正機率落上去的那些值,有個名字:分配的支撐集。對一顆公平的骰子,支撐集是 {1, 2, 3, 4, 5, 6};對三次拋擲中正面的次數,支撐集是 {0, 1, 2, 3}。支撐集之外的一切,機率恰好是零,我們通常連列都不會去列那些值。把支撐集釘清楚,是描述任何離散變數時安靜的第一步。
機率質量函數:一個值,一份重量
對一個離散變數 X 的完整描述,簡單到令人吃驚:只要對每一個值 x,說出 X 恰好等於那個值的可能性有多大就好。這個規則就是機率質量函數,記作 p(x) = P(X = x)。質量這個字正是貼切的圖像:把實數線想成一根又長又細的桿子,你正把總量固定為一公斤的機率灑到它上面,只在支撐點上一團一團地丟下離散的塊。機率質量函數告訴你坐在每個值上的那一團有多重。
一個函數 p(x) 之所以配得上機率質量函數這個名稱,恰恰是當它遵守兩條誠實的規則時,而這兩條都是直接從機率公理繼承而來。第一,沒有任何一團可以是負的:對每一個 x 都有 p(x) >= 0,因為機率永遠不可能低於零。第二,所有的團加起來必須等於整整一公斤:p(x) 對支撐集中每一個值求和等於 1,因為支撐集中總得有某件事發生。任何取值非負且加總為 1 的函數,都是一個合法的機率質量函數;而每一個機率質量函數都是這樣一個函數——沒有別的了。
X = number of heads in 3 fair coin tosses x | 0 1 2 3 p(x) | 1/8 3/8 3/8 1/8 <- the pmf (a table of lumps) check non-negative: every entry >= 0 OK check total mass: 1/8 + 3/8 + 3/8 + 1/8 = 8/8 = 1 OK P(X = 2) = p(2) = 3/8 P(X >= 2) = p(2) + p(3) = 3/8 + 1/8 = 4/8 = 1/2 P(1 <= X <= 2) = p(1) + p(2) = 3/8 + 3/8 = 6/8 = 3/4
一旦有了機率質量函數,你就能用加法回答關於 X 的每一個機率問題。X 落在某一組值之中的機會,就是坐在那些值上的總質量:P(X in A) = p(x) 對 A 中的 x 求和。沒有微積分,沒有微妙之處——離散機率就是記帳,是把一團一團小心地加起來。而這份簡單,正是在連續情形中會崩解的地方:那裡單點不帶任何質量,求和必須變成積分。
三個值得一眼認出的機率質量函數
你這輩子會遇到的大多數離散分配,都是少數幾個故事的盛裝版本。最簡單的是白努利分配:一次是/否的試驗,以機率 p 成功、以機率 1 - p 失敗。它的機率質量函數只有兩團,p(1) = p 與 p(0) = 1 - p。一枚以機率 p 落正面的硬幣、一次投進的罰球、一位買或不買的顧客——每一個二元事件都是一個白努利變數,它是建造更豐富計數的原子。
把 n 次獨立的白努利試驗疊起來,每次成功機率都是 p,然後數一數成功的次數:這個次數服從二項分配。它的機率質量函數 p(k) = C(n, k) * p^k * (1 - p)^(n - k) 讀起來像一個句子——選出 n 次試驗中是哪 k 次成功了(二項係數 C(n, k)),乘上 k 次成功(p^k)與 n - k 次失敗((1 - p)^(n - k))的機率。上面那張三枚硬幣的表格,正好就是 n = 3、p = 1/2 的二項分配,這也正是那些 C(3, k) 的計數 1、3、3、1 出現的原因。
更溫和的是離散均勻分配——也就是公平的骰子——其中大小為 n 的有限支撐集裡,每個值都得到一樣的一團,p(x) = 1/n。它是基礎階段那個「同樣可能的結果」的離散表親。當你在一個固定的窗口內計數稀有事件時,會出現一個不同而重要的形狀,例如一頁上的錯字或一小時內的來電:那就是卜瓦松分配,它唯一的參數 lambda 既是平均計數,也是調節質量如何分布的旋鈕。我們會在緊接著的下一階段把這每一個都好好拆開來講。
從質量到累積總和:累積分布函數
還有第二種、等價的方式來打包同樣的資訊:不去問恰好有多少質量坐在 x 上,而去問有多少質量落在 x 或更小處。這個累積的總和就是累積分布函數,F(x) = P(X <= x)。對一個離散變數而言,F 是靠著從左到右掃過去、每經過一團就把它加進來而建成的,所以它的圖形是一道階梯:在支撐點之間是平的,然後在每個坐有質量的值處,恰好向上直跳 p(x) 那麼高。
這道階梯和那張一團一團的表格,承載著完全相同的內容——你可以由其中一個重建出另一個。F 在某個值 x 處跳起的高度,恰恰就是那裡的機率質量函數:p(x) = F(x) - F(x 緊鄰左側的值)。所以一個離散變數會以「帶有真正垂直跳躍的累積分布函數」現身,而一個連續變數的累積分布函數則平滑地往上爬、完全沒有跳躍。這是判斷你身處哪一個世界最乾淨的試紙,也是本階段稍後那篇專講累積分布函數導讀的核心。
機率質量函數是什麼,又不是什麼
機率質量函數就是這個變數完整的身分證。兩個產生相同一團一團表格的不同試驗,就所有機率上的目的而言,是同一個隨機變數——即使它們底層的結果天差地別,它們仍是同分配的。兩次公平拋擲中正面的次數,與兩次擲骰中偶數結果的次數,擁有完全相同的機率質量函數 {0: 1/4, 1: 1/2, 2: 1/4};一旦你知道機率質量函數,你就知道了機率所能告訴你的一切,而原本的樣本空間便悄悄地退出視線之外。
在進入下一篇之前,有兩個誠實的提醒。第一,機率質量函數的值確實就是一個機率——p(2) = 3/8 代表貨真價實的百分之三十七點五的機會——而這恰恰是連續的密度所不具備的性質:密度的值並不是機率,而在連續世界裡單一個點所帶的機率是零。請記住這個區別;它是下一篇的頭條。第二,p(x) 必須落在 0 與 1 之間,因為它是一個機率;而密度的高度卻可以合法地超過 1——這又是一個提示:質量與密度是不同的生物。
兩個世界之間還有一座俐落的橋:機率質量函數與密度,是對同一個問題——那一單位的機率是怎麼分散開來的?——針對兩種支撐集所給出的兩種答案。離散變數把它掛成你去相加的一團團;連續變數把它塗抹成你去積分的一個高度。而有些變數兩者兼具(例如一個有真實機會恰好為零、之後在正值上塗抹開來的降雨總量),這種混合情形累積分布函數能優雅地處理,因為一道階梯與一段平滑的上爬,本來就可以在同一張圖裡共存。