適用於每一個隨機變數的單一函數
在前三篇中,你認識了作為樣本空間上一個函數的隨機變數,接著看到描述其分配的兩種方式:用於離散取值的機率質量函數,以及用於連續取值的密度。這兩個工具雖強大卻各管一方——各自只適用於自己那種變數,而且都無法談論一個既有離散又有連續成分的變數。累積分配函數(簡稱 cdf)就把這件事補齊了。它對每一個實值隨機變數都有定義,毫無例外,靠的是一個會「累積」的問題。
這個問題是:到 x 這個水位(含 x)為止,累積了多少機率?用式子寫,就是 F(x) = P(X <= x)。把它讀成一個累計總和。當你把門檻 x 從數線最左端往最右端滑動時,F(x) 會把變數到目前為止累積的所有機率都掃進來。在最左端、在 X 的所有可能值之前,總和為 0;在最右端、在所有可能值之後,總和為 1。cdf 就是這趟掃描,記錄成一個函數。
每個 cdf 必然具備的樣貌
並非任何函數都能當 cdf。其定義性質直接源自 F 是累積的機率,值得熟記,因為它們合起來完整刻畫了 cdf:滿足全部性質的任何函數,都是某個隨機變數的 cdf;而任何 cdf 也都滿足全部性質。它們還能讓你對別人遞來的任何公式快速做合理性檢查。
1. Bounded: 0 <= F(x) <= 1 for every x
2. Non-decreasing: if a <= b then F(a) <= F(b)
3. Limits: F(x) -> 0 as x -> -infinity
F(x) -> 1 as x -> +infinity
4. Right-continuous: F(x) = lim of F(x + h) as h -> 0 from above
Useful consequence:
P(a < X <= b) = F(b) - F(a)每條性質都有樸實的含意。非遞減就是「累計總和永遠不會倒退」——你無法把已累積的機率「退回去」。極限趨於 0 與 1說的是總機率恰為 1,分散在數線的某些地方;這是把機率的連續性套用到逐漸縮小與擴大的半直線上。右連續是比較微妙的一條:由於我們用的是 X <= x,F 在跳點處的值已把恰好坐落於該點的機率算進來,所以從右側一抵達該點,F 就立刻追上它較高的值。
那一條區間公式 P(a < X <= b) = F(b) - F(a),就是 cdf 日常的主力。想知道 X 落在某個窗口裡的機率?把窗口頂端的累計總和減去窗口底端的累計總和即可。回答區間問題你完全用不到 pmf 或 pdf——光靠 cdf 就能辦到,這也是 cdf 成為分配最通用描述方式的原因之一。
cdf 如何把 pmf 與 pdf 一併承載
cdf 並未丟棄 pmf 或 pdf 裡的資訊——它把資訊存進自己的形狀,而你可以還原出其中任一個。對離散變數,cdf 是一道階梯:在 X 沒有質量的區段上是平的,然後在 X 每個可能取值處往上跳。而美妙之處在於:某點跳躍的高度,正好等於該點的機率質量。所以 pmf 其實就是 cdf 各個跳躍的大小。P(X = x) = F(x) - F(x-),其中 F(x-) 是從左邊取的極限。
對連續變數,cdf 完全沒有跳躍——它平滑地上升。密度高的地方,cdf 爬得陡;密度接近零的地方,cdf 幾乎是平的。這並非偶然:cdf 是密度的累積積分,F(x) 等於 f(t) 從 -infinity 到 x 的積分,所以它的斜率就是密度。把 cdf 微分,你就把 pdf 拿回來了:在 F 可微之處,f(x) = F'(x)。密度就是機率累積的速率,這恰恰是 cdf 的斜率。
點、跳躍,以及沒人提醒你的那部分
這裡是初學者常絆倒的地方。對連續變數,任何單一點 c 都有 P(X = c) = 0——cdf 在該處沒有跳躍,F(c) - F(c-) = 0。這跟你在密度那篇遇到的事實相同:單一點不含任何機率,只有區間才有。由此導出一個感覺很怪但完全正確的結論:對連續的 X,端點包不包含都無所謂,所以 P(a < X < b) = P(a <= X <= b) = F(b) - F(a)。含等號與不含等號的四種版本全都相同,因為邊界點貢獻為零。
對離散變數則相反:端點極為重要,因為某點的質量是貨真價實的跳躍。在那裡 P(X = c) > 0,你必須小心某個點是否被包含。這正是為何區間公式寫成 P(a < X <= b) = F(b) - F(a):在 <= 約定下,F(b) 含 b 處的質量,但 F(a) 不含 a 處的質量,相減便得到半開區間 (a, b]。對離散變數改變某端點的包含與否,答案可能就相差一整塊機率。
現在來看統一帶來的回報。混合分配是指在某些地方連續、在另一些地方帶有點質量的分配——它的 cdf 不過是同時具備兩種行為:平滑上升的區段,外加幾個孤立的跳躍。想像一個降雨量變數:在乾燥的日子為 0(恰在 0 處有一塊真實的機率),在下雨的日子則取連續分布的正值。沒有 pmf 能描述它,也沒有 pdf 能描述它,但單單一個 cdf 就可以——在 0 之上平滑爬升,卻又在 0 處跳躍。這份通用性就是 cdf 默默的超能力。
讀懂一個 cdf,並一窺它解鎖了什麼
讓我們讀一個小小的離散 cdf,把上述一切具體化。設 X 是擲兩枚公正硬幣出現正面的次數,於是 X 取 0、1、2,質量分別為 1/4、1/2、1/4。由左往右累積建出它的 cdf,再直接從這道階梯上讀出機率。
- 在 0 以下還沒累積任何東西:當 x < 0 時 F(x) = 0。
- 在 0 處落下 1/4 的質量,於是 cdf 跳到 F(0) = 1/4,並一路維持到 1 之前(不含 1)。
- 在 1 處加上質量 1/2:F(1) = 1/4 + 1/2 = 3/4,維持到 2 之前。
- 在 2 處加上最後的 1/4:F(2) = 3/4 + 1/4 = 1,此後永遠維持 1。檢查一個跳躍:P(X = 1) = F(1) - F(1-) = 3/4 - 1/4 = 1/2。正確。
正因為 cdf 是通用的描述,它也是通往眼前幾個概念的入口。把階梯或曲線*反過來*讀——問「哪個 x 滿足 F(x) = 0.5?」——就得到分位數函數,即 cdf 的反函數,它給出你下一篇會遇到的中位數與百分位數。而把問題翻成「比 x 大的有多少?」就得到 1 - F(x),即存活函數。兩者都不過是從新角度看同一個 cdf,這正是為何值得在其他工具之前先把這一個函數學透。