JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

連續變數與密度(它並不是機率)

對連續變數來說,每一個單一數值的機率都是零——那我們該怎麼辦?我們把機率質量交給一個密度,並把機率讀成它曲線下的面積。但有個關鍵:密度本身的高度並不是機率。

為什麼質量函數的辦法行不通了

上一篇我們用機率質量函數馴服了離散變數:那是一張清單,把一塊機率分派給變數能取的每一個值,所有的塊加起來等於 1。當這些值是分開的時候——骰子上的 0、1、2、3 點——這辦法漂亮得很,因為你可以給每一個值自己一份正的份額。現在想像一個能落在某段範圍內「任何」實數上的變數:你等公車的確切秒數、下一個進門的人的精確身高、轉動的指針停下的角度。這就是連續隨機變數,也就是離散與連續之分的另一半。

在這裡質量函數的辦法垮了,而且這個理由值得你刻進骨子裡。假設公車在接下來 10 分鐘內任一瞬間到達都同樣可能。恰好落在「等待 = 3.000000…… 分鐘」、小數點後無窮多位的那一點,到底承載多少機率?這段區間裡塞了不可數無窮多個這樣的瞬間。如果每一個都帶著一份正的份額,哪怕極小,無窮多份正份額加起來會是無限大,而不是 1。唯一自洽的答案是:每一個「確切」的值所承載的機率都是零。對連續變數而言,對每一個 c 都有 P(X = c) = 0。

從質量到密度:把它抹開

如果沒有任何單一點能持有質量,那機率跑到哪去了?我們把它抹開。我們不再問某一點「處」有多少,而是問機率在某一點「附近」堆得多密——也就是它的密度。記錄這件事的工具就是機率密度函數,寫成 f(x)。這和物理裡的做法一模一樣:一條細線在任何單一點上的質量都是零,但它在每一點都有一個「每公分的質量」,而你把那個密度沿著一段積分,就能算回那一段的質量。機率密度扮演完全相同的角色,只是把「質量」換成了「機率」。

於是機率變成了「面積」。X 落在區間 [a, b] 內的機率,就是密度曲線在 a 到 b 之間底下的面積——也就是積分 P(a <= X <= b) = a 到 b 對 f(x) dx 的積分。這正是為什麼單一點給出零:從 c 到 c 的「區間」沒有寬度,而零寬度的區域面積為零,所以 P(X = c) = 0 自然就掉出來了。一個令人開心的副產品:對連續變數來說端點從不影響結果,P(a <= X <= b) = P(a < X < b),因為那兩個多出來的點各自貢獻零面積。

密度不能是隨便一條曲線;它必須遵守兩條規則,恰好對應質量函數的規則。第一,它在任何地方都不能掉到零以下,處處 f(x) >= 0——你不可能在任何地方有負的機率。第二,底下的「總」面積必須等於 1:整條線上 f(x) dx 的積分 = 1,因為 X 一定會落在某處,這是必然的。使得 f(x) > 0 的那些 x 所成的集合,就是這個分布的支撐集;在它之外密度平平地為零,變數根本不會去到那裡。

重點標題:密度不是機率

現在來談整篇最重要的一點,也就是標題裡的那一點:密度值 f(x) 不是機率。這就是密度不是機率這個觀念,幾乎每個人一開始都會在這裡跌跤。f(x) 這個數是一個「高度」,不是一個機會。機率住在曲線「底下的面積」裡,不在曲線在某點的「高度」裡。你可以讀出某個值處的 f(x),了解那一帶有多大的相對可能性——但 f(x) 本身不是任何東西的 P。

證明密度不是機率最乾淨的方法,是它可以超過 1。取一個在 0 到 1/2 這段短區間上的均勻分配。總面積必須是 1,而那面積是高乘寬 = 高乘 (1/2),所以高必須是 2。在那段區間上密度是 f(x) = 2——一個完全合法、值為 2 的密度,遠遠高過任何機率(機率永遠不能超過 1)。這並不矛盾:2 是一個高度,而它在 1/2 的寬度上所造出的面積恰好是 2 乘 1/2 = 1,正合要求。如果 f 永遠不能超過 1,它就會是個機率;它能超過 1 這件事,正證明它不是。

那到底該怎麼讀一個密度值呢?要透過一個「極小」的區間。X 落在點 x 附近寬度為 dx 的一條細縫內的機率,大約是 f(x) 乘 dx——高乘寬,一塊面積。所以 f(x) 告訴你的是「每單位 x 的機率」,一個比率,就像速率是每單位時間的距離一樣。在某點把 f(x) 加倍,意味著機率在那裡堆積得快兩倍,所以那裡一扇小窗的可能性是兩倍——但你只有在乘上一個寬度、形成一塊面積之後,才會得到一個真正的機率。

discrete            P(X = x) = pmf(x)            (an actual probability)
continuous          P(X = x) = 0                 (every single point)
                    P(a <= X <= b) = integral_a^b f(x) dx   (an AREA)
                    P(x < X < x+dx) ~ f(x) dx    (height x width)

rules: f(x) >= 0  and  integral over all x of f(x) dx = 1
f(x) is a height / rate, NOT a probability -- it can exceed 1
離散質量對連續密度:質量函數給出機率,密度函數給出一個你必須積分的高度。

一個實算的細縫例子

我們用最簡單的連續模型把它弄具體。轉動一根公平的指針,使停下的角度 X 在 [0, 1] 上均勻分布(把它想成一整圈的某個比例)。它的密度是平的:x 在 [0, 1] 時 f(x) = 1,在外面則為 0。檢查規則——f 從不為負,而總面積是高 1 乘寬 1 = 1。很好。現在求指針落在前四分之一、介於 0 與 0.25 之間的機率。那是一個矩形的面積:高 1 乘寬 0.25 = 0.25。這裡密度恰好等於 1,所以它看起來像個機率——但那個巧合正是「[0,1] 上的均勻」這個特例,並不能推廣到一般情形。

  1. 取一個非平坦的密度來打破那個巧合:在 [0, 1] 上 f(x) = 2x,其餘為零(機率較多堆向 1 那一端)。
  2. 確認它是合法密度:在 [0, 1] 上從不為負,而面積是 2x 從 0 到 1 的積分,等於 x^2 在 0 到 1 求值 = 1。很好。
  3. 讀出 x = 0.5 處的高度:f(0.5) = 2 乘 0.5 = 1。那是值 1,但它是「高度」,不是機率——恰好等於 0.5 的機會仍然是零。
  4. 用積分找出一個真正的機率,例如 P(0 <= X <= 0.5) = 2x 從 0 到 0.5 的積分 = 0.5^2 = 0.25。那塊面積就是答案。

注意這個重點:在 x = 0.5 處密度是 1,但落在整個範圍「左半邊」任何地方的機率卻只有 0.25。高度和機率是兩個帶著不同意義的不同數字,只有積分能把一個換成另一個。每當有人給你看一條曲線、問你一個機率時,你的反射動作應該是「我的上下限在哪,面積是多少?」——絕不是只「讀出高度」。

密度的位置,以及接下來是什麼

退一步看,整幅圖是對稱的。離散變數由質量函數描述,機率住在高度裡,你用「加總」;連續變數由密度函數描述,機率住在面積裡,你用「積分」。最有名的鐘形曲線常態分配,以及壽命模型指數分配,兩者都只是特定的密度——f(x) 的特定形狀,你把它的面積積出來就得到機率。學習它們的故事是下一個階段的事;目前,它們每一個都靠同一條規則存亡:面積,不是高度。

下一篇還有一座乾淨的橋在等著。質量函數和密度函數都能折進同一個對象裡,這個對象對離散和連續變數一視同仁:累積分布函數 F(x) = P(X <= x),也就是直到 x 為止機率的累計總和。對連續變數而言,它是累計「面積」,F(x) = 從負無窮到 x 對 f(t) dt 的積分——所以累積分布函數是累積起來的密度,而由微積分基本定理,密度就是累積分布函數的斜率,f(x) = F'(x)。那一個函數接著會在後續的篇章裡,把分位數、中位數與存活函數一併交到我們手上。