連續變數與密度（它並不是機率）

為什麼質量函數的辦法行不通了

上一篇我們用機率質量函數馴服了離散變數：那是一張清單，把一塊機率分派給變數能取的每一個值，所有的塊加起來等於 1。當這些值是分開的時候——骰子上的 0、1、2、3 點——這辦法漂亮得很，因為你可以給每一個值自己一份正的份額。現在想像一個能落在某段範圍內「任何」實數上的變數：你等公車的確切秒數、下一個進門的人的精確身高、轉動的指針停下的角度。這就是連續隨機變數，也就是離散與連續之分的另一半。

在這裡質量函數的辦法垮了，而且這個理由值得你刻進骨子裡。假設公車在接下來 10 分鐘內任一瞬間到達都同樣可能。恰好落在「等待 = 3.000000…… 分鐘」、小數點後無窮多位的那一點，到底承載多少機率？這段區間裡塞了不可數無窮多個這樣的瞬間。如果每一個都帶著一份正的份額，哪怕極小，無窮多份正份額加起來會是無限大，而不是 1。唯一自洽的答案是：每一個「確切」的值所承載的機率都是零。對連續變數而言，對每一個 c 都有 P(X = c) = 0。

從質量到密度：把它抹開

如果沒有任何單一點能持有質量，那機率跑到哪去了？我們把它抹開。我們不再問某一點「處」有多少，而是問機率在某一點「附近」堆得多密——也就是它的密度。記錄這件事的工具就是機率密度函數，寫成 f(x)。這和物理裡的做法一模一樣：一條細線在任何單一點上的質量都是零，但它在每一點都有一個「每公分的質量」，而你把那個密度沿著一段積分，就能算回那一段的質量。機率密度扮演完全相同的角色，只是把「質量」換成了「機率」。

於是機率變成了「面積」。X 落在區間 [a, b] 內的機率，就是密度曲線在 a 到 b 之間底下的面積——也就是積分 P(a <= X <= b) = a 到 b 對 f(x) dx 的積分。這正是為什麼單一點給出零：從 c 到 c 的「區間」沒有寬度，而零寬度的區域面積為零，所以 P(X = c) = 0 自然就掉出來了。一個令人開心的副產品：對連續變數來說端點從不影響結果，P(a <= X <= b) = P(a < X < b)，因為那兩個多出來的點各自貢獻零面積。

密度不能是隨便一條曲線；它必須遵守兩條規則，恰好對應質量函數的規則。第一，它在任何地方都不能掉到零以下，處處 f(x) >= 0——你不可能在任何地方有負的機率。第二，底下的「總」面積必須等於 1：整條線上 f(x) dx 的積分 = 1，因為 X 一定會落在某處，這是必然的。使得 f(x) > 0 的那些 x 所成的集合，就是這個分布的支撐集；在它之外密度平平地為零，變數根本不會去到那裡。

重點標題：密度不是機率

現在來談整篇最重要的一點，也就是標題裡的那一點：密度值 f(x) 不是機率。這就是密度不是機率這個觀念，幾乎每個人一開始都會在這裡跌跤。f(x) 這個數是一個「高度」，不是一個機會。機率住在曲線「底下的面積」裡，不在曲線在某點的「高度」裡。你可以讀出某個值處的 f(x)，了解那一帶有多大的相對可能性——但 f(x) 本身不是任何東西的 P。

證明密度不是機率最乾淨的方法，是它可以超過 1。取一個在 0 到 1/2 這段短區間上的均勻分配。總面積必須是 1，而那面積是高乘寬 = 高乘 (1/2)，所以高必須是 2。在那段區間上密度是 f(x) = 2——一個完全合法、值為 2 的密度，遠遠高過任何機率（機率永遠不能超過 1）。這並不矛盾：2 是一個高度，而它在 1/2 的寬度上所造出的面積恰好是 2 乘 1/2 = 1，正合要求。如果 f 永遠不能超過 1，它就會是個機率；它能超過 1 這件事，正證明它不是。

那到底該怎麼讀一個密度值呢？要透過一個「極小」的區間。X 落在點 x 附近寬度為 dx 的一條細縫內的機率，大約是 f(x) 乘 dx——高乘寬，一塊面積。所以 f(x) 告訴你的是「每單位 x 的機率」，一個比率，就像速率是每單位時間的距離一樣。在某點把 f(x) 加倍，意味著機率在那裡堆積得快兩倍，所以那裡一扇小窗的可能性是兩倍——但你只有在乘上一個寬度、形成一塊面積之後，才會得到一個真正的機率。

discrete            P(X = x) = pmf(x)            (an actual probability)
continuous          P(X = x) = 0                 (every single point)
                    P(a <= X <= b) = integral_a^b f(x) dx   (an AREA)
                    P(x < X < x+dx) ~ f(x) dx    (height x width)

rules: f(x) >= 0  and  integral over all x of f(x) dx = 1
f(x) is a height / rate, NOT a probability -- it can exceed 1

離散質量對連續密度：質量函數給出機率，密度函數給出一個你必須積分的高度。

一個實算的細縫例子

我們用最簡單的連續模型把它弄具體。轉動一根公平的指針，使停下的角度 X 在 [0, 1] 上均勻分布（把它想成一整圈的某個比例）。它的密度是平的：x 在 [0, 1] 時 f(x) = 1，在外面則為 0。檢查規則——f 從不為負，而總面積是高 1 乘寬 1 = 1。很好。現在求指針落在前四分之一、介於 0 與 0.25 之間的機率。那是一個矩形的面積：高 1 乘寬 0.25 = 0.25。這裡密度恰好等於 1，所以它看起來像個機率——但那個巧合正是「[0,1] 上的均勻」這個特例，並不能推廣到一般情形。

取一個非平坦的密度來打破那個巧合：在 [0, 1] 上 f(x) = 2x，其餘為零（機率較多堆向 1 那一端）。
確認它是合法密度：在 [0, 1] 上從不為負，而面積是 2x 從 0 到 1 的積分，等於 x^2 在 0 到 1 求值 = 1。很好。
讀出 x = 0.5 處的高度：f(0.5) = 2 乘 0.5 = 1。那是值 1，但它是「高度」，不是機率——恰好等於 0.5 的機會仍然是零。
用積分找出一個真正的機率，例如 P(0 <= X <= 0.5) = 2x 從 0 到 0.5 的積分 = 0.5^2 = 0.25。那塊面積就是答案。

注意這個重點：在 x = 0.5 處密度是 1，但落在整個範圍「左半邊」任何地方的機率卻只有 0.25。高度和機率是兩個帶著不同意義的不同數字，只有積分能把一個換成另一個。每當有人給你看一條曲線、問你一個機率時，你的反射動作應該是「我的上下限在哪，面積是多少？」——絕不是只「讀出高度」。

密度的位置，以及接下來是什麼

退一步看，整幅圖是對稱的。離散變數由質量函數描述，機率住在高度裡，你用「加總」；連續變數由密度函數描述，機率住在面積裡，你用「積分」。最有名的鐘形曲線常態分配，以及壽命模型指數分配，兩者都只是特定的密度——f(x) 的特定形狀，你把它的面積積出來就得到機率。學習它們的故事是下一個階段的事；目前，它們每一個都靠同一條規則存亡：面積，不是高度。

下一篇還有一座乾淨的橋在等著。質量函數和密度函數都能折進同一個對象裡，這個對象對離散和連續變數一視同仁：累積分布函數 F(x) = P(X <= x)，也就是直到 x 為止機率的累計總和。對連續變數而言，它是累計「面積」，F(x) = 從負無窮到 x 對 f(t) dt 的積分——所以累積分布函數是累積起來的密度，而由微積分基本定理，密度就是累積分布函數的斜率，f(x) = F'(x)。那一個函數接著會在後續的篇章裡，把分位數、中位數與存活函數一併交到我們手上。