無記憶性與危險率

用過的零件跟全新的一樣

在前一篇指南裡，你認識了指數分配，把它當作一連串隨機到達中「等到下一個事件」的等待時間，其密度為 f(t) = lambda * e^(-lambda t)（t > 0），平均為 1/lambda。在這裡我們要放大它最令人驚訝、也最有用的一個性質：它是無記憶的。無記憶性是說，不論你已經等了多久，剩下要等的時間的分配，都跟一開始時一模一樣。時鐘等於在每一個瞬間都重新歸零。

想像一顆壽命服從指數分配的燈泡。你把它打開，它運轉了三年都沒壞。常識會在你耳邊低語：「它大概快壞了——已經用舊了。」無記憶性斷然否認這一點。在「燈泡已經撐過三年」的條件下，它往後壽命的分配，跟一顆剛從盒子裡拿出來的全新燈泡一模一樣。這三年的服役既沒讓它變得更脆弱，也沒讓它變得更可靠。用可靠度工程師的口號來說，用過的零件跟全新的一樣好——對這一個分配而言是如此。

用符號說出來，並把它證明

設 X 為等待時間。要把「跟全新的一樣好」誠實地寫下來，得用到條件機率。我們希望「在已經等了 t 個單位的條件下，還要再等至少 s 個單位」的機會，等於「從頭開始等至少 s 個單位」的無條件機會。用符號寫，無記憶性這句話就是 P(X > t + s given X > t) = P(X > s)，對所有 s, t > 0 都成立。左邊是「在你撐到 t 的條件下，你還要再撐過 s」；右邊是「一個全新的開始撐過 s」。這兩者必須相等。

這個證明很短，而且值得做一次，因為它顯示出全部的奧妙都來自 e^x 把加法變成乘法。關鍵的對象是存活函數 S(t) = P(X > t)，也就是「撐過 t 之後還活著」的機會。對指數分配而言，把密度積分起來會得到乾淨的形式 S(t) = e^(-lambda t)。現在用條件機率的定義 P(A given B) = P(A and B) / P(B) 把它展開。事件 (X > t + s) 已經蘊含了 (X > t)，所以聯合事件就只是 (X > t + s)。

P(X > t+s | X > t) = P(X > t+s) / P(X > t)
                  = S(t+s) / S(t)
                  = e^(-lambda (t+s)) / e^(-lambda t)
                  = e^(-lambda t) * e^(-lambda s) / e^(-lambda t)
                  = e^(-lambda s)
                  = S(s) = P(X > s)

整個訣竅：e^(-lambda(t+s)) 拆成 e^(-lambda t) 乘上 e^(-lambda s)，而 e^(-lambda t) 約掉了。剩下來的就只有要等的 s。

把最後一行慢慢讀：t 完全消失了。剩下要等的時間，不取決於你已經等了多久。而它的逆命題既為真又深刻：指數分配是唯一具有這個性質的連續分配。如果一個正值的連續等待時間是無記憶的，它的存活函數就必須滿足 S(t+s) = S(t) * S(s)，而這個函數方程式唯一行為良好的解就是一個指數函數。所以無記憶性並不只是指數分配「剛好擁有」的一個特徵——它是指數分配的指紋，是把它從其他所有連續法則中單獨辨認出來的東西。

離散的表親，與一個要避開的謬誤

無記憶性並非連續時間所獨有。它在離散世界的雙胞胎，是你在前兩個階段認識的幾何分配：擲到第一次出現正面所需的擲幣次數。如果你已經連續擲出二十次反面，「還要再擲幾次才出現第一次正面」依然服從跟你剛拿起這枚硬幣時一樣的幾何分配。在精確的意義上，指數分配是幾何分配的連續極限——把每兩次擲幣之間的時間縮到零，同時保持每單位時間的成功率不變，幾何等待時間就會融化成一個指數分配。這兩個無記憶法則，是同一個想法穿著離散和連續兩套衣服。

學生常在這裡絆倒，所以我們得小心。無記憶性有時會跟賭徒謬誤搞混，但它們是相反的東西，不是同一個錯誤。賭徒謬誤是一種錯誤信念，以為連續出現的結果一定會逆轉——「輪盤已經連開五次紅，所以現在該輪到黑了。」獨立的試驗沒有這種「欠債」；它們不會記得，也不會去「把帳算平」。無記憶性是「沒有記憶」這句話在數學上誠實的版本：未來確實會無視過去。賭徒之所以犯錯，是因為他想像出一種會把結果拉回平衡的記憶，而事實上根本沒有這種記憶。

危險率：此刻的故障壓力

無記憶性很美，但很僵硬；大多數真實事物都會老化。要描述老化，我們需要一個工具，能一刻一刻地衡量：在「已經撐到這麼久」的條件下，某樣東西此刻有多強烈地正要故障。這個工具就是危險率，記作 h(t)，也叫做故障率或死亡力。它的意思是：在所有已經活到年齡 t 的個體當中，h(t) 是它們此刻故障的瞬時速率。粗略地說，h(t) 乘上一小段區間 dt，就是「在已經撐過 t 的條件下，下一瞬間就故障」的機會——也就是 P(在 [t, t+dt] 內故障 given 撐過 t) 除以 dt。

那條乾淨的公式把危險率和你已經認識的零件繫在一起：h(t) = f(t) / S(t)，也就是密度除以存活函數。直覺正是條件機率的形狀：分子 f(t) 是「在 t 附近即將故障」的機率有多少，而除以 S(t) 則把注意力限制在存活者身上——也就是在時刻 t 仍在場上的那群個體。所以危險率是一個條件密度，是從「撐到這一步的那些人」的視角所看到的故障密度。

現在用這個鏡頭來檢驗指數分配。它的密度是 f(t) = lambda * e^(-lambda t)，存活函數是 S(t) = e^(-lambda t)，所以 h(t) = lambda * e^(-lambda t) / e^(-lambda t) = lambda。危險率是一個平坦的常數 lambda，對所有 t 皆然。這就是從一個新角度看到的無記憶性：故障的壓力從不隨年齡改變，這正是為什麼用過的零件跟全新的一樣好。固定危險率與無記憶性，是同一件事的兩種說法。

浴缸曲線，與能把它彎曲的韋伯分配

一旦你會讀危險率，你就能讀出幾乎任何東西的生命故事。工程師會談到浴缸曲線：一開始危險率很高，因為有瑕疵的個體會故障（早夭期），接著是一段長長的平坦谷底，故障是隨機的、由固定危險率的指數分配主宰，最後是隨著磨損出現而上揚的尾巴。人類的死亡率看起來也類似——嬰兒期高，青壯年期低而大致平坦，然後隨年齡陡峭攀升。h(t) 的形狀會告訴你正處在哪一個區段：下降表示事物逐漸穩定變好，平坦表示無記憶，上升表示老化。

用來建模這些會彎曲的危險率的標準工具，是韋伯分配，也就是指數分配那位有彈性的大哥哥。它有一個形狀參數 k 來控制危險率：它的危險率與 t^(k-1) 成正比。當 k = 1 時危險率平坦，韋伯分配恰好塌縮成指數分配——無記憶的情況以一個特殊值的身分坐落在這個族裡。當 k > 1 時危險率上升，可建模磨損老化；當 k < 1 時危險率下降，可建模早夭。透過選擇 k，你可以調出浴缸曲線三個階段中的任何一個，這就是為什麼韋伯分配是可靠度分析與存活分析的主力。

最後一個誠實的要點為這個圈圈收尾。危險率、存活函數和密度三者攜帶著相同的資訊——只要給定其中任一個，你就能還原出其他兩個，因為 S(t) = e^(-h 從 0 到 t 的積分)，而 f(t) = h(t) * S(t)。選擇用危險率來思考並不會增添新的機率；它只是把同一個分配，重新繞著「在已經撐到現在的條件下，此刻有多危險？」這個問題來表述。正是這種重新表述讓老化變得可見，而對於任何「過去確實有影響」的等待時間，它都是最自然的一種語言。