從機率到統計

把箭頭倒轉過來

你在這座階梯上至今所做的一切都指向同一個方向：你固定一個模型——一枚偏心 p 的硬幣、一個率為 lambda 的卜瓦松分配、一個均數 mu 變異數 sigma^2 的常態分配——然後計算資料會長什麼樣子。這就是機率：模型進、資料出。統計則是同一套機器倒著跑。資料已經發生，而模型才是未知數。你手握一筆固定的數字樣本，問道：是哪個 p、哪個 lambda、哪個 mu，讓這筆樣本變得合理？整門學問，就是把機率的箭頭倒著跑的藝術。

兩個世界之間的橋樑，是一個悄悄的觀點切換。在機率裡你寫下密度 p(x 給定 theta)，把它讀作 x（資料）的函數，而參數 theta 固定不動。在統計裡你把完全相同的式子讀作 theta 的函數，而 x 固定在你觀測到的那些值上。向前讀它是密度；向後讀它就是概似。同一條公式，相反的問題。這唯一的「換個方向讀」，就是從這一階機率通往整門統計的那道門。

估計量就是一個隨機變數

這裡有個悄悄統一整門學問的念頭，而它純粹是機率。估計量是一條把樣本變成一個數的規則——樣本均數、樣本變異數、最大的觀測值。在你蒐集資料之前，樣本 X(1), ..., X(n) 是一串隨機變數，所以它們的任何函數本身也是一個隨機變數。樣本均數 Xbar = (X(1) + ... + X(n)) / n 不是一個固定的數；它有自己的分配，叫做抽樣分配。統計學在很大程度上，就是在研究那些抽樣分配——因為它們告訴你，倘若世界發給你的是另一筆樣本，你那唯一的答案會抖動多少。

兩條來自先前各階的機率定理在挑大樑。大數法則保證隨著 n 增大，Xbar 收斂到真均數 mu——所以一個明智的估計量會隨資料累積而逼近真相。接著中央極限定理描述剩下的抖動：當 n 大時，Xbar 近似於 Normal(mu, sigma^2 / n)。那個 sigma^2 / n 就是統計學的引擎室。估計量的標準差 sigma / sqrt(n) 就是它的標準誤——而那個 sqrt(n) 正是為何把不確定性減半要付出四倍的資料、而非兩倍。

最大概似：讓資料投票

既然概似依「對資料的解釋程度」替各參數值排序，顯而易見的一步就是挑出贏家：那個讓觀測資料最有可能出現的 theta 值。這就是最大概似估計，古典統計的主力。因為各資料點通常彼此獨立，概似是各點密度的連乘，而連乘難以求極大。標準的訣竅是取對數——這把連乘變成連加，而且因為對數是遞增函數，並不會移動極大值的位置——然後把對數概似的導數設為零。那一個導數，正是你在基礎篇學的微積分終於派上用場、開始分紅的地方。

寫出概似 L(theta) = 在觀測點 x(1), ..., x(n) 上各 p(x(i) 給定 theta) 的連乘。
取對數得到對數概似 l(theta) = 各 log p(x(i) 給定 theta) 的連加；連乘變成連加。
把 l(theta) 對 theta 微分並設為零：這就給出概似方程。
解出 theta 並確認它是極大（該處二階導數為負），而非極小或鞍點。

親手做一次它就黏住了。擲硬幣 n 次見到 k 個正面。概似是 L(p) = p^k * (1-p)^(n-k)；對數概似是 l(p) = k log p + (n-k) log(1-p)；它的導數是 k/p - (n-k)/(1-p)，設為零便得 p = k/n。一枚硬幣偏心程度的最大概似估計，就只是你看到的正面比例——正是你的直覺早就會喊出的答案，如今是推導出來、而非猜出來的。同一道食譜用在卜瓦松上交給你 lambda = 樣本均數，用在常態上交給你 mu = 樣本均數，這個令人安心的驗證說明：在你於難題上信任這套機器之前，它在簡單情形已與常識一致。

充分性：當一個摘要毫無損失

留意硬幣例子裡一件醒目的事：答案只取決於 k，正面的總數——不取決於它們落下的順序，也不取決於哪幾擲是正面。你大可把整串序列扔掉，只留下計數，而關於 p 毫無損失。具有這種性質的統計量叫做充分統計量：一旦你知道它的值，原始資料就再也提供不了關於該參數的任何進一步資訊。嚴格地說，給定充分統計量後，完整樣本的條件分配完全不依賴 theta——每一滴與 theta 有關的資訊，都已被擠進那一個數裡。

充分性有一個乾淨的檢驗法，叫因子分解準則：T 對 theta 充分，恰恰當概似能拆成 L(theta) = g(T(x), theta) * h(x)，其中 h 不牽涉 theta。換句話說，theta 只透過 T 來碰觸資料。這不只是整潔而已；這是帶保證的資料壓縮。一百萬次擲硬幣坍縮成單一個計數，一筆常態樣本坍縮成僅僅是「總和」與「平方和」——而那份保證是：任何從原始資料建造的估計量，都贏不過從充分摘要建造的估計量。充分性告訴你，對手上的問題而言，你那筆資料最小的誠實描述是什麼。

一個誠實的提醒：充分性永遠是相對於某個模型而言的。計數 k 之所以對硬幣的偏心程度充分，唯有當你已認定「以固定 p 獨立擲擲」這個模型。若你懷疑硬幣的偏心程度會隨時間漂移，順序就突然又重要起來，而 k 不再充分。充分統計量壓縮的是「模型認為相關」的一切——對於「模型一開始是否正確」卻一語不發。

拔靴法：從一筆資料生出上千個世界

最大概似交給你單一個數；抽樣分配告訴你它會抖動多少——但要算出那份抖動通常需要一條公式，而對一個花俏的估計量（中位數、一個比值、一個截尾均數）來說，那條公式可能束手無策。拔靴法就是那個美妙簡單的迂迴之道，而它倚靠的，正是本階第二、三篇的蒙地卡羅思維。訣竅是：你無法從真母體重抽樣，因為你並不擁有它——但你的樣本是你對那個母體最好的一張寫照。於是把樣本當成彷彿就是母體，再從它裡頭抽出新的樣本。

從你那一筆大小為 n 的真實樣本出發。從中以放回方式隨機抽出 n 個點——這是一個拔靴樣本（有些原始點出現兩次，有些一次也沒出現）。
在那個拔靴樣本上計算你的估計量（均數、中位數、任何你在意的東西）。記下這個數。
把「重抽再計算」重複上千次。你現在有了上千個估計量的值。
那些值的離散程度近似抽樣分配：它們的標準差就是標準誤，而它們的第 2.5 與第 97.5 百分位數給出一個 95% 信賴區間。

它感覺像作弊——憑空變出額外的資訊——但其實不然。放回式重抽並沒有發明新事實；它只是藉由重播你唯一看得見的那份隨機性——也就是「哪些點碰巧落進了你的樣本」——來揭示你的估計量本來就有多不穩。不過要對限制誠實。拔靴法的好壞，全繫於「你的樣本貌似母體」這個假設，所以它在極小樣本、以及在「取決於罕見極值的量」上會吃力——譬如一個分配的最大值，永遠不可能超過你實際觀測到的最大值，所以拔靴法會系統性地低估尾端。它是個絕妙的預設選項，而非萬用溶劑。

通往同一座山的兩條路

你如今握有統計學的兩半。本篇所走的頻率學派之路，把 theta 固定成一個未知常數、而把資料當成隨機：最大概似、標準誤、拔靴法，以及信賴區間——後者的誠實讀法是微妙的：是「以這種方式建造的區間有 95% 會涵蓋真 theta」，而非「theta 有 95% 的機會落在這一個區間裡」。第一篇的貝氏學派之路，則把 theta 本身當成帶先驗的隨機變數、用概似去更新它，並回報一個可信區間，那個你倒是真的可以讀作「theta 以 0.95 的機率落在這裡」。當資料很多時，兩種答案往往幾乎一致；當資料稀少、而先驗大聲說話時，分歧最大。

退一步，欣賞這一切用了多麼少的新機器。估計量是隨機變數；它們的行為受大數法則與中央極限定理統御；概似不過是把密度倒著讀；充分性是一個條件分配的陳述；拔靴法是把蒙地卡羅套用在你自己的樣本上。本篇裡的每一件工具，都是你早已遇過的機率念頭，只是把它對準了反向的問題。這正是這座橋真正的教訓：統計並非一門外掛在機率上的獨立學科——它就是機率，倒著跑，再加上一份「敢於承認模型才是我們所不知之物」的勇氣。