把箭頭倒轉過來
你在這座階梯上至今所做的一切都指向同一個方向:你固定一個模型——一枚偏心 p 的硬幣、一個率為 lambda 的卜瓦松分配、一個均數 mu 變異數 sigma^2 的常態分配——然後計算資料會長什麼樣子。這就是機率:模型進、資料出。統計則是同一套機器倒著跑。資料已經發生,而模型才是未知數。你手握一筆固定的數字樣本,問道:是哪個 p、哪個 lambda、哪個 mu,讓這筆樣本變得合理?整門學問,就是把機率的箭頭倒著跑的藝術。
兩個世界之間的橋樑,是一個悄悄的觀點切換。在機率裡你寫下密度 p(x 給定 theta),把它讀作 x(資料)的函數,而參數 theta 固定不動。在統計裡你把完全相同的式子讀作 theta 的函數,而 x 固定在你觀測到的那些值上。向前讀它是密度;向後讀它就是概似。同一條公式,相反的問題。這唯一的「換個方向讀」,就是從這一階機率通往整門統計的那道門。
估計量就是一個隨機變數
這裡有個悄悄統一整門學問的念頭,而它純粹是機率。估計量是一條把樣本變成一個數的規則——樣本均數、樣本變異數、最大的觀測值。在你蒐集資料之前,樣本 X(1), ..., X(n) 是一串隨機變數,所以它們的任何函數本身也是一個隨機變數。樣本均數 Xbar = (X(1) + ... + X(n)) / n 不是一個固定的數;它有自己的分配,叫做抽樣分配。統計學在很大程度上,就是在研究那些抽樣分配——因為它們告訴你,倘若世界發給你的是另一筆樣本,你那唯一的答案會抖動多少。
兩條來自先前各階的機率定理在挑大樑。大數法則保證隨著 n 增大,Xbar 收斂到真均數 mu——所以一個明智的估計量會隨資料累積而逼近真相。接著中央極限定理描述剩下的抖動:當 n 大時,Xbar 近似於 Normal(mu, sigma^2 / n)。那個 sigma^2 / n 就是統計學的引擎室。估計量的標準差 sigma / sqrt(n) 就是它的標準誤——而那個 sqrt(n) 正是為何把不確定性減半要付出四倍的資料、而非兩倍。
最大概似:讓資料投票
既然概似依「對資料的解釋程度」替各參數值排序,顯而易見的一步就是挑出贏家:那個讓觀測資料最有可能出現的 theta 值。這就是最大概似估計,古典統計的主力。因為各資料點通常彼此獨立,概似是各點密度的連乘,而連乘難以求極大。標準的訣竅是取對數——這把連乘變成連加,而且因為對數是遞增函數,並不會移動極大值的位置——然後把對數概似的導數設為零。那一個導數,正是你在基礎篇學的微積分終於派上用場、開始分紅的地方。
- 寫出概似 L(theta) = 在觀測點 x(1), ..., x(n) 上各 p(x(i) 給定 theta) 的連乘。
- 取對數得到對數概似 l(theta) = 各 log p(x(i) 給定 theta) 的連加;連乘變成連加。
- 把 l(theta) 對 theta 微分並設為零:這就給出概似方程。
- 解出 theta 並確認它是極大(該處二階導數為負),而非極小或鞍點。
親手做一次它就黏住了。擲硬幣 n 次見到 k 個正面。概似是 L(p) = p^k * (1-p)^(n-k);對數概似是 l(p) = k log p + (n-k) log(1-p);它的導數是 k/p - (n-k)/(1-p),設為零便得 p = k/n。一枚硬幣偏心程度的最大概似估計,就只是你看到的正面比例——正是你的直覺早就會喊出的答案,如今是推導出來、而非猜出來的。同一道食譜用在卜瓦松上交給你 lambda = 樣本均數,用在常態上交給你 mu = 樣本均數,這個令人安心的驗證說明:在你於難題上信任這套機器之前,它在簡單情形已與常識一致。
充分性:當一個摘要毫無損失
留意硬幣例子裡一件醒目的事:答案只取決於 k,正面的總數——不取決於它們落下的順序,也不取決於哪幾擲是正面。你大可把整串序列扔掉,只留下計數,而關於 p 毫無損失。具有這種性質的統計量叫做充分統計量:一旦你知道它的值,原始資料就再也提供不了關於該參數的任何進一步資訊。嚴格地說,給定充分統計量後,完整樣本的條件分配完全不依賴 theta——每一滴與 theta 有關的資訊,都已被擠進那一個數裡。
充分性有一個乾淨的檢驗法,叫因子分解準則:T 對 theta 充分,恰恰當概似能拆成 L(theta) = g(T(x), theta) * h(x),其中 h 不牽涉 theta。換句話說,theta 只透過 T 來碰觸資料。這不只是整潔而已;這是帶保證的資料壓縮。一百萬次擲硬幣坍縮成單一個計數,一筆常態樣本坍縮成僅僅是「總和」與「平方和」——而那份保證是:任何從原始資料建造的估計量,都贏不過從充分摘要建造的估計量。充分性告訴你,對手上的問題而言,你那筆資料最小的誠實描述是什麼。
一個誠實的提醒:充分性永遠是相對於某個模型而言的。計數 k 之所以對硬幣的偏心程度充分,唯有當你已認定「以固定 p 獨立擲擲」這個模型。若你懷疑硬幣的偏心程度會隨時間漂移,順序就突然又重要起來,而 k 不再充分。充分統計量壓縮的是「模型認為相關」的一切——對於「模型一開始是否正確」卻一語不發。
拔靴法:從一筆資料生出上千個世界
最大概似交給你單一個數;抽樣分配告訴你它會抖動多少——但要算出那份抖動通常需要一條公式,而對一個花俏的估計量(中位數、一個比值、一個截尾均數)來說,那條公式可能束手無策。拔靴法就是那個美妙簡單的迂迴之道,而它倚靠的,正是本階第二、三篇的蒙地卡羅思維。訣竅是:你無法從真母體重抽樣,因為你並不擁有它——但你的樣本是你對那個母體最好的一張寫照。於是把樣本當成彷彿就是母體,再從它裡頭抽出新的樣本。
- 從你那一筆大小為 n 的真實樣本出發。從中以放回方式隨機抽出 n 個點——這是一個拔靴樣本(有些原始點出現兩次,有些一次也沒出現)。
- 在那個拔靴樣本上計算你的估計量(均數、中位數、任何你在意的東西)。記下這個數。
- 把「重抽再計算」重複上千次。你現在有了上千個估計量的值。
- 那些值的離散程度近似抽樣分配:它們的標準差就是標準誤,而它們的第 2.5 與第 97.5 百分位數給出一個 95% 信賴區間。
它感覺像作弊——憑空變出額外的資訊——但其實不然。放回式重抽並沒有發明新事實;它只是藉由重播你唯一看得見的那份隨機性——也就是「哪些點碰巧落進了你的樣本」——來揭示你的估計量本來就有多不穩。不過要對限制誠實。拔靴法的好壞,全繫於「你的樣本貌似母體」這個假設,所以它在極小樣本、以及在「取決於罕見極值的量」上會吃力——譬如一個分配的最大值,永遠不可能超過你實際觀測到的最大值,所以拔靴法會系統性地低估尾端。它是個絕妙的預設選項,而非萬用溶劑。
通往同一座山的兩條路
你如今握有統計學的兩半。本篇所走的頻率學派之路,把 theta 固定成一個未知常數、而把資料當成隨機:最大概似、標準誤、拔靴法,以及信賴區間——後者的誠實讀法是微妙的:是「以這種方式建造的區間有 95% 會涵蓋真 theta」,而非「theta 有 95% 的機會落在這一個區間裡」。第一篇的貝氏學派之路,則把 theta 本身當成帶先驗的隨機變數、用概似去更新它,並回報一個可信區間,那個你倒是真的可以讀作「theta 以 0.95 的機率落在這裡」。當資料很多時,兩種答案往往幾乎一致;當資料稀少、而先驗大聲說話時,分歧最大。
退一步,欣賞這一切用了多麼少的新機器。估計量是隨機變數;它們的行為受大數法則與中央極限定理統御;概似不過是把密度倒著讀;充分性是一個條件分配的陳述;拔靴法是把蒙地卡羅套用在你自己的樣本上。本篇裡的每一件工具,都是你早已遇過的機率念頭,只是把它對準了反向的問題。這正是這座橋真正的教訓:統計並非一門外掛在機率上的獨立學科——它就是機率,倒著跑,再加上一份「敢於承認模型才是我們所不知之物」的勇氣。