假設檢驗與擬合優度

把論斷送上審判台

在前幾篇裡，你學會了*估計*：拿一堆雜亂的資料，產出一個數字，比如給去年的理賠次數擬合一個卜瓦松分布的均值。但單憑估計，永遠無法告訴你*一個關於世界的論斷*是否可信。假設一位定價同事堅稱：「我們新推出的安全駕駛計畫，把平均理賠頻率壓到了每張保單 0.10 次以下。」資料本來就上下擺動；你怎麼判斷這個下降是真的，還是只是運氣？假設檢驗正是讓這類論斷接受審判的那座紀律森嚴的法庭。

這場審判帶著一種刻意的不對稱，正如刑事法庭推定無罪。我們先寫下一個虛無假設——那個無聊、懷疑一切的預設立場，通常是「什麼都沒變」（真實頻率仍是 0.10）。與之對立的是對立假設，即那個有趣的論斷（頻率現在低於 0.10）。我們並不直接去*證明*對立假設；而是問：*倘若虛無假設為真*，我們實際看到的資料有多令人意外？只有那些在虛無假設下真正反常的資料，才贏得推翻它的資格。

p 值，以及它不是什麼

為了量化「有多令人意外」，我們從資料中算出一個檢驗統計量，再算它的 p 值：即在虛無假設為真的前提下，看到一個*至少和我們這個結果一樣極端*的結果的機率。p 值很小，就意味著如果真的什麼都沒變，觀測到的資料會是一次罕見的偶然——於是虛無假設看起來就站不住腳了。注意中央極限定理在這裡默默地發揮著作用：是它告訴我們檢驗統計量在虛無假設下長什麼樣，而這正是判斷「極端」與否的整個參照系。

我們會在看資料*之前*，先定下一個叫顯著性水準的門檻，記作 α，常取 0.05。若 p 值低於 α，就拒絕虛無假設；否則不拒絕。這個 α 恰恰就是犯第一類錯誤的機率：拒絕了一個本為真的虛無假設，即一次假警報。它的鏡像是第二類錯誤：沒能拒絕一個本為假的虛無假設，即漏掉了一個信號。兩者此消彼長。把 α 調小以避免假警報，檢驗就會變得遲鈍、更慢察覺到真實變化；而檢驗的檢定力——它捕捉到真實效應的機率——正是 1 減去那個漏檢率。

從檢驗一個數字，到檢驗整個形狀

上面那場審判檢驗的是一個數字，一個均值。但精算師更深一層的問題，往往關乎*形狀*：在擬合損失分布時，你要的不只是正確的平均值——你想知道理賠金額究竟服從帕雷托分布、對數常態分布，還是別的什麼完全不同的東西。選錯了，會悄悄毒化下游的每一份保費與準備金，因為錯誤的形狀恰恰會把最要緊的那些罕見巨額損失給說錯。於是我們需要一種檢驗，它的虛無假設是一整個分布：*這批資料來自這個模型*。

這一族檢驗稱為擬合優度檢驗。其邏輯與前面完全一致——虛無假設、檢驗統計量、p 值——只是現在統計量度量的是*資料與某個候選分布之間的差距*。有一處該早早點明的誠實的微妙：通常我們會先用這同一批資料去估計分布的參數（用前一篇講過的極大似然估計）。這會讓擬合顯得比它應得的更好，因此參照分布必須做相應調整——這個細節，教科書裡的那些檢驗要麼透過消耗自由度、要麼透過模擬臨界值來處理。

卡方檢驗：把資料裝進桶裡清點

卡方擬合優度檢驗是這裡的主力。它的想法很樸素：把資料分進幾個桶裡（比如理賠金額落在 0–1 千、1 千–5 千、5 千–2 萬、2 萬以上這幾個區間），數一數實際各落進多少個，再把這些*觀測*計數與候選分布所預測的*期望*計數相比。如果模型對，觀測與期望應當相近；巨大的差異，就是反對它的證據。

chi-square = sum over buckets of (Observed - Expected)^2 / Expected

Bucket       Observed   Expected   (O-E)^2/E
0 - 1k          42         40        0.10
1k - 5k         28         33        0.76
5k - 20k        18         15        0.60
20k +           12         12        0.00
                                    -----
                          total =    1.46   -> small, fit looks fine

每個桶貢獻 (觀測減期望) 的平方再除以期望；加總即得卡方統計量。總和很小，說明觀測計數與期望計數吻合良好。

除以期望計數是其中的精妙之處：它按「在那裡純靠運氣本就該出現多大偏差」來縮放每一個差距，於是繁忙的桶和稀疏的桶都能被公平評判。把統計量加總後，再拿去與一個卡方參照分布比較；數值越大，p 值越小，我們就拒絕這個候選模型。兩點誠實的告誡：該檢驗要求每個桶的期望計數都相當大（常用的經驗法則是至少為 5），而且*桶的劃分*由你決定——把同一批資料切得不一樣，結論也可能隨之改變，這恰恰是為什麼你要在偷看答案之前就把桶定死。

柯爾莫哥洛夫-斯米爾諾夫檢驗：不用分桶

分桶的習慣讓人覺得武斷，而對理賠金額這類連續資料來說，它還白白丟掉了細節。柯爾莫哥洛夫-斯米爾諾夫（K-S）檢驗則完全不用分桶。回想一下機率階梯裡的累積分布函數——它是直到每個取值為止、機率的累計總和。K-S 檢驗直接從資料造出一條*經驗*累積分布函數（一段每遇到一個觀測值就上跳 1/n 的樓梯），再把它疊在候選分布的*理論*累積分布函數之上。它的統計量，不過就是這兩條曲線沿線任意位置之間那道最大的垂直縫隙。

那道最大的縫隙很直觀——它正是資料與模型分歧最深的那個位置。縫隙小，說明所提的曲線一路緊貼著資料；縫隙大，說明模型在某處與現實嚴重脫節，而一個很小的 p 值便告訴你該拒絕它。與卡方相比，K-S 不用分桶，且在整個取值範圍內都敏感，這很適合連續的嚴重度資料。但要坦白它的盲點：K-S 在分布*中段*附近最為警覺，而在*尾部相對遲鈍*——可那恰恰是精算師最在意的地方，因為遙遠的尾部藏著災難性的損失。一個模型可以通過 K-S 檢驗，卻仍然低估了那種百年一遇的理賠。

沒有任何一種擬合優度檢驗能*證明*某個分布是正確的；它頂多只能做到不拒絕它。真實的實務從不只靠單一一種檢驗。你會把這些統計量與肉眼檢查搭配使用——把經驗曲線疊在理論曲線上畫圖、直接審視尾部——再加上對「這個模型對這項風險是否說得通」的判斷。檢驗是一隻煙霧警報器，而不是一紙真理的判決。

選得明智，又保持謙卑

把這些拼塊合起來，一套可操作的流程便浮現出來。先提出一個候選分布；用極大似然估計它的參數；再用擬合優度檢驗來評判擬合——資料自然落成計數或類別時用卡方，連續損失則用 K-S（或它那些對尾部更敏銳的表親）——並且始終輔以圖形。當好幾個分布都「倖存」下來時，你便倚靠更廣工具箱裡的模型選擇思想，而最重要的，是看哪一個在尾部表現得合情合理。

把這一切扣回這一階梯的去向。擬合優度給出的是對單個候選分布的「是/否」判斷；你之前認識的信賴區間，則為你估出的參數套上誠實的誤差棒；而接下來講迴歸的幾篇，會把這一切推而廣之——不僅檢驗*哪個分布*合適，還檢驗*哪些驅動因素*（年齡、地區、車型）真正撬動了損失。檢驗與擬合，本是同一種紀律嚴明的習慣，只是放大了規模。

以這門學問最深的謙卑作結。這裡的每一種檢驗都假設候選分布是一個*固定、已知的形狀*，且資料乾淨又彼此獨立——可面對真實的理賠資料，這些假設都會變形：它們常常成簇出現、隨時間漂移，還帶著誤差到來。通過檢驗，意味著「暫未被這批資料推翻」，絕非「為真」。模型是一張地圖，從來不是疆域本身；負責任的精算師會隨著新的損失不斷到來而持續檢驗它，並在尾部格外警惕——正是在那裡，自信滿滿的模型曾以最昂貴的代價栽過跟頭。