JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

假設檢驗與擬合優度

如何把一個論斷拉到資料面前受審,以及卡方與柯爾莫哥洛夫-斯米爾諾夫檢驗如何幫你誠實地判斷哪個分布真正貼合一堆損失資料——連同那些常見的陷阱。

把論斷送上審判台

在前幾篇裡,你學會了*估計*:拿一堆雜亂的資料,產出一個數字,比如給去年的理賠次數擬合一個卜瓦松分布的均值。但單憑估計,永遠無法告訴你*一個關於世界的論斷*是否可信。假設一位定價同事堅稱:「我們新推出的安全駕駛計畫,把平均理賠頻率壓到了每張保單 0.10 次以下。」資料本來就上下擺動;你怎麼判斷這個下降是真的,還是只是運氣?假設檢驗正是讓這類論斷接受審判的那座紀律森嚴的法庭。

這場審判帶著一種刻意的不對稱,正如刑事法庭推定無罪。我們先寫下一個虛無假設——那個無聊、懷疑一切的預設立場,通常是「什麼都沒變」(真實頻率仍是 0.10)。與之對立的是對立假設,即那個有趣的論斷(頻率現在低於 0.10)。我們並不直接去*證明*對立假設;而是問:*倘若虛無假設為真*,我們實際看到的資料有多令人意外?只有那些在虛無假設下真正反常的資料,才贏得推翻它的資格。

p 值,以及它不是什麼

為了量化「有多令人意外」,我們從資料中算出一個檢驗統計量,再算它的 p 值:即在虛無假設為真的前提下,看到一個*至少和我們這個結果一樣極端*的結果的機率。p 值很小,就意味著如果真的什麼都沒變,觀測到的資料會是一次罕見的偶然——於是虛無假設看起來就站不住腳了。注意中央極限定理在這裡默默地發揮著作用:是它告訴我們檢驗統計量在虛無假設下長什麼樣,而這正是判斷「極端」與否的整個參照系。

我們會在看資料*之前*,先定下一個叫顯著性水準的門檻,記作 α,常取 0.05。若 p 值低於 α,就拒絕虛無假設;否則不拒絕。這個 α 恰恰就是犯第一類錯誤的機率:拒絕了一個本為真的虛無假設,即一次假警報。它的鏡像是第二類錯誤:沒能拒絕一個本為假的虛無假設,即漏掉了一個信號。兩者此消彼長。把 α 調小以避免假警報,檢驗就會變得遲鈍、更慢察覺到真實變化;而檢驗的檢定力——它捕捉到真實效應的機率——正是 1 減去那個漏檢率。

從檢驗一個數字,到檢驗整個形狀

上面那場審判檢驗的是一個數字,一個均值。但精算師更深一層的問題,往往關乎*形狀*:在擬合損失分布時,你要的不只是正確的平均值——你想知道理賠金額究竟服從帕雷托分布、對數常態分布,還是別的什麼完全不同的東西。選錯了,會悄悄毒化下游的每一份保費與準備金,因為錯誤的形狀恰恰會把最要緊的那些罕見巨額損失給說錯。於是我們需要一種檢驗,它的虛無假設是一整個分布:*這批資料來自這個模型*。

這一族檢驗稱為擬合優度檢驗。其邏輯與前面完全一致——虛無假設、檢驗統計量、p 值——只是現在統計量度量的是*資料與某個候選分布之間的差距*。有一處該早早點明的誠實的微妙:通常我們會先用這同一批資料去估計分布的參數(用前一篇講過的極大似然估計)。這會讓擬合顯得比它應得的更好,因此參照分布必須做相應調整——這個細節,教科書裡的那些檢驗要麼透過消耗自由度、要麼透過模擬臨界值來處理。

卡方檢驗:把資料裝進桶裡清點

卡方擬合優度檢驗是這裡的主力。它的想法很樸素:把資料分進幾個桶裡(比如理賠金額落在 0–1 千、1 千–5 千、5 千–2 萬、2 萬以上這幾個區間),數一數實際各落進多少個,再把這些*觀測*計數與候選分布所預測的*期望*計數相比。如果模型對,觀測與期望應當相近;巨大的差異,就是反對它的證據。

chi-square = sum over buckets of (Observed - Expected)^2 / Expected

Bucket       Observed   Expected   (O-E)^2/E
0 - 1k          42         40        0.10
1k - 5k         28         33        0.76
5k - 20k        18         15        0.60
20k +           12         12        0.00
                                    -----
                          total =    1.46   -> small, fit looks fine
每個桶貢獻 (觀測減期望) 的平方再除以期望;加總即得卡方統計量。總和很小,說明觀測計數與期望計數吻合良好。

除以期望計數是其中的精妙之處:它按「在那裡純靠運氣本就該出現多大偏差」來縮放每一個差距,於是繁忙的桶和稀疏的桶都能被公平評判。把統計量加總後,再拿去與一個卡方參照分布比較;數值越大,p 值越小,我們就拒絕這個候選模型。兩點誠實的告誡:該檢驗要求每個桶的期望計數都相當大(常用的經驗法則是至少為 5),而且*桶的劃分*由你決定——把同一批資料切得不一樣,結論也可能隨之改變,這恰恰是為什麼你要在偷看答案之前就把桶定死。

柯爾莫哥洛夫-斯米爾諾夫檢驗:不用分桶

分桶的習慣讓人覺得武斷,而對理賠金額這類連續資料來說,它還白白丟掉了細節。柯爾莫哥洛夫-斯米爾諾夫(K-S)檢驗則完全不用分桶。回想一下機率階梯裡的累積分布函數——它是直到每個取值為止、機率的累計總和。K-S 檢驗直接從資料造出一條*經驗*累積分布函數(一段每遇到一個觀測值就上跳 1/n 的樓梯),再把它疊在候選分布的*理論*累積分布函數之上。它的統計量,不過就是這兩條曲線沿線任意位置之間那道最大的垂直縫隙。

那道最大的縫隙很直觀——它正是資料與模型分歧最深的那個位置。縫隙小,說明所提的曲線一路緊貼著資料;縫隙大,說明模型在某處與現實嚴重脫節,而一個很小的 p 值便告訴你該拒絕它。與卡方相比,K-S 不用分桶,且在整個取值範圍內都敏感,這很適合連續的嚴重度資料。但要坦白它的盲點:K-S 在分布*中段*附近最為警覺,而在*尾部相對遲鈍*——可那恰恰是精算師最在意的地方,因為遙遠的尾部藏著災難性的損失。一個模型可以通過 K-S 檢驗,卻仍然低估了那種百年一遇的理賠。

沒有任何一種擬合優度檢驗能*證明*某個分布是正確的;它頂多只能做到不拒絕它。真實的實務從不只靠單一一種檢驗。你會把這些統計量與肉眼檢查搭配使用——把經驗曲線疊在理論曲線上畫圖、直接審視尾部——再加上對「這個模型對這項風險是否說得通」的判斷。檢驗是一隻煙霧警報器,而不是一紙真理的判決。

選得明智,又保持謙卑

把這些拼塊合起來,一套可操作的流程便浮現出來。先提出一個候選分布;用極大似然估計它的參數;再用擬合優度檢驗來評判擬合——資料自然落成計數或類別時用卡方,連續損失則用 K-S(或它那些對尾部更敏銳的表親)——並且始終輔以圖形。當好幾個分布都「倖存」下來時,你便倚靠更廣工具箱裡的模型選擇思想,而最重要的,是看哪一個在尾部表現得合情合理。

把這一切扣回這一階梯的去向。擬合優度給出的是對單個候選分布的「是/否」判斷;你之前認識的信賴區間,則為你估出的參數套上誠實的誤差棒;而接下來講迴歸的幾篇,會把這一切推而廣之——不僅檢驗*哪個分布*合適,還檢驗*哪些驅動因素*(年齡、地區、車型)真正撬動了損失。檢驗與擬合,本是同一種紀律嚴明的習慣,只是放大了規模。

以這門學問最深的謙卑作結。這裡的每一種檢驗都假設候選分布是一個*固定、已知的形狀*,且資料乾淨又彼此獨立——可面對真實的理賠資料,這些假設都會變形:它們常常成簇出現、隨時間漂移,還帶著誤差到來。通過檢驗,意味著「暫未被這批資料推翻」,絕非「為真」。模型是一張地圖,從來不是疆域本身;負責任的精算師會隨著新的損失不斷到來而持續檢驗它,並在尾部格外警惕——正是在那裡,自信滿滿的模型曾以最昂貴的代價栽過跟頭。