廣義線性模型與精算中的預測分析

為什麼普通迴歸在保險資料上會崩

在上一篇裡，你認識了線性迴歸和它的姐姐多元迴歸：在一團散點中畫出最佳的直線（或平面），再讀出每個因素如何推動結果。這是個漂亮的工具——但它的行李裡藏著幾條假設。普通迴歸悄悄相信：結果可以是任何數、圍繞直線的散布到處都一樣大、而誤差會堆成一條對稱的鐘形曲線。對世上許多事物而言，這已經足夠接近了；可對保險資料來說，這三條全都錯了。

想想精算師真正在建模的是什麼。一張保單一年內報案的次數是一個計數：0、1、2——絕不會是 1.7，也絕不會是負數。一次理賠的金額是一個正值、右偏的數：大多數不大，少數極其巨大，而且沒有一個能低於零。把直線模型硬套到這些資料上，它會興高采烈地為安全的駕駛預測出負的報案次數，並假設一筆 200 元的擋風玻璃理賠，其波動性和一場 200 萬元的火災一樣大——兩者都是胡話。不是資料在搗亂，只是這件工具的形狀壓根就不對。

這正是你之前見過的頻率—強度拆分，如今換上統計學家的眼睛再看一遍。頻率（多久來一次）長得像一個卜瓦松計數；強度（有多大）長得像一個長尾、嚴格為正的伽馬或對數常態金額。普通迴歸對兩者都假設成常態鐘形曲線。我們需要一種辦法，既留住迴歸那個優雅的念頭——把許多因素合成一個預測——又能換上一個貼合現實的分布。

廣義線性模型讓你擰的兩個旋鈕

廣義線性模型（GLM）就是答案，而它對你已經掌握的東西只動了驚人地小的一下。GLM 保留了迴歸那台熟悉的引擎——把各項因素加權求和，比如費率 = b0 + b1·年齡 + b2·地區——但加上了兩個可調的旋鈕，讓模型能貼合那些並非鐘形曲線的資料。幾乎整個現代非壽險定價，都跑在這一個念頭之上。

第一個旋鈕是分布（統計學家稱之為反應族）。你不再強行套上常態鐘形曲線，而是告訴模型這個結果真正的形狀：報案次數選卜瓦松，理賠金額選伽馬，像保單是否失效這類「是/否」事件就選二項分布。然後，模型會用這個誠實的形狀來評判自己擬合得好不好，而不是假裝一切都是對稱的散布。

第二個旋鈕是連結函數，它是兩者中更精巧的一個。連結函數決定那個加權求和如何接到最終的預測上。普通迴歸是直接相連的（把各項加起來，那就是答案——而它可能變成負數）。GLM 則可以改用對數連結，它說：把各項加起來，再取 e 的那個次方。因為 e 的任何次方都恆為正，預測就永遠不會跌破零——這對報案次數和成本來說再合適不過。更妙的是，對數連結把相加變成了相乘：每個因素都成了基準費率上的一個乘法係數——而這恰恰就是保險費率表自古以來的搭建方式。

Base rate              = 500
Male, under-25         x 1.40
Urban territory        x 1.25
No prior claims        x 0.80
-------------------------------------
Premium = 500 x 1.40 x 1.25 x 0.80 = 700

(A log-link GLM learns those factors:
 log(rate) = log(500) + 0.336 + 0.223 - 0.223 )

對數連結讓每個費率因子都變成乘法。GLM 估計的是這些因子的對數；取指數後，那個求和就還原成核保人在費率表上逐項相乘的那條熟悉的鏈條。

廣義線性模型如何誠實地學出它的數字

模型是怎麼挑出它的係數的？普通迴歸靠最小化誤差平方和，而這只有在散布服從常態鐘形曲線時才是正確之舉。GLM 改用最大概似估計——也就是你兩篇之前認識的那個方法。說白了就是：在所有可能的係數組合裡，挑出那一組，讓你實際觀測到的資料顯得最不令人意外。因為你已經事先告訴了模型那個真實的分布，這就誠實地照顧到了一個事實：大額理賠很罕見，而計數不可能為負。

回報在於，一個擬合好的 GLM 交到你手上的，是真正的精算量，而不只是抽象的斜率。在頻率上跑一個卜瓦松 GLM，你得到每張保單的期望報案次數；在強度上跑一個伽馬 GLM，你得到期望理賠金額；把兩者相乘，你就為每一個風險單元算出了一個純保費。這正是一家現代個人險種保險公司為數百萬張保單定價的核心——每張保單都有它自己那套費率變數的組合。產出的不是單一的平均費率，而是一份量身定制的價格，由那些真正能撬動風險的因素搭建而成。

機器學習：誠實的承諾與邊界

在 GLM 之外，是預測分析與機器學習那個更廣闊的世界：梯度提升樹、隨機森林、神經網路。為它們辯護的理由是真實存在的。它們能嗅出人類絕不會想到要寫下來的交互作用和彎曲模式——比方說，汽車馬力的影響如何以一種扭曲的、非乘法的方式取決於駕駛人的年齡——而且它們預測純保費往往比手工搭建的 GLM 更準。在一張純以預測誤差來排名的榜單上，它們經常勝出。

可是，純粹的預測準確度並不是精算師拿錢要交付的唯一東西，而正是在這裡，那些邊界狠狠地咬了上來。保險是一門受監管的生意。在大多數司法管轄區，保險公司必須申報其費率，並且必須能夠逐個因素地解釋，為什麼這位客戶比那位付得更多。監管者不會接受「神經網路說要這樣」。這個價格必須站得住腳，不得使用被禁止的、或構成替代性歧視的變數，而且必須足夠穩定，以致兩位幾乎一模一樣的客戶不會被報出天差地別的保費。一個答不出「為什麼是這個價」的黑箱，在這個場景下，無論它多麼準確，都是不可用的。

這裡還有第二個、更深的陷阱：只要你放任它，一個靈活的模型就會把你資料裡的雜訊背下來。樹夠多、層夠深，它幾乎能把過去擬合得天衣無縫——連那些永不重演的隨機怪癖也一併記住——然後把未來預測得一塌糊塗。這就是過擬合，而唯一誠實的防禦，是把模型拿到它從未見過的資料上去檢驗。模型不是現實；它是一張貼合了某一段路況的地圖，而唯一要緊的問題是：它在前方的路上是否還管用。

模型背後，精算師的責任

無論你伸手去拿哪個模型，那個最深的邊界始終如一，它貫穿了整個本階：一個模型的誠實程度，僅取決於你餵給它的資料和假設。在這裡，「垃圾進、垃圾出」不是一句陳腔濫調——它是一份職業風險。如果你的歷史資料裡早已編入了某種人為偏見，模型就會忠實地學會並放大那份偏見，外表卻看起來無比客觀。資料品質與倫理不是預測分析的一條腳註，它們是那面承重牆。

所以現代精算師的工作，不是被演算法打敗，而是去治理它。這意味著：要把 GLM 摸得足夠熟，以讀懂它在說什麼；要把機器學習了解得足夠深，以在它真正幫得上忙的地方用上它；並且要有那份職業脊樑，在一個模型雖準卻無法解釋、不穩定、或不公平時，能說出「我們不會申報這個」。一份費率申報書底部的那個簽名，所承諾的遠不止預測誤差這一件事。

至此，「統計與資料」這一階就收尾了。你起步時，是先學會一個模型、再從中讀出不確定性；而你結束時，已經能從雜亂的現實中把模型學出來、誠實地檢驗它，並判斷一個聰明的模型何時已經跑過了你能負責任地為之辯護的邊界。你如今握住的迴歸機器——尤其是 GLM——正是從課本裡的機率通往工作世界的那座橋。接下來，階梯將轉向利息理論，在那裡，這套同樣有紀律的直覺，會被對準貨幣的時間價值。