JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

最大精度(Bühlmann)信度

經典信度用一條經驗法則告訴你該在多大程度上信任自己的資料。Bühlmann 信度則從第一性原理推出這個權重——把單一風險自身的雜訊,和不同風險之間真正的差異兩相比較——於是落下了整個精算學中最優美的公式之一。

從經驗法則到第一性原理

在上一篇裡你認識了有限波動信度:你先定一個完全信度標準——比如 1,082 次理賠——低於這個數,你就用一個權重 Z 把自己的經驗和手冊費率摻在一起。它管用,整整一個世紀這活兒就是這麼幹的。但要誠實地看清它的本質:它是一份配方。它回答的是「我需要多少資料,隨機雜訊才小到可以接受?」它從不追問那個更深的問題——*我想要分辨的這些風險,彼此之間究竟有多不一樣?* 如果我帳上每個司機其實都一模一樣,那麼再多他自己的資料也告訴不了我關於他的任何新東西,我就該完全倚重平均值。如果司機們千差萬別,那麼哪怕一點點他自己的資料都彌足珍貴。

最大精度信度——通常稱為 Bühlmann 信度,得名於 Hans Bühlmann 1967 年的論文——把那個更深的問題當真了。它不從雜訊容忍度出發,而是從一個目標出發:找到「你自己的資料」與「整體平均」之間的某種加權混合,使其平均而言最接近真相——也就是讓期望平方誤差最小。結果發現,最好的*線性*答案有一個驚人乾淨的形式,而其中每一個量都是你真能從資料裡估出來的。沒有什麼從表裡搬來的神祕數字 1,082;權重是從風險本身的結構裡長出來的。

藏在資料裡的兩種變異數

整台引擎都建立在一次看見之上:當你盯著來自許多不同風險的一堆數字時,你觀察到的那份離散,其實是*兩樣*截然不同的東西混在一起的結果。想像一百家餐廳,每家都報了好幾年的火災理賠成本。這些數字上下跳動,有兩個原因。第一,哪怕是固定的某一家餐廳,也有好年景和壞年景——純粹是運氣,是擲骰子。第二,這些餐廳本來就不一樣:一家油炸為主的小館,年復一年都比沙拉吧更危險。Bühlmann 的洞見,就是把這兩樣分別命名、分別度量,因為它們之間的*比值*,恰恰應當主宰你對某一家餐廳自身記錄的信任程度。

第一塊是過程變異數的期望,即 EPV。固定單一風險——某一家餐廳,連同它自己真實的潛在出險率——然後問:它逐年的數字,*單單出於運氣*會上下跳動多少?這種風險內部的抖動,就是過程變異數。不同餐廳這份抖動的大小不一,於是我們對所有餐廳取期望:EPV 就是風險內部雜訊的平均。EPV 高,意味著即便是一個已知的、固定的風險,也會產出劇烈搖擺的結果——它自己的資料大多是雜音,很難讀懂。

第二塊是假設均值的變異數,即 VHM。設想你能神奇地知道每家餐廳*真實*的長期平均成本——它的假設均值,也就是經過無窮多年後它會穩定下來的那個數。這些真實均值並不都相等;油炸小館的那個,確實比沙拉吧的更高。VHM 就是這些真實均值在整個母體上的變異數。VHM 高,意味著這些風險彼此之間真的、深刻地不同——於是搞清楚你看的*是哪一個*關係重大,而它自己的資料值得一聽。

公式,以及它為何讀起來像一句話

現在是回報。定義一個數,即 Bühlmann k,等於兩個變異數之比:k = EPV / VHM。那麼對一個你已觀察了 n 期的風險,信度因子 Z 就是 Z = n / (n + k)。你的最終估計——信度保費——便是那個信度加權混合:Z 乘以你自己觀察到的均值,加上 (1 − Z) 乘以總均值。這就是全部方法。三行,卻扛起了一個世紀實踐的全部分量。

k = EPV / VHM
Z = n / (n + k)
estimate = Z * (your own mean) + (1 - Z) * (grand mean)
完整的 Bühlmann 配方。k 是雜訊與訊號之比;隨著你累積更多年份 n,Z 趨向於 1。

把 Z = n / (n + k) 慢慢唸出來,它幾乎會開口說話。k 的作用,像是你背上始終馱著的若干個「幽靈」年的平均經驗。若 k = 4,那麼緊挨著你那 n 個真實資料年的,是 4 個看不見的年份,它們悄悄地堅持要用總均值。若你自己有 n = 4 年,則 Z = 4 / 8 = 0.5——恰好打平,一半靠你的資料,一半靠平均。再多攢幾年,你真實的證據就壓過幽靈:n = 36 時 Z = 36 / 40 = 0.9。當 n 無限增長,Z 攀向 1,平均值隨之淡出——這正合天理,因為有了足夠多自己的資料,你便不再需要向別人借力了。

為何越同質的風險信度越高

這裡是最值得帶回家的一部分。因為 k = EPV / VHM,你賦予的信度,由雜訊與訊號之間的一場拉鋸戰所主宰。EPV 是單一風險內部的雜訊;VHM 是風險之間真實差異的訊號。當 VHM 大時——風險是異質的,彼此確實相距甚遠——k 就小,於是 Z 大:你自己的資料獲勝,因為分辨風險確實要緊,而你的記錄確實能鎖定你看的是哪一個。當 EPV 大時——每個風險的數字都狂野、由運氣主導——k 就大,Z 小:你自己的資料大多是雜訊,於是你退回到那個寬泛的平均。

現在那句標題式的論斷——*越同質的風險信度越高*——需要小心措辭,因為「同質」可以指兩件相反的事,而這裡只有一件是對的。它絕不是指一個人人都一模一樣的池子;在那種池子裡 VHM 為零,於是 k 無窮大、Z 坍縮為零——你不該信任任何人的個體資料,因為根本沒有什麼個體的東西可學。真正贏得高信度的,是這樣一個風險:它*內部*穩定而平順——EPV 低,自己的數字平靜且可重複——同時身處一個風險*彼此相異*的母體之中——VHM 高。內部穩、相互異:這才是甜蜜點,在那裡,某一個風險自己那份安靜而一致的記錄便是黃金。

一個小小的算例,以及誠實的邊界

我們給它配上數字。假設一項針對眾多工廠帳戶的研究告訴你:總均值理賠成本為每年 500,EPV(帳戶內部的平均運氣波動)為 90,000,VHM(帳戶之間的真實離散)為 30,000。那麼 k = 90,000 / 30,000 = 3。你承保了 n = 6 年的某家工廠,平均每年 800——遠高於全冊水準。它的信度為 Z = 6 / (6 + 3) = 2/3。它的信度保費為 (2/3)(800) + (1/3)(500) = 533 + 167 = 700。你相信它那份糟糕記錄的大部分、但非全部——你把它從平均值朝它自己的經驗推了三分之二的路程。

兩點誠實的提醒。第一,現實裡沒人會把 EPV 和 VHM 直接遞到你手上——你必須從資料裡*估計*它們,而這本身是一門手藝(無偏估計量,以及把 Bühlmann 推廣到規模不等之風險的經驗貝氏機制,是後面幾篇的主題)。糟糕的變異數估計甚至可能算出負數,那是無稽之談,必須截斷到零;對你的 k 要像對待任何估計一樣心懷謙卑。第二,Bühlmann 是最佳*線性*法則,而非毫無保留的最佳法則。倘若你願意假設一個完整的機率模型——一個關於風險的先驗,加上一個關於資料的似然——那麼完備的貝氏信度會給出真正最優的後驗估計,而 Bühlmann 不過是它的那道直線投影。

即便有這些保留,這仍是那個讓信度成為*理論*而非慣例的念頭。有限波動用一個是與否的門檻回答了「我的資料夠大嗎?」。Bühlmann 回答的是那個更好的問題——「考慮到每個風險有多吵、風險之間又有多麼不同,哪一種混合可被證明最接近真相?」——而它的答案,是一條簡短、能自我檢驗、且精算師能在監管者面前為之辯護的公式。這正是為什麼,當人們說信度是別處尋它不得的純粹精算基因時,他們心裡想的,正是這一段程式碼。