JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

嚴重度模型與重尾

頻率告訴你理賠來得有多頻繁,嚴重度告訴你它們有多大——而真正悄悄拖垮一家保險公司的,往往不是理賠的次數,而是它們的金額。來認識刻畫賠付金額的那幾個分布,學會如何擬合並在它們之間取捨,並直面那條重尾——在那裡,單單一筆理賠就足以吞掉整整一年。

這部機器的另一半

損失機器的一半你已經搭好了:在頻率—嚴重度分解裡,你把一批業務的成本拆成了*來多少次*理賠,以及*每次有多大*。本級前面幾篇釘牢了頻率這一側——卜瓦松與負二項這兩個計數模型。這一篇轉向另一半,也就是嚴重度:既然理賠已經發生,它要花掉多少美元?為這件事建模,正是理賠嚴重度分布的活兒——一個住在正數上的連續分布。

為什麼非要給嚴重度建模——直接把過去的理賠平均一下不就完了嗎?因為單憑平均值,會把那些足以讓保險公司送命的東西藏起來。兩批業務可以共有同一個平均理賠 4000 美元,可一批是源源不斷的 4000 美元小擦碰,另一批卻是一千筆 500 美元的刮蹭加上偶爾一樁 200 萬美元的官司。平均值對得上;可它們的*形狀*天差地別,而真正威脅償付能力的只有其中一個。嚴重度分布捕捉的正是這整個形狀——質量堆在哪裡、右臂伸出多遠,以及單單一筆理賠可能為自己攫走明年總額的多大一塊。

嚴重度分布的角色陣容

當初你頭一回逛精算工具箱時就見過這幾個家族;這裡我們讓它們作為同一份工作的競爭者上場幹活。指數分布是最簡單的誠實初稿——單參數、恆定衰減,以及那條*無記憶*性質:損失再長 1000 美元的機率,無論它已經多大都不變。作為第一手猜測它不賴,但真實理賠資料幾乎總是想要比它那一個旋鈕更多的靈活度。

伽馬分布添了一個形狀參數,於是曲線可以先隆起一個峰、再回落——適合那些圍著某個典型金額扎堆的中等理賠。威布爾分布有自己的形狀旋鈕,專管尾巴的脾性:往一邊擰,尾巴又輕又規矩;往另一邊擰,它就拉長開來——這正是工程師拿它來刻畫失效與磨損壽命的緣故。對數常態分布講的是一個*乘法*的故事——一筆由許多隨機因子相乘而成的損失(一次維修取決於零件 × 工時 × 延誤 × 撞擊的猛烈程度),它的對數服從常態,整體呈現強烈的右偏,而這副形狀恰能貼合出乎意料多的真實理賠資料。

然後就是帕累托分布,它自成一類,整個最後一節都留給它。眼下,先按尾部的輕重把其餘幾個排個隊,從最輕到最重:指數和伽馬衰減得快,對數常態拖得更遠,威布爾能輕能重,而帕累托則拒絕消退。在它們之間取捨並不是一場選美——它是一場關於*最大*那些損失會如何表現的賭注,而那些損失恰恰是你手上資料最少的。

擬合一個嚴重度分布

選定一個家族只是工作的一半;你還得給它選定參數,讓曲線真正貼合你的理賠。這就是損失分布擬合,它沿用你早先學過的那套估計思想,如今對準了賠付金額。最快的路子是矩估計法:算出過去理賠的樣本均值與變異數,再挑出能復現它們的參數。它快,能給一個像樣的起點,但它倚仗的是低階矩,於是幾乎不理會尾部——而對嚴重度而言,錢恰恰就在那條尾巴上。

真正的主力則是極大似然估計:選那組參數,使你實際觀察到的理賠最有可能出現。它用上每一個資料點,附帶標準誤讓你知道每個估計有多飄,而且——這對保險至關重要——它可以寫成尊重*刪失*與*截斷*資料的形式。這一點要緊,因為原始理賠資料極少是乾淨的:一道保單限額會給你能看到的金額封頂(在 100 萬美元保單上發生的 300 萬美元損失,帳面上恰恰記成 100 萬美元),而免賠額則截掉了那些根本沒人來報的小額理賠。一個無視這些扭曲的擬合,會把尾部判斷得離譜。

在候選者之間作出抉擇

假設你把三個候選者——比如伽馬、對數常態和帕累托——擬合到了同一批理賠上。你信哪一個?大致按下面這個次序,從三個方面去評判它們。

  1. 故事對得上嗎?在任何算術之前,先問這個分布背後的故事是否契合這項風險。乘法式的損害指向對數常態;少數巨災理賠混在眾多小額之中則指向帕累托。一個故事講錯了的模型,即便數字看上去漂亮,也會把你引入歧途。
  2. 擬合有多好,又是否對複雜度做了誠實的懲罰?跑一遍擬合優度檢驗,把候選者們放在一起比。參數越多的分布,總能把資料貼得越緊,所以既要獎賞擬合、又要懲罰多餘的參數——否則你獎賞的就只是過擬合的雜訊,而非抓住真正的形狀。
  3. 尾部貼合得如何——又有多穩?把目光最狠地盯在那些最大的理賠上,因為正是在那裡,對軀幹意見一致的候選者們分歧最大。然後換上略微不同的資料(或者乾脆抽掉單筆最大的理賠)重新擬合,看看答案挪動了多少。若它一下子躥動,說明你的尾部估計很脆,那就該往保守那邊靠。

留意榜單上*沒有*的那一條:「中段誤差最小的那個」。兩個分布可以在普通理賠的主體部分幾乎嚴絲合縫,所推出的尾部機率卻能相差十倍。給一個高保單限額或一層再保險定價時,那些尾部機率就是問題的全部。挑選嚴重度模型,是為了畫面裡你幾乎看不見的那一截——這恰恰說明,在此處,對其不確定性保持誠實,比在精算工作幾乎任何其他地方都更要緊。

重尾:當一筆理賠就是整整一年

現在來到了關鍵。重尾意味著一筆鉅額損失的機率消退得*很慢*——它按損失大小的某個冪次衰減,而不是按指數衰減。最乾淨的例子是帕累托嚴重度:把損失門檻翻一倍,超過它的機率只按一個固定的比例下降,無論你已經爬到多高都一樣。其實踐後果令人吃驚。在輕尾之下,你那一百筆普通理賠和那一筆大理賠,大體落在同一個金額量級裡。而在重尾之下,一年裡單筆最大的理賠,可能比其餘所有理賠之和還要大。

這正是巨災險與責任險所在的世界——地震、颶風、大規模侵權官司、流行病理賠。重尾打碎了你一直倚仗的那些舒適直覺。樣本平均值收斂得*慢得叫人發疼*,因為它老在等下一筆會把它猛地往上拽的離奇損失,於是十個風平浪靜的年頭告訴你的,遠比看上去要少。在最極端的重尾情形裡,數學上的變異數、甚至連均值本身,都是*無窮大*的——這意味著再多過去的資料也釘不住那個平均值,而你早先見過的那幅令人安心的中心極限圖景,在這裡壓根兒不適用。

Pareto tail: P(loss > x) ~ (b / x)^a      (a = tail index)

  P(loss > $1,000,000) = 0.0100
  P(loss > $2,000,000) = 0.0050   (halve again per doubling, a=1)
  P(loss > $4,000,000) = 0.0025

Light (exponential) tail for contrast:
  P(loss > $1,000,000) = 0.0100
  P(loss > $2,000,000) = 0.0001   (vanishes far faster)
同樣是 1% 的機率會有一筆 100 萬美元損失,卻是兩個截然不同的世界。在冪律的帕累托下,400 萬美元損失的機率是 100 萬美元的四分之一;在指數下,它幾乎已經消失。給一個高層級定價時,這道差距就是一切。

所以,對尾部要懷著謙卑。因為輕尾貼合了日常理賠、又顯得整潔就選它,正是通向破產的經典路徑之一:保險公司在太平年景裡入帳可觀的利潤,隨後一樁它從未定價的尾部事件登場,把十年的盈餘一筆抹平。這也正是為什麼對尾部敏感的風險度量如此要緊——像尾部風險價值這樣的度量,看的是越過某個門檻之後損失的*平均*大小,捕捉到了尾部的深度,而簡單的風險價值那道截斷線,恰恰一步就跨了過去。模型不是風險本身;而尾部,正是這道鴻溝施展破壞的地方。