嚴重度模型與重尾

這部機器的另一半

損失機器的一半你已經搭好了：在頻率—嚴重度分解裡，你把一批業務的成本拆成了*來多少次*理賠，以及*每次有多大*。本級前面幾篇釘牢了頻率這一側——卜瓦松與負二項這兩個計數模型。這一篇轉向另一半，也就是嚴重度：既然理賠已經發生，它要花掉多少美元？為這件事建模，正是理賠嚴重度分布的活兒——一個住在正數上的連續分布。

為什麼非要給嚴重度建模——直接把過去的理賠平均一下不就完了嗎？因為單憑平均值，會把那些足以讓保險公司送命的東西藏起來。兩批業務可以共有同一個平均理賠 4000 美元，可一批是源源不斷的 4000 美元小擦碰，另一批卻是一千筆 500 美元的刮蹭加上偶爾一樁 200 萬美元的官司。平均值對得上；可它們的*形狀*天差地別，而真正威脅償付能力的只有其中一個。嚴重度分布捕捉的正是這整個形狀——質量堆在哪裡、右臂伸出多遠，以及單單一筆理賠可能為自己攫走明年總額的多大一塊。

嚴重度分布的角色陣容

當初你頭一回逛精算工具箱時就見過這幾個家族；這裡我們讓它們作為同一份工作的競爭者上場幹活。指數分布是最簡單的誠實初稿——單參數、恆定衰減，以及那條*無記憶*性質：損失再長 1000 美元的機率，無論它已經多大都不變。作為第一手猜測它不賴，但真實理賠資料幾乎總是想要比它那一個旋鈕更多的靈活度。

伽馬分布添了一個形狀參數，於是曲線可以先隆起一個峰、再回落——適合那些圍著某個典型金額扎堆的中等理賠。威布爾分布有自己的形狀旋鈕，專管尾巴的脾性：往一邊擰，尾巴又輕又規矩；往另一邊擰，它就拉長開來——這正是工程師拿它來刻畫失效與磨損壽命的緣故。對數常態分布講的是一個*乘法*的故事——一筆由許多隨機因子相乘而成的損失（一次維修取決於零件 × 工時 × 延誤 × 撞擊的猛烈程度），它的對數服從常態，整體呈現強烈的右偏，而這副形狀恰能貼合出乎意料多的真實理賠資料。

然後就是帕累托分布，它自成一類，整個最後一節都留給它。眼下，先按尾部的輕重把其餘幾個排個隊，從最輕到最重：指數和伽馬衰減得快，對數常態拖得更遠，威布爾能輕能重，而帕累托則拒絕消退。在它們之間取捨並不是一場選美——它是一場關於*最大*那些損失會如何表現的賭注，而那些損失恰恰是你手上資料最少的。

擬合一個嚴重度分布

選定一個家族只是工作的一半；你還得給它選定參數，讓曲線真正貼合你的理賠。這就是損失分布擬合，它沿用你早先學過的那套估計思想，如今對準了賠付金額。最快的路子是矩估計法：算出過去理賠的樣本均值與變異數，再挑出能復現它們的參數。它快，能給一個像樣的起點，但它倚仗的是低階矩，於是幾乎不理會尾部——而對嚴重度而言，錢恰恰就在那條尾巴上。

真正的主力則是極大似然估計：選那組參數，使你實際觀察到的理賠最有可能出現。它用上每一個資料點，附帶標準誤讓你知道每個估計有多飄，而且——這對保險至關重要——它可以寫成尊重*刪失*與*截斷*資料的形式。這一點要緊，因為原始理賠資料極少是乾淨的：一道保單限額會給你能看到的金額封頂（在 100 萬美元保單上發生的 300 萬美元損失，帳面上恰恰記成 100 萬美元），而免賠額則截掉了那些根本沒人來報的小額理賠。一個無視這些扭曲的擬合，會把尾部判斷得離譜。

在候選者之間作出抉擇

假設你把三個候選者——比如伽馬、對數常態和帕累托——擬合到了同一批理賠上。你信哪一個？大致按下面這個次序，從三個方面去評判它們。

故事對得上嗎？在任何算術之前，先問這個分布背後的故事是否契合這項風險。乘法式的損害指向對數常態；少數巨災理賠混在眾多小額之中則指向帕累托。一個故事講錯了的模型，即便數字看上去漂亮，也會把你引入歧途。
擬合有多好，又是否對複雜度做了誠實的懲罰？跑一遍擬合優度檢驗，把候選者們放在一起比。參數越多的分布，總能把資料貼得越緊，所以既要獎賞擬合、又要懲罰多餘的參數——否則你獎賞的就只是過擬合的雜訊，而非抓住真正的形狀。
尾部貼合得如何——又有多穩？把目光最狠地盯在那些最大的理賠上，因為正是在那裡，對軀幹意見一致的候選者們分歧最大。然後換上略微不同的資料（或者乾脆抽掉單筆最大的理賠）重新擬合，看看答案挪動了多少。若它一下子躥動，說明你的尾部估計很脆，那就該往保守那邊靠。

留意榜單上*沒有*的那一條：「中段誤差最小的那個」。兩個分布可以在普通理賠的主體部分幾乎嚴絲合縫，所推出的尾部機率卻能相差十倍。給一個高保單限額或一層再保險定價時，那些尾部機率就是問題的全部。挑選嚴重度模型，是為了畫面裡你幾乎看不見的那一截——這恰恰說明，在此處，對其不確定性保持誠實，比在精算工作幾乎任何其他地方都更要緊。

重尾：當一筆理賠就是整整一年

現在來到了關鍵。重尾意味著一筆鉅額損失的機率消退得*很慢*——它按損失大小的某個冪次衰減，而不是按指數衰減。最乾淨的例子是帕累托嚴重度：把損失門檻翻一倍，超過它的機率只按一個固定的比例下降，無論你已經爬到多高都一樣。其實踐後果令人吃驚。在輕尾之下，你那一百筆普通理賠和那一筆大理賠，大體落在同一個金額量級裡。而在重尾之下，一年裡單筆最大的理賠，可能比其餘所有理賠之和還要大。

這正是巨災險與責任險所在的世界——地震、颶風、大規模侵權官司、流行病理賠。重尾打碎了你一直倚仗的那些舒適直覺。樣本平均值收斂得*慢得叫人發疼*，因為它老在等下一筆會把它猛地往上拽的離奇損失，於是十個風平浪靜的年頭告訴你的，遠比看上去要少。在最極端的重尾情形裡，數學上的變異數、甚至連均值本身，都是*無窮大*的——這意味著再多過去的資料也釘不住那個平均值，而你早先見過的那幅令人安心的中心極限圖景，在這裡壓根兒不適用。

Pareto tail: P(loss > x) ~ (b / x)^a      (a = tail index)

  P(loss > $1,000,000) = 0.0100
  P(loss > $2,000,000) = 0.0050   (halve again per doubling, a=1)
  P(loss > $4,000,000) = 0.0025

Light (exponential) tail for contrast:
  P(loss > $1,000,000) = 0.0100
  P(loss > $2,000,000) = 0.0001   (vanishes far faster)

同樣是 1% 的機率會有一筆 100 萬美元損失，卻是兩個截然不同的世界。在冪律的帕累托下，400 萬美元損失的機率是 100 萬美元的四分之一；在指數下，它幾乎已經消失。給一個高層級定價時，這道差距就是一切。

所以，對尾部要懷著謙卑。因為輕尾貼合了日常理賠、又顯得整潔就選它，正是通向破產的經典路徑之一：保險公司在太平年景裡入帳可觀的利潤，隨後一樁它從未定價的尾部事件登場，把十年的盈餘一筆抹平。這也正是為什麼對尾部敏感的風險度量如此要緊——像尾部風險價值這樣的度量，看的是越過某個門檻之後損失的*平均*大小，捕捉到了尾部的深度，而簡單的風險價值那道截斷線，恰恰一步就跨了過去。模型不是風險本身；而尾部，正是這道鴻溝施展破壞的地方。