JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

頻率與強度:把問題拆開

一年的理賠看上去一團混亂:有些保單分文不花,少數幾張卻花掉一大筆。非壽險建模的突破,就在於拒絕正面硬剛這團混亂,轉而問兩個更乾淨的問題——出幾次險,每次有多大——然後再把答案重新拼回去。

為什麼不直接給總額建模?

在這條階梯的壽險一側,你建模的大多是某個事件*是否*發生、*何時*發生——身故、活到某個日期——而賠付通常是一筆你事先約定好的固定金額。非壽險是另一種生物。一張車險保單今年可能一次險都不出,也可能磕碰一次,又或者磕碰加上筆記型電腦被偷再加上整車報廢。而任何一次理賠的金額本身也是不確定的:一道刮痕幾百塊,整車報廢則要好幾萬。於是你最終真正在乎的東西——累計損失,也就是一張保單或一個保單組合一年要花掉的總額——是由兩種各自獨立的隨機性疊在一起搭出來的。

原則上,你可以試著直接給累計損失建模:收集去年每張保單的總成本,然後用一個分布去擬合這一堆數字。麻煩在於,這一堆數字描述起來簡直是噩夢。它在恰好為零處有一根很高的尖峰(大多數保單從不理賠),接著是一個平滑的鼓包,對應只出過一次小額險的保單,再往後則是一條又長又細、令人膽寒的尾巴,對應那些極少數遭遇巨災或一年裡好幾次出險的保單。沒有哪個齊整的教科書分布長成這樣,更糟的是,一旦你的業務有變——你提高了免賠額,你承保了不同結構的客戶——這整堆畸形的東西就會整體平移,你只能從頭再來。

解法是整整這一階裡最重要的一個念頭,而它簡單得幾乎令人難為情:別再把「這張保單會花多少錢?」當成一個問題來問。問兩個。它會出幾次險,以及在出險的前提下,每次多大?這就是頻率—強度分解,一旦你看見它,就再也無法視而不見——它一舉把產險與意外險的定價、準備金評估與風險理論都梳理得井井有條。

用兩個乾淨的問題取代一個醜陋的問題

頻率是一段時期內理賠的次數——一個整數:0、1、2、3……由於它是對相當罕見、大致獨立的事件的計數,它天然地棲身於你已經見過的離散分布家族裡。預設的主力是卜瓦松分布,它有一個可愛的性質:均值與變異數相等;當真實資料呈現出比這更大的離散——比零次的年份更多、比三次的年份也更多,超出卜瓦松所允許的範圍——精算師便會請出負二項分布,它恰好補上那一份額外的擺動。這整樣東西就是一個理賠頻率分布

強度是單次理賠的金額,*前提是確實出了險*——一個正數,從象徵性的一點點到足以致命的一大筆都有可能。所以它棲身於正數上的連續分布家族裡。對於中等、規規矩矩的損失,對數常態或伽瑪分布擬合得很好;而對於那些偶爾會冒出怪獸級理賠的險種——責任險、財產巨災——你就需要一個厚尾的形狀,例如帕累托分布,它的尾巴衰減得如此之慢,以至於單單一筆理賠就能讓其餘所有理賠之和相形見絀。這樣東西就是理賠強度分布。關鍵在於,頻率與強度通常被建模為*相互獨立*:你出了多少次險,並不告訴你每次會有多大。這種獨立性是一個假設,而非自然法則——但它非常有用,且通常站得住腳。

把它們重新縫合起來

把問題拆開,只有當你能把它重新組裝起來時才有用。一張保單的總成本是這樣的:取理賠的隨機次數 N,從強度分布中抽出那麼多個相互獨立的強度 X₁、X₂、……,然後把它們加起來。把*隨機個數*個隨機金額相加,稱為複合分布——當次數 N 服從卜瓦松分布時,它就是大名鼎鼎的複合卜瓦松,整套集體風險模型都奠基於此。接下來的幾篇導覽裡,你會學著去算它的均值、變異數,乃至完整的形狀;這裡要點只有一個:那兩半會重新合成為唯一真正要緊的那個量。

Aggregate loss  S = X1 + X2 + ... + XN   (N is itself random)

Expected frequency  E[N] = 0.20 claims/policy/year
Expected severity   E[X] = 4,000 dollars/claim

Pure premium  E[S] = E[N] x E[X]
            = 0.20 x 4,000 = 800 dollars/policy/year
一個玩具車險帳本:平均每五年出一次險,每次 4,000 元,於是每張保單每年的期望純成本是 800 元——這還沒算費用、利潤或任何安全餘量。

留意一下,那個小小的計算裡,拆分給我們帶來了什麼。這 800 元來自分別估計兩樣東西——一個大約每五年出一次險的頻率,和一個大約 4,000 元的典型理賠——其中每一樣都可以用它自己的資料、它自己的分布去研究。如果明年監管強制讓修車成本上漲 10%,那麼只有強度那個數在動;頻率原地不動。如果一項新的安全法規讓事故減少了五分之一,那麼只有頻率在動。我們可以更新其中一半而不驚動另一半——而這恰恰是那個醜陋的一鍋燴模型永遠給不了的靈活性。

逐損失視角 vs 逐賠付視角:站在誰的立場?

真實的保單幾乎從不賠付整筆理賠。免賠額讓客戶先自行承擔最前面的一小段;保單限額則在頂端給保險公司將賠付的金額封了頂。這就逼出一個一開始幾乎絆倒所有人的問題:當你說「強度分布」時,你指的是*客戶遭受的損失*的大小,還是*保險公司實際賠付*的金額的大小?這是兩個貨真價實不同的分布,把它們搞混,會在不知不覺中毒害一個定價模型。這一區分有個名字——逐損失視角與逐賠付視角

逐損失視角站在投保人身旁,審視*每一個*損失事件,包括那些小到永遠到不了保險公司的。在 500 元免賠額之下,一塊 300 元的擋風玻璃磕痕是真實的損失,卻產生了零賠付——在逐損失的畫面裡它仍然算作一次損失,只是賠付為零罷了。逐賠付視角則站在保險公司的理賠櫃檯前,只看那些真正開出了支票的事件:它*早已*把每一個低於免賠額的損失剔除了,因此它的頻率更低,而你看到的金額都是在「大到足以賠付」這一條件下的。同一個底層現實,兩副不同的鏡片——而你選哪副鏡片,必須與你要回答的問題相匹配。

下面這一點微妙之處,足以讓它自成一節。提高免賠額並不只是從每筆賠付裡削去一個固定數額——它還改變你*觀測到的頻率*,因為那些原本能越過門檻的損失,如今從逐賠付的資料裡消失了。分解的兩半同時在動。正因如此,一個粗心的分析師若拿實際開出的支票去擬合一條強度曲線,然後又把它當作描述了全部損失那樣去套用,就會把一張採用不同免賠額的保單嚴重定錯價。把這兩個視角分得清清楚楚,並非咬文嚼字;它關乎一個模型究竟是能跨越不同免賠額與限額通行無阻,還是會在合同條款一變就悄無聲息地崩壞。

誠實面對這套拆分的局限

這套分解之所以強大,恰恰因為它做出了一些強力的簡化假設,而一個誠實的建模者會時刻把手指搭在每一個假設上。我們假設各次理賠*大致相互獨立*——可一場冰雹或颶風一夜之間就能擊碎這個假設,一個下午砸壞上千座屋頂,於是頻率與強度一齊飆升,那條整齊的乘積公式便低估了危險。我們假設頻率與強度*彼此獨立*——可在通膨時期,那些推高修車成本的力量,也可能微妙地改變小額理賠的報案頻率。我們還假設擬合出來的分布*會持續成立*——然而拿一條曲線去擬合去年的資料,是對過去的描述,而非對未來的保證。

  1. 每當你面對一筆總成本,拒絕正面去給它建模——先把它拆成「出幾次」(頻率)和「每次多大」(強度)。
  2. 給每個數字都貼上量綱:頻率是計數,強度是貨幣——並記住它們的乘積只是*期望*成本,而非全部風險。
  3. 在報出任何強度數字之前,先問一句「逐損失還是逐賠付?」——並核對資料裡的免賠額和限額是否與你正在定價的那張保單相匹配。