頻率與強度：把問題拆開

為什麼不直接給總額建模？

在這條階梯的壽險一側，你建模的大多是某個事件*是否*發生、*何時*發生——身故、活到某個日期——而賠付通常是一筆你事先約定好的固定金額。非壽險是另一種生物。一張車險保單今年可能一次險都不出，也可能磕碰一次，又或者磕碰加上筆記型電腦被偷再加上整車報廢。而任何一次理賠的金額本身也是不確定的：一道刮痕幾百塊，整車報廢則要好幾萬。於是你最終真正在乎的東西——累計損失，也就是一張保單或一個保單組合一年要花掉的總額——是由兩種各自獨立的隨機性疊在一起搭出來的。

原則上，你可以試著直接給累計損失建模：收集去年每張保單的總成本，然後用一個分布去擬合這一堆數字。麻煩在於，這一堆數字描述起來簡直是噩夢。它在恰好為零處有一根很高的尖峰（大多數保單從不理賠），接著是一個平滑的鼓包，對應只出過一次小額險的保單，再往後則是一條又長又細、令人膽寒的尾巴，對應那些極少數遭遇巨災或一年裡好幾次出險的保單。沒有哪個齊整的教科書分布長成這樣，更糟的是，一旦你的業務有變——你提高了免賠額，你承保了不同結構的客戶——這整堆畸形的東西就會整體平移，你只能從頭再來。

解法是整整這一階裡最重要的一個念頭，而它簡單得幾乎令人難為情：別再把「這張保單會花多少錢？」當成一個問題來問。問兩個。它會出幾次險，以及在出險的前提下，每次多大？這就是頻率—強度分解，一旦你看見它，就再也無法視而不見——它一舉把產險與意外險的定價、準備金評估與風險理論都梳理得井井有條。

用兩個乾淨的問題取代一個醜陋的問題

頻率是一段時期內理賠的次數——一個整數：0、1、2、3……由於它是對相當罕見、大致獨立的事件的計數，它天然地棲身於你已經見過的離散分布家族裡。預設的主力是卜瓦松分布，它有一個可愛的性質：均值與變異數相等；當真實資料呈現出比這更大的離散——比零次的年份更多、比三次的年份也更多，超出卜瓦松所允許的範圍——精算師便會請出負二項分布，它恰好補上那一份額外的擺動。這整樣東西就是一個理賠頻率分布。

強度是單次理賠的金額，*前提是確實出了險*——一個正數，從象徵性的一點點到足以致命的一大筆都有可能。所以它棲身於正數上的連續分布家族裡。對於中等、規規矩矩的損失，對數常態或伽瑪分布擬合得很好；而對於那些偶爾會冒出怪獸級理賠的險種——責任險、財產巨災——你就需要一個厚尾的形狀，例如帕累托分布，它的尾巴衰減得如此之慢，以至於單單一筆理賠就能讓其餘所有理賠之和相形見絀。這樣東西就是理賠強度分布。關鍵在於，頻率與強度通常被建模為*相互獨立*：你出了多少次險，並不告訴你每次會有多大。這種獨立性是一個假設，而非自然法則——但它非常有用，且通常站得住腳。

把它們重新縫合起來

把問題拆開，只有當你能把它重新組裝起來時才有用。一張保單的總成本是這樣的：取理賠的隨機次數 N，從強度分布中抽出那麼多個相互獨立的強度 X₁、X₂、……，然後把它們加起來。把*隨機個數*個隨機金額相加，稱為複合分布——當次數 N 服從卜瓦松分布時，它就是大名鼎鼎的複合卜瓦松，整套集體風險模型都奠基於此。接下來的幾篇導覽裡，你會學著去算它的均值、變異數，乃至完整的形狀；這裡要點只有一個：那兩半會重新合成為唯一真正要緊的那個量。

Aggregate loss  S = X1 + X2 + ... + XN   (N is itself random)

Expected frequency  E[N] = 0.20 claims/policy/year
Expected severity   E[X] = 4,000 dollars/claim

Pure premium  E[S] = E[N] x E[X]
            = 0.20 x 4,000 = 800 dollars/policy/year

一個玩具車險帳本：平均每五年出一次險，每次 4,000 元，於是每張保單每年的期望純成本是 800 元——這還沒算費用、利潤或任何安全餘量。

留意一下，那個小小的計算裡，拆分給我們帶來了什麼。這 800 元來自分別估計兩樣東西——一個大約每五年出一次險的頻率，和一個大約 4,000 元的典型理賠——其中每一樣都可以用它自己的資料、它自己的分布去研究。如果明年監管強制讓修車成本上漲 10%，那麼只有強度那個數在動；頻率原地不動。如果一項新的安全法規讓事故減少了五分之一，那麼只有頻率在動。我們可以更新其中一半而不驚動另一半——而這恰恰是那個醜陋的一鍋燴模型永遠給不了的靈活性。

逐損失視角 vs 逐賠付視角：站在誰的立場？

真實的保單幾乎從不賠付整筆理賠。免賠額讓客戶先自行承擔最前面的一小段；保單限額則在頂端給保險公司將賠付的金額封了頂。這就逼出一個一開始幾乎絆倒所有人的問題：當你說「強度分布」時，你指的是*客戶遭受的損失*的大小，還是*保險公司實際賠付*的金額的大小？這是兩個貨真價實不同的分布，把它們搞混，會在不知不覺中毒害一個定價模型。這一區分有個名字——逐損失視角與逐賠付視角。

逐損失視角站在投保人身旁，審視*每一個*損失事件，包括那些小到永遠到不了保險公司的。在 500 元免賠額之下，一塊 300 元的擋風玻璃磕痕是真實的損失，卻產生了零賠付——在逐損失的畫面裡它仍然算作一次損失，只是賠付為零罷了。逐賠付視角則站在保險公司的理賠櫃檯前，只看那些真正開出了支票的事件：它*早已*把每一個低於免賠額的損失剔除了，因此它的頻率更低，而你看到的金額都是在「大到足以賠付」這一條件下的。同一個底層現實，兩副不同的鏡片——而你選哪副鏡片，必須與你要回答的問題相匹配。

下面這一點微妙之處，足以讓它自成一節。提高免賠額並不只是從每筆賠付裡削去一個固定數額——它還改變你*觀測到的頻率*，因為那些原本能越過門檻的損失，如今從逐賠付的資料裡消失了。分解的兩半同時在動。正因如此，一個粗心的分析師若拿實際開出的支票去擬合一條強度曲線，然後又把它當作描述了全部損失那樣去套用，就會把一張採用不同免賠額的保單嚴重定錯價。把這兩個視角分得清清楚楚，並非咬文嚼字；它關乎一個模型究竟是能跨越不同免賠額與限額通行無阻，還是會在合同條款一變就悄無聲息地崩壞。

誠實面對這套拆分的局限

這套分解之所以強大，恰恰因為它做出了一些強力的簡化假設，而一個誠實的建模者會時刻把手指搭在每一個假設上。我們假設各次理賠*大致相互獨立*——可一場冰雹或颶風一夜之間就能擊碎這個假設，一個下午砸壞上千座屋頂，於是頻率與強度一齊飆升，那條整齊的乘積公式便低估了危險。我們假設頻率與強度*彼此獨立*——可在通膨時期，那些推高修車成本的力量，也可能微妙地改變小額理賠的報案頻率。我們還假設擬合出來的分布*會持續成立*——然而拿一條曲線去擬合去年的資料，是對過去的描述，而非對未來的保證。

每當你面對一筆總成本，拒絕正面去給它建模——先把它拆成「出幾次」（頻率）和「每次多大」（強度）。
給每個數字都貼上量綱：頻率是計數，強度是貨幣——並記住它們的乘積只是*期望*成本，而非全部風險。
在報出任何強度數字之前，先問一句「逐損失還是逐賠付？」——並核對資料裡的免賠額和限額是否與你正在定價的那張保單相匹配。