頻率模型與 (a,b,0) 分布類

頻率為何值得單獨建模

上一篇你見到了非壽險的統領範式：頻率—嚴重度分解。理賠總成本乾淨地一分為二——理賠*多久來一次*，以及*每次有多大*。本篇把鏡頭一路推近，對準前一半——頻率，也就是一張保單或一整組保單在某段時間裡產生理賠次數的那個隨機計數。嚴重度留待日後，我們就把這個計數本身當作一個取整數值 0、1、2、3、… 的隨機變量來端詳。

為什麼非要把次數單獨拎出來建模？因為驅動*多久一次*的那些力量，往往和驅動*每次多大*的力量大不相同。一個酷寒的冬天、一條新的安全法規、一場反欺詐整頓，都會改變理賠頻率，卻絲毫不動單筆理賠的金額；而醫療通膨恰好反過來。單獨為頻率建模——也就是一個理賠頻率分布——能讓你把每一股力量孤立開來觀察、估計、壓力測試，再把它們重新合成為總量。幾乎全部的定價、準備金評估與風險理論，都築在這一份紀律之上。

三個計數分布

精算師整套計數工具箱，歸根結底就是三個有名有姓的分布，各講一個略有差異的故事。二項分布數的是*固定*次數獨立試驗中的成功數——當存在一個硬上限時它最自然，比如「我那 40 輛卡車，每輛今年要麼出事、要麼沒事」。計數永遠不會超過試驗次數，而尤為關鍵的是，它的變異數*小於*均值。最後這一點，日後會大有講究。

卜瓦松分布是主力——卜瓦松頻率模型是理賠次數預設的首選。它的故事是*大池子裡的稀有事件*：保單眾多，每張單獨看都不大可能報賠，事件以一個穩定的平均速率 λ 獨立地零星到來。卜瓦松的招牌性質，是它的變異數*等於*均值——二者都是 λ。於是一組平均每年 200 筆理賠、用卜瓦松建模的業務，便被預設假定為圍繞 200 抖動、變異數也是 200（標準差約 14）。它乾淨，只有一個參數，而且加總起來妙極了：把兩組獨立的卜瓦松業務合在一起，總數仍是卜瓦松，速率相加即可。

負二項分布，是當卜瓦松顯得太過溫順時你會伸手去拿的那一個。負二項頻率模型有*兩個*參數，這換來一個總是*大於*均值的變異數。它背後有兩個等價的故事：在固定成功次數到來之前數失敗次數；以及——對精算師有用得多的——一個其速率 λ 本身就是隨機、並隨保單而異的卜瓦松。記住第二個故事，它正是本篇最重要那個念頭的鑰匙。

一條優雅的法則：(a,b,0) 分布類

下面這個漂亮的意外，把三者繫在了一起。這三個分布——二項、卜瓦松、負二項——以及*僅*這三個（外加幾何分布，它是負二項的一個特例）服從同一條簡單的遞推法則。恰好出現 k 筆理賠的機率，與出現 k − 1 筆的機率之比，是 1/k 的一條*直線*。把這個比值寫成 a + b/k，你就定義出了整個(a,b,0) 分布類。那個「0」，標記著遞推是從零筆理賠的機率起步的。

(a,b,0) class:   P(k) / P(k-1) = a + b/k,   for k = 1, 2, 3, ...

  Poisson(lambda):            a = 0,            b = lambda
  Binomial(n, q):             a = -q/(1-q),     b = (n+1)*q/(1-q)   (a < 0)
  Negative binomial(r, beta): a = beta/(1+beta), b = (r-1)*beta/(1+beta)   (a > 0)

  sign of a tells the whole story:  a<0 binomial,  a=0 Poisson,  a>0 neg. binomial

三個分布，一條遞推式。單單一個數 a——負、零、或正——就決定了你落在三者中的哪一個，而且（恰巧）也決定了計數相對均值是欠離散、恰好相等、還是過度離散。

這不只是整齊的記帳——它是一件真能幹活的工具。因為每一個 (a,b,0) 分布都共享同一副遞推骨架，一套演算法就能為其中任意一個生成整張機率表：從 P(0) 起步，再一步一步往上推。同一條遞推，正是 Panjer 遞推背後的引擎——它（在後面的篇章裡）讓你無須模擬，就能精確算出*總*理賠成本的分布。所以，把 (a,b,0) 這一族學透，是一筆會兩度回本的投資。

把零點掰彎：(a,b,1) 分布類

真實的理賠資料有一個 (a,b,0) 分布類難以照單全收的彆扭習性：報*零*筆理賠的保單數目，常常和這些分布預測的相去甚遠。絕大多數保單根本從不報賠，於是零點處那根尖峰可能高得多——或者，在那種只在理賠*之後*才採集的資料裡，又矮得多——超出了遞推式所願意給的。補救之道，是(a,b,1) 分布類：對 k = 2、3、4、… 保留一模一樣的 a + b/k 遞推，但*在零點處把它鬆開*，讓零筆理賠的機率自由設定。那個「1」，示意遞推如今從 k = 1 而非 k = 0 起步。

這點小小的自由，解鎖了兩個真正有用的形狀。零截斷分布把零筆的機率硬壓到恰好為零——這對那種你只看得到*確實*報過賠的保單的資料再合適不過（你看不到金額為零的理賠）。零修正分布，也就是更寬泛的零修正情形，則讓你把零筆機率往上或往下調到資料所顯示的任意值，再把其餘部分重新縮放，使總和仍為一。有了它，你就能為譬如這樣一組車險業務建模：92% 的司機從不報賠，而報賠的那些則遵循負二項的格局。

過度離散：當理賠扎堆

現在來聽本篇最要緊的一聲誠實警告。卜瓦松那條整齊的「變異數等於均值」假設，是一個*建模選擇*，而非自然律——而真實的理賠次數動輒就違背它。遠比想像中更常見的是，觀測到的變異數大於均值。這就是過度離散，在非壽險資料裡它是常態，而非例外。當你撞見它，卜瓦松就在對你撒謊：它會告訴你這個計數比真實情形更平靜、更好預測。

過度離散為何會發生？兩個尋常的緣由。其一，異質性：投保人並非千篇一律——謹慎的司機和魯莽的司機都在這本業務裡，於是真實速率 λ 因保單而異。若你把許多不同速率的卜瓦松摻到一起，這個混合就是過度離散的，而且——回想前面那第二個故事——它最終現形為一個*負二項*。其二，傳染或扎堆：一場冰雹一口氣報上一千筆理賠，於是理賠並不像卜瓦松所要求的那樣相互獨立。無論哪一種，計數的散布都會膨脹，越過它的均值。

後果既具體又昂貴。定價、尤其是資本，依賴於結果的*散布*，而不只是平均值。若真實變異數是你那個卜瓦松所設定的兩倍，那麼出現極壞年份的機率，遠高於模型所承認的——而你為那個壞年份留存的資本，便太單薄了。這正是為什麼負二項是從業者頻繁採用的預設選擇：它用那個額外的參數，換得讓變異數誠實發聲的權利。要記住的紀律很簡單——在信任一個卜瓦松之前，永遠拿變異數去和均值核對一遍。頻率模型是對世界的一種選定的描述，絕非世界本身；過度離散，正是世界在提醒你二者之間的差別。