用一個小工具箱應付大千世界
到現在你已經知道隨機變量是什麼,知道它的分布就是故事的全部,也學會了如何把這個故事壓縮成一個期望和一個變異數。但分布可以是任意形狀。難道精算師要為每一項風險都新造一個分布嗎?不必。在實務中,總有那麼一小撮有名有姓的分布反覆登場,因為它們生自一些簡單的故事,而真實的風險又一遍遍地講著同樣的故事。把這一小撮學透,你日後遇到的大多數情形都能認得出來。
整理它們最清爽的方式,正是你早已見過的那道大分界:*計數*與*量度*。有些問題問的是多少次——這張保單會報幾次理賠,今年會來幾場風暴?這類問題由整數 0、1、2、… 上的離散分布來回答。另一些問題問的是多大——既然理賠發生了,它是多少美元?這類問題由正數上的連續分布來回答。本篇裡幾乎每一個分布,都乾淨俐落地落進這兩個陣營之一。
數東西:伯努利、二項、卜瓦松
從最簡單的隨機變量講起。一次是非試驗——理賠發生或不發生,硬幣正面或反面——就是一次伯努利試驗。伯努利分布只有一個數 p,即「是」的機率,而「否」的機率為 1 − p。它的均值是 p,變異數是 p(1 − p)。別看它小,它正是搭建一切計數分布的原子。
現在把同樣的是非試驗獨立地做 n 次,數一數有多少個「是」。這個計數服從二項分布:在每張保單理賠機率都是 p 的 n 張保單裡,會有幾張報賠?它的均值是 np——直覺得令人愉快:100 張保單各有 3% 的機率,平均就是 3 次理賠。二項分布假定試驗次數*固定*、彼此獨立、每次的 p *相同*。當這些假設成立時它分毫不差;當它們不成立時——比如一場洪水泡了整個街區,理賠便扎堆出現——它會悄悄低估風險。
可很多時候並沒有一個天然的「試驗次數」。下個月一家繁忙的保險公司會來多少筆理賠?事件從一個龐大的保單池裡源源不斷地零星到來,而每一張單獨來看又都不大可能報賠。在這個極限下,二項分布滑變成了卜瓦松分布,它是刻畫理賠頻率的主力。卜瓦松分布只有一個參數 λ,它*既是*均值*也是*變異數*——於是它帶著一個內建假設:變異數等於均值。真實的理賠次數往往比這更飄忽,這條線索我們稍後會再拎起來。眼下,就把 λ 想成每段時間的平均事件數:若某組合平均每週 8 筆理賠,那麼 λ = 8 的卜瓦松分布就描述了圍繞這個平均值的上下抖動。
量度大小:常態、指數、伽馬、對數常態
一旦理賠發生,它有多大?這下我們量的是美元,於是改用連續分布。最有名的是常態分布——那條對稱的鐘形曲線,由一個均值和一個標準差確定。它成名得理直氣壯:當許多微小、獨立的效應疊加起來,它們的總和往往趨於常態(下一篇你會看到這究竟為什麼)。但單筆理賠金額很少是常態的。理賠金額不會為負,它們會在較小的值附近堆積,並向右拖出長長的一條尾巴——鐘形那份整齊的對稱,用來描繪損失就用錯了圖。
所以對理賠*金額*,精算師轉而求助於右偏的、取正值的分布。指數分布最為溫和:它描述一種沒有記憶的量——損失再超過 100 美元的機率,無論它已經多大,都一樣。它簡單,作為初稿很不錯,但它的尾巴衰減得很快。伽馬分布給它添了一個額外的形狀參數,把它推而廣之,於是你能把曲線彎曲,去擬合那種先隆起、再回落的資料。對數常態分布講的是一個乘法的故事:若一筆損失是許多隨機因子的乘積(想想層層疊加的百分比效應),那麼它的對數服從常態,損失本身便服從對數常態——偏斜、恆正,尾巴比伽馬更重。
頻率乘以嚴重度
正是在這裡,兩個陣營牽起了手,而這也是全篇最有用的一個念頭。要為一整批業務的理賠總成本建模,精算師把問題一劈為二——這就是頻率—嚴重度分解。頻率是*發生多少次*理賠,用計數分布來建模。嚴重度是*每次有多大*,用量度大小的分布來建模。理賠總成本,大致就是頻率乘以平均嚴重度。
舉個具體的小例子就明白了。假設某組合的理賠次數服從均值為每年 200 筆的卜瓦松分布,而每筆理賠的金額服從平均 5000 美元的對數常態分布。那麼*期望*的總成本就是 200 × 5000 = 1,000,000 美元。這個期望數字,正是純保費的核心——它是每個人保費裡專門用來賠付損失的那部分,還沒加上費用和利潤。這種分解之所以強大,是因為兩半可以分開估計:一場寒潮可能抬高*頻率*而不改變*嚴重度*,而醫療通膨則推高*嚴重度*、*頻率*卻按兵不動。把它們拆開,你才能逐一看清、逐一定價每一股力量。
expected count lambda = 200 claims / year (Poisson) expected severity mean = $5,000 / claim (lognormal) expected total cost = 200 x $5,000 = $1,000,000 pure premium per policy (1,000 policies) = $1,000,000 / 1,000 = $1,000
關於重尾的第一聲警告
還有一個量度大小的分布,每位精算師都必須敬畏,因為它的脾性與眾不同:帕累托分布。它的尾巴不按指數方式消退——而僅以損失大小的某個冪次緩緩變薄,於是真正巨大的理賠始終頑固地保有可能。這就是重尾的教科書範例,而責任險、地震險、流行病險這些險種,正活在這個世界裡。在帕累托分布下,一年裡單筆最大的理賠,可能讓其餘所有理賠之和都相形見絀——這種格局,指數分布和對數常態分布壓根兒造不出來。
為什麼這件事如此要緊?因為重尾會悄無聲息地打碎你一路建起來的那些舒適直覺。平均值可能被單單一筆離奇的損失所主宰,於是它穩定得很慢,是個靠不住的嚮導。在最極端的情形下,變異數——甚至均值——在數學上可以是*無窮大*的,這意味著按單張保單去算,沒有任何有限的保費足夠高。重尾模型擬合起來也很脆弱:寥寥幾筆歷史上的巨額理賠,就能把估計值甩得天翻地覆。挑錯了尾巴,正是保險公司在風平浪靜的年頭看上去盈利完美、卻照樣破產的經典途徑之一。
往下走時,把這條誠實的告誡揣在身邊。分布是一個被選定的模型,而尾部恰是我們資料最少、損失最大的那一截。鐘形曲線和指數分布會哄你以為極端可以忽略不計;帕累托分布則提醒你並非如此。下一篇裡的兩條定理——大數定律與中心極限定理——正是讓保險得以成立的根基,但它們倚仗的假設,恰恰可能被重尾悄悄違背。清楚自己腳下踩的是*哪一個*分布、它的尾部有多可信,這便是當好精算師的一半功夫。