JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

從資料中估計:最大概似與動差估計

機率論遞給你的是參數已經填好的整潔分布;而現實遞給你的是一堆理賠紀錄,然後要你去把那些參數猜出來。本篇教你怎麼做這個猜測——以及怎麼分辨一個真正好的估計和一個只是好看的估計。

機率論從不曾問的那個問題

在機率論那一階裡,一切都從一個早已選定、轉盤也早已撥好的模型開始:一個均值恰好是每年 3 次理賠的卜瓦松分布、一筆期望值已知的賠付。有了它,你什麼都能算。但請注意那個悄無聲息的假設——是有人把這個「3」遞給了你。它從哪來的?在真實世界裡,沒人會把它遞給你。你接手的是一張去年理賠的表格,而模型的轉盤全是未知的。統計學就是把這個問題反過來問的學問:給定資料,那些轉盤當初大概被撥到了哪裡?

回想本階開頭講過的母體與樣本的區別。母體是那個完整的、通常無從知曉的真相——這一類保單可能產生的每一筆理賠,由某個我們稱之為 θ(theta)的真實參數所支配。樣本則是我們實際觀測到的那一小堆資料。點估計,就是從這堆樣本裡為 θ 造出一個最好的單一數字——一個點估計值,比如「平均理賠大概是 1,840 左右」。本篇會搭起兩種誠實的造數方法,然後追問那個更難的問題:我們憑什麼知道這個數字是好的?

動差估計:讓看得見的對上號

第一種方法自然到幾乎像是常識,而這恰恰是它的魅力所在。你在機率論那一階學過,一個分布有它理論上的動差——它的均值、它的變異數——都是用未知參數寫成的公式。你手上同時還有一份樣本,從中可以算出對應的樣本量:你那堆資料的簡單平均、你那堆資料的離散度。動差估計就是乾脆把它們令為相等,再解出來。如果理論說均值等於 θ,而你的資料平均下來是 1,840,那就宣布 θ 的估計值(θ-hat)等於 1,840,然後繼續往下走。

當一個分布有兩個未知參數時,你就需要兩個方程,於是你匹配前兩階動差:令理論均值等於樣本均值、令理論變異數等於樣本變異數,再把這一對聯立著解出來。假設你把每年的理賠次數建模為卜瓦松分布,它那唯一的參數 λ 恰好就等於它的均值。你多年觀測下來,次數平均是 2.7。動差估計聳聳肩說:λ 的估計值就是 2.7。完事。它最大的好處是,幾乎總能讓你用小學代數就解出一個答案——哪怕下面那個更花俏的方法卡住了,它也照樣能算。

這種方法的弱點正是其簡單的另一面。它只聽那麼一兩個概括數字,而忽略了資料細緻的形狀,於是它可能丟掉一條肥尾的保險損失正急著想告訴你的資訊。它甚至可能交回一堆荒謬的東西——一個負的變異數估計、或者一個落在合法範圍之外的參數——因為它從不檢查自己的答案是否說得通。它是那把又快又鈍的工具:先抓它來用,尤其拿來當起手的初猜,但別指望它能把資料裡每一滴洞見都榨出來。

最大概似:哪一種轉盤設置,讓資料最不令人意外?

第二種方法更深刻,而且一旦你想通了它,它就再也不會離開你。設想你能把 θ 每一個可能的取值都輪流試一遍。對每個候選值都問一句:如果 θ 真的就是這個值,那麼看到我恰好看到的這份資料,機率會有多大?這個數——把觀測到的資料的機率看成參數的函數——就叫概似。大多數候選值會讓你這份特定的資料看起來像個離奇的巧合;只有少數幾個會讓它看起來再普通不過。最大概似估計挑的,就是那個讓你手上真實資料變得儘可能最不令人意外的 θ 值。

一個日常的畫面:你在地上撿到一枚硬幣,拋了十次,得到七次正面。哪一種偏差最能解釋這個結果?一枚只有 10% 機率出正面的硬幣,會讓「十中有七」近乎奇蹟;而一枚 70% 出正面的硬幣,則讓它成為最有可能出現的那個結果。於是最大概似宣布:正面機率的估計值就是 0.7——也就是讓你所見之事最被預期的那個取值。妙就妙在,這套推理對任何模型都管用:把你那份資料的機率寫成 θ 的函數,然後一路爬到它的峰頂。

實務中,概似是一串乘積——每個資料點貢獻一個因子——而許許多多小機率連乘,在數值上很難處理,所以我們改為最大化它的對數,把乘積變成一個友善的求和(即對數概似)。峰頂隨後用微積分找出來,或者——在真實工作裡更常見——乾脆讓電腦去爬這座山。這份額外的功夫得到的回報是實打實的:最大概似傾聽的是整份資料集,而不只是一兩階動差;並且隨著樣本變大,它可以被證明是所有相合估計量中最精確的那一個。它正是擬合損失分布、以及本階後面等著你的那些迴歸模型背後的主力。

把兩種估計並排算一遍小例子

我們用卜瓦松計數模型把它落到實處,在這個模型裡兩種方法恰好會一致——這是個讓人安心的起點。假設四年的資料顯示理賠次數為 2、4、3、3。樣本均值是 (2+4+3+3)/4 = 3。動差估計把卜瓦松均值 λ 跟它對上號,報告 λ 的估計值是 3。而最大概似,在寫出對數概似並找到它的峰頂之後,落在的恰好是同一個答案:對卜瓦松分布而言,最可能的 λ 正好就是樣本平均。兩套截然不同的哲學,給出同一個數字。

Data (claims per year): 2, 4, 3, 3     n = 4
Method of moments:  set lambda = sample mean
   lambda_hat = (2+4+3+3)/4 = 3
Maximum likelihood (Poisson):
   peak of log-likelihood also occurs at the sample mean
   lambda_hat = 3   <- same answer here, NOT a coincidence for Poisson

Use it: P(0 claims next year) = e^-3 = 0.0498  (about a 1-in-20 quiet year)
對卜瓦松分布,兩種方法重合;一旦有了 λ 的估計值,你就能為明年定價——但下游的一切,如今都建立在一個估計、而非一個已知的真相之上。

這個乾淨的答案,身上還馱著兩條警告。第一,對卜瓦松分布兩種方法一致,但對偏斜的損失分布它們常常會分道揚鑣,那時通常是最大概似憑藉尊重尾部而勝出。第二,也更要緊:λ 的估計值 3,是建立在區區四年之上的。要是你把它當成刻在石頭上的定論塞進明年的定價裡,你就犯下了那個頭號大錯——忘了估計本身是不確定的。到底有多不確定?那正是緊接著要問的下一個問題。

什麼樣的估計才算好?

現在我們有了兩台造數字的機器。可是機器也能信心十足地造出一個糟糕的數字,所以我們需要標準。既然一個估計本身就是一個隨機變數——它在你可能抽到的所有樣本之上,自有一個小小的分布——我們就可以像評判任何隨機變數那樣去評判它,用上一階裡那些動差。有三個性質要緊,精算師應當能脫口而出。

  1. 無偏——平均而言,是對的。如果你把整項研究無窮次重做,這些估計會以真實的 θ 為中心,沒有系統性的偏向。偏誤是一種始終如一的傾斜,再多的資料也治不好它,就像一台永遠多讀兩公斤的秤。
  2. 相合——它會逐漸收攏。隨著樣本朝無窮增大,估計會向真實的 θ 收攏並穩定在那裡。這就是戴著統計學家帽子的大數定律:資料越多,瞄得越準。一個估計量可以略帶偏誤卻仍然相合,而這往往是一筆划算的交易。
  3. 有效——它什麼都不浪費。在那些誠實的估計量裡,有效的那個圍繞真相的離散度最小,於是任何一份單獨的樣本都落得最近。最大概似之所以出名,正是因為對大樣本而言,它本質上就是最有效的那一個。

這三者共同棲身於一個誠實的概括數字裡:標準誤,它無非就是你這個估計量的標準差——也就是當你重新抽取樣本時,θ 的估計值會抖動多少。小的標準誤意味著你這個數字值得信賴;而大的標準誤,則是這個估計在坦白:它不過比一則傳聞強一點點。它還會按樣本量的平方根縮小,這正是為什麼把資料翻成四倍,也只能把你的不確定性減半——這個讓人謙卑的匯率,在精算工作裡反覆出現,從可信度一直到準備金評估。

在你信任一個數字之前的幾句誠實告誡

第二句告誡:一個孤零零的點估計,無論它的出身多麼高貴,從設計上就藏起了自己的不確定性。報告「λ 的估計值是 3」卻不附標準誤,就好比把保費報到分,心裡卻清楚它合情合理地可能落在 2 到 4 之間任何地方。這正是為什麼一個嚴肅的精算師幾乎從不只報一個光禿禿的點估計;下一篇會給它配上一個信賴區間——一個誠實的範圍——好讓讀者既看到最佳猜測,也看到該把它握得多緊。

於是你帶著兩條可靠的途徑離開本篇——又快的動差估計,和更鋒利的最大概似——以及同樣關鍵的三把尺子(無偏、相合、有效)和那個告訴你該不該相信答案的標準誤。從這裡往後,套路再不會變:估計一個參數,給它繫上不確定性,然後讓一個誠實的模型把它帶進定價或準備金評估。估計,正是統計學終於觸碰到那個雜亂世界的地方——而你的機率論從來不必去碰它。