從資料中估計：最大概似與動差估計

機率論從不曾問的那個問題

在機率論那一階裡，一切都從一個早已選定、轉盤也早已撥好的模型開始：一個均值恰好是每年 3 次理賠的卜瓦松分布、一筆期望值已知的賠付。有了它，你什麼都能算。但請注意那個悄無聲息的假設——是有人把這個「3」遞給了你。它從哪來的？在真實世界裡，沒人會把它遞給你。你接手的是一張去年理賠的表格，而模型的轉盤全是未知的。統計學就是把這個問題反過來問的學問：給定資料，那些轉盤當初大概被撥到了哪裡？

回想本階開頭講過的母體與樣本的區別。母體是那個完整的、通常無從知曉的真相——這一類保單可能產生的每一筆理賠，由某個我們稱之為 θ（theta）的真實參數所支配。樣本則是我們實際觀測到的那一小堆資料。點估計，就是從這堆樣本裡為 θ 造出一個最好的單一數字——一個點估計值，比如「平均理賠大概是 1,840 左右」。本篇會搭起兩種誠實的造數方法，然後追問那個更難的問題：我們憑什麼知道這個數字是好的？

動差估計：讓看得見的對上號

第一種方法自然到幾乎像是常識，而這恰恰是它的魅力所在。你在機率論那一階學過，一個分布有它理論上的動差——它的均值、它的變異數——都是用未知參數寫成的公式。你手上同時還有一份樣本，從中可以算出對應的樣本量：你那堆資料的簡單平均、你那堆資料的離散度。動差估計就是乾脆把它們令為相等，再解出來。如果理論說均值等於 θ，而你的資料平均下來是 1,840，那就宣布 θ 的估計值（θ-hat）等於 1,840，然後繼續往下走。

當一個分布有兩個未知參數時，你就需要兩個方程，於是你匹配前兩階動差：令理論均值等於樣本均值、令理論變異數等於樣本變異數，再把這一對聯立著解出來。假設你把每年的理賠次數建模為卜瓦松分布，它那唯一的參數 λ 恰好就等於它的均值。你多年觀測下來，次數平均是 2.7。動差估計聳聳肩說：λ 的估計值就是 2.7。完事。它最大的好處是，幾乎總能讓你用小學代數就解出一個答案——哪怕下面那個更花俏的方法卡住了，它也照樣能算。

這種方法的弱點正是其簡單的另一面。它只聽那麼一兩個概括數字，而忽略了資料細緻的形狀，於是它可能丟掉一條肥尾的保險損失正急著想告訴你的資訊。它甚至可能交回一堆荒謬的東西——一個負的變異數估計、或者一個落在合法範圍之外的參數——因為它從不檢查自己的答案是否說得通。它是那把又快又鈍的工具：先抓它來用，尤其拿來當起手的初猜，但別指望它能把資料裡每一滴洞見都榨出來。

最大概似：哪一種轉盤設置，讓資料最不令人意外？

第二種方法更深刻，而且一旦你想通了它，它就再也不會離開你。設想你能把 θ 每一個可能的取值都輪流試一遍。對每個候選值都問一句：如果 θ 真的就是這個值，那麼看到我恰好看到的這份資料，機率會有多大？這個數——把觀測到的資料的機率看成參數的函數——就叫概似。大多數候選值會讓你這份特定的資料看起來像個離奇的巧合；只有少數幾個會讓它看起來再普通不過。最大概似估計挑的，就是那個讓你手上真實資料變得儘可能最不令人意外的 θ 值。

一個日常的畫面：你在地上撿到一枚硬幣，拋了十次，得到七次正面。哪一種偏差最能解釋這個結果？一枚只有 10% 機率出正面的硬幣，會讓「十中有七」近乎奇蹟；而一枚 70% 出正面的硬幣，則讓它成為最有可能出現的那個結果。於是最大概似宣布：正面機率的估計值就是 0.7——也就是讓你所見之事最被預期的那個取值。妙就妙在，這套推理對任何模型都管用：把你那份資料的機率寫成 θ 的函數，然後一路爬到它的峰頂。

實務中，概似是一串乘積——每個資料點貢獻一個因子——而許許多多小機率連乘，在數值上很難處理，所以我們改為最大化它的對數，把乘積變成一個友善的求和（即對數概似）。峰頂隨後用微積分找出來，或者——在真實工作裡更常見——乾脆讓電腦去爬這座山。這份額外的功夫得到的回報是實打實的：最大概似傾聽的是整份資料集，而不只是一兩階動差；並且隨著樣本變大，它可以被證明是所有相合估計量中最精確的那一個。它正是擬合損失分布、以及本階後面等著你的那些迴歸模型背後的主力。

把兩種估計並排算一遍小例子

我們用卜瓦松計數模型把它落到實處，在這個模型裡兩種方法恰好會一致——這是個讓人安心的起點。假設四年的資料顯示理賠次數為 2、4、3、3。樣本均值是 (2+4+3+3)/4 = 3。動差估計把卜瓦松均值 λ 跟它對上號，報告 λ 的估計值是 3。而最大概似，在寫出對數概似並找到它的峰頂之後，落在的恰好是同一個答案：對卜瓦松分布而言，最可能的 λ 正好就是樣本平均。兩套截然不同的哲學，給出同一個數字。

Data (claims per year): 2, 4, 3, 3     n = 4
Method of moments:  set lambda = sample mean
   lambda_hat = (2+4+3+3)/4 = 3
Maximum likelihood (Poisson):
   peak of log-likelihood also occurs at the sample mean
   lambda_hat = 3   <- same answer here, NOT a coincidence for Poisson

Use it: P(0 claims next year) = e^-3 = 0.0498  (about a 1-in-20 quiet year)

對卜瓦松分布，兩種方法重合；一旦有了 λ 的估計值，你就能為明年定價——但下游的一切，如今都建立在一個估計、而非一個已知的真相之上。

這個乾淨的答案，身上還馱著兩條警告。第一，對卜瓦松分布兩種方法一致，但對偏斜的損失分布它們常常會分道揚鑣，那時通常是最大概似憑藉尊重尾部而勝出。第二，也更要緊：λ 的估計值 3，是建立在區區四年之上的。要是你把它當成刻在石頭上的定論塞進明年的定價裡，你就犯下了那個頭號大錯——忘了估計本身是不確定的。到底有多不確定？那正是緊接著要問的下一個問題。

什麼樣的估計才算好？

現在我們有了兩台造數字的機器。可是機器也能信心十足地造出一個糟糕的數字，所以我們需要標準。既然一個估計本身就是一個隨機變數——它在你可能抽到的所有樣本之上，自有一個小小的分布——我們就可以像評判任何隨機變數那樣去評判它，用上一階裡那些動差。有三個性質要緊，精算師應當能脫口而出。

無偏——平均而言，是對的。如果你把整項研究無窮次重做，這些估計會以真實的 θ 為中心，沒有系統性的偏向。偏誤是一種始終如一的傾斜，再多的資料也治不好它，就像一台永遠多讀兩公斤的秤。
相合——它會逐漸收攏。隨著樣本朝無窮增大，估計會向真實的 θ 收攏並穩定在那裡。這就是戴著統計學家帽子的大數定律：資料越多，瞄得越準。一個估計量可以略帶偏誤卻仍然相合，而這往往是一筆划算的交易。
有效——它什麼都不浪費。在那些誠實的估計量裡，有效的那個圍繞真相的離散度最小，於是任何一份單獨的樣本都落得最近。最大概似之所以出名，正是因為對大樣本而言，它本質上就是最有效的那一個。

這三者共同棲身於一個誠實的概括數字裡：標準誤，它無非就是你這個估計量的標準差——也就是當你重新抽取樣本時，θ 的估計值會抖動多少。小的標準誤意味著你這個數字值得信賴；而大的標準誤，則是這個估計在坦白：它不過比一則傳聞強一點點。它還會按樣本量的平方根縮小，這正是為什麼把資料翻成四倍，也只能把你的不確定性減半——這個讓人謙卑的匯率，在精算工作裡反覆出現，從可信度一直到準備金評估。

在你信任一個數字之前的幾句誠實告誡

第二句告誡：一個孤零零的點估計，無論它的出身多麼高貴，從設計上就藏起了自己的不確定性。報告「λ 的估計值是 3」卻不附標準誤，就好比把保費報到分，心裡卻清楚它合情合理地可能落在 2 到 4 之間任何地方。這正是為什麼一個嚴肅的精算師幾乎從不只報一個光禿禿的點估計；下一篇會給它配上一個信賴區間——一個誠實的範圍——好讓讀者既看到最佳猜測，也看到該把它握得多緊。

於是你帶著兩條可靠的途徑離開本篇——又快的動差估計，和更鋒利的最大概似——以及同樣關鍵的三把尺子（無偏、相合、有效）和那個告訴你該不該相信答案的標準誤。從這裡往後，套路再不會變：估計一個參數，給它繫上不確定性，然後讓一個誠實的模型把它帶進定價或準備金評估。估計，正是統計學終於觸碰到那個雜亂世界的地方——而你的機率論從來不必去碰它。