从数据中估计：极大似然与矩估计

概率论从不曾问的那个问题

在概率论那一阶里，一切都从一个早已选定、转盘也早已拨好的模型开始：一个均值恰好是每年 3 次理赔的泊松分布、一笔期望值已知的赔付。有了它，你什么都能算。但请注意那个悄无声息的假设——是有人把这个“3”递给了你。它从哪来的？在真实世界里，没人会把它递给你。你接手的是一张去年理赔的表格，而模型的转盘全是未知的。统计学就是把这个问题反过来问的学问：给定数据，那些转盘当初大概被拨到了哪里？

回想本阶开头讲过的总体与样本的区别。总体是那个完整的、通常无从知晓的真相——这一类保单可能产生的每一笔理赔，由某个我们称之为 θ（theta）的真实参数所支配。样本则是我们实际观测到的那一小堆数据。点估计，就是从这堆样本里为 θ 造出一个最好的单一数字——一个点估计值，比如“平均理赔大概是 1,840 左右”。本篇会搭起两种诚实的造数方法，然后追问那个更难的问题：我们凭什么知道这个数字是好的？

矩估计：让看得见的对上号

第一种方法自然到几乎像是常识，而这恰恰是它的魅力所在。你在概率论那一阶学过，一个分布有它理论上的矩——它的均值、它的方差——都是用未知参数写成的公式。你手上同时还有一份样本，从中可以算出对应的样本量：你那堆数据的简单平均、你那堆数据的离散度。矩估计就是干脆把它们令为相等，再解出来。如果理论说均值等于 θ，而你的数据平均下来是 1,840，那就宣布 θ 的估计值（θ-hat）等于 1,840，然后继续往下走。

当一个分布有两个未知参数时，你就需要两个方程，于是你匹配前两阶矩：令理论均值等于样本均值、令理论方差等于样本方差，再把这一对联立着解出来。假设你把每年的理赔次数建模为泊松分布，它那唯一的参数 λ 恰好就等于它的均值。你多年观测下来，次数平均是 2.7。矩估计耸耸肩说：λ 的估计值就是 2.7。完事。它最大的好处是，几乎总能让你用小学代数就解出一个答案——哪怕下面那个更花哨的方法卡住了，它也照样能算。

这种方法的弱点正是其简单的另一面。它只听那么一两个概括数字，而忽略了数据细致的形状，于是它可能丢掉一条肥尾的保险损失正急着想告诉你的信息。它甚至可能交回一堆荒谬的东西——一个负的方差估计、或者一个落在合法范围之外的参数——因为它从不检查自己的答案是否说得通。它是那把又快又钝的工具：先抓它来用，尤其拿来当起手的初猜，但别指望它能把数据里每一滴洞见都榨出来。

极大似然：哪一种转盘设置，让数据最不令人意外？

第二种方法更深刻，而且一旦你想通了它，它就再也不会离开你。设想你能把 θ 每一个可能的取值都轮流试一遍。对每个候选值都问一句：如果 θ 真的就是这个值，那么看到我恰好看到的这份数据，概率会有多大？这个数——把观测到的数据的概率看成参数的函数——就叫似然。大多数候选值会让你这份特定的数据看起来像个离奇的巧合；只有少数几个会让它看起来再普通不过。极大似然估计挑的，就是那个让你手上真实数据变得尽可能最不令人意外的 θ 值。

一个日常的画面：你在地上捡到一枚硬币，抛了十次，得到七次正面。哪一种偏差最能解释这个结果？一枚只有 10% 概率出正面的硬币，会让“十中有七”近乎奇迹；而一枚 70% 出正面的硬币，则让它成为最有可能出现的那个结果。于是极大似然宣布：正面概率的估计值就是 0.7——也就是让你所见之事最被预期的那个取值。妙就妙在，这套推理对任何模型都管用：把你那份数据的概率写成 θ 的函数，然后一路爬到它的峰顶。

实务中，似然是一串乘积——每个数据点贡献一个因子——而许许多多小概率连乘，在数值上很难处理，所以我们改为最大化它的对数，把乘积变成一个友善的求和（即对数似然）。峰顶随后用微积分找出来，或者——在真实工作里更常见——干脆让计算机去爬这座山。这份额外的功夫得到的回报是实打实的：极大似然倾听的是整份数据集，而不只是一两阶矩；并且随着样本变大，它可以被证明是所有相合估计量中最精确的那一个。它正是拟合损失分布、以及本阶后面等着你的那些回归模型背后的主力。

把两种估计并排算一遍小例子

我们用泊松计数模型把它落到实处，在这个模型里两种方法恰好会一致——这是个让人安心的起点。假设四年的数据显示理赔次数为 2、4、3、3。样本均值是 (2+4+3+3)/4 = 3。矩估计把泊松均值 λ 跟它对上号，报告 λ 的估计值是 3。而极大似然，在写出对数似然并找到它的峰顶之后，落在的恰好是同一个答案：对泊松分布而言，最可能的 λ 正好就是样本平均。两套截然不同的哲学，给出同一个数字。

Data (claims per year): 2, 4, 3, 3     n = 4
Method of moments:  set lambda = sample mean
   lambda_hat = (2+4+3+3)/4 = 3
Maximum likelihood (Poisson):
   peak of log-likelihood also occurs at the sample mean
   lambda_hat = 3   <- same answer here, NOT a coincidence for Poisson

Use it: P(0 claims next year) = e^-3 = 0.0498  (about a 1-in-20 quiet year)

对泊松分布，两种方法重合；一旦有了 λ 的估计值，你就能为明年定价——但下游的一切，如今都建立在一个估计、而非一个已知的真相之上。

这个干净的答案，身上还驮着两条警告。第一，对泊松分布两种方法一致，但对偏斜的损失分布它们常常会分道扬镳，那时通常是极大似然凭借尊重尾部而胜出。第二，也更要紧：λ 的估计值 3，是建立在区区四年之上的。要是你把它当成刻在石头上的定论塞进明年的定价里，你就犯下了那个头号大错——忘了估计本身是不确定的。到底有多不确定？那正是紧接着要问的下一个问题。

什么样的估计才算好？

现在我们有了两台造数字的机器。可是机器也能信心十足地造出一个糟糕的数字，所以我们需要标准。既然一个估计本身就是一个随机变量——它在你可能抽到的所有样本之上，自有一个小小的分布——我们就可以像评判任何随机变量那样去评判它，用上一阶里那些矩。有三个性质要紧，精算师应当能脱口而出。

无偏——平均而言，是对的。如果你把整项研究无穷次重做，这些估计会以真实的 θ 为中心，没有系统性的偏向。偏差是一种始终如一的倾斜，再多的数据也治不好它，就像一台永远多读两公斤的秤。
相合——它会逐渐收拢。随着样本朝无穷增大，估计会向真实的 θ 收拢并稳定在那里。这就是戴着统计学家帽子的大数定律：数据越多，瞄得越准。一个估计量可以略带偏差却仍然相合，而这往往是一笔划算的交易。
有效——它什么都不浪费。在那些诚实的估计量里，有效的那个围绕真相的离散度最小，于是任何一份单独的样本都落得最近。极大似然之所以出名，正是因为对大样本而言，它本质上就是最有效的那一个。

这三者共同栖身于一个诚实的概括数字里：标准误，它无非就是你这个估计量的标准差——也就是当你重新抽取样本时，θ 的估计值会抖动多少。小的标准误意味着你这个数字值得信赖；而大的标准误，则是这个估计在坦白：它不过比一则传闻强一点点。它还会按样本量的平方根缩小，这正是为什么把数据翻成四倍，也只能把你的不确定性减半——这个让人谦卑的汇率，在精算工作里反复出现，从可信度一直到准备金评估。

在你信任一个数字之前的几句诚实告诫

第二句告诫：一个孤零零的点估计，无论它的出身多么高贵，从设计上就藏起了自己的不确定性。报告“λ 的估计值是 3”却不附标准误，就好比把保费报到分，心里却清楚它合情合理地可能落在 2 到 4 之间任何地方。这正是为什么一个严肃的精算师几乎从不只报一个光秃秃的点估计；下一篇会给它配上一个置信区间——一个诚实的范围——好让读者既看到最佳猜测，也看到该把它握得多紧。

于是你带着两条可靠的途径离开本篇——又快的矩估计，和更锋利的极大似然——以及同样关键的三把尺子（无偏、相合、有效）和那个告诉你该不该相信答案的标准误。从这里往后，套路再不会变：估计一个参数，给它系上不确定性，然后让一个诚实的模型把它带进定价或准备金评估。估计，正是统计学终于触碰到那个杂乱世界的地方——而你的概率论从来不必去碰它。