JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

从数据中估计:极大似然与矩估计

概率论递给你的是参数已经填好的整洁分布;而现实递给你的是一堆理赔记录,然后要你去把那些参数猜出来。本篇教你怎么做这个猜测——以及怎么分辨一个真正好的估计和一个只是好看的估计。

概率论从不曾问的那个问题

在概率论那一阶里,一切都从一个早已选定、转盘也早已拨好的模型开始:一个均值恰好是每年 3 次理赔的泊松分布、一笔期望值已知的赔付。有了它,你什么都能算。但请注意那个悄无声息的假设——是有人把这个“3”递给了你。它从哪来的?在真实世界里,没人会把它递给你。你接手的是一张去年理赔的表格,而模型的转盘全是未知的。统计学就是把这个问题反过来问的学问:给定数据,那些转盘当初大概被拨到了哪里?

回想本阶开头讲过的总体与样本的区别。总体是那个完整的、通常无从知晓的真相——这一类保单可能产生的每一笔理赔,由某个我们称之为 θ(theta)的真实参数所支配。样本则是我们实际观测到的那一小堆数据。点估计,就是从这堆样本里为 θ 造出一个最好的单一数字——一个点估计值,比如“平均理赔大概是 1,840 左右”。本篇会搭起两种诚实的造数方法,然后追问那个更难的问题:我们凭什么知道这个数字是好的?

矩估计:让看得见的对上号

第一种方法自然到几乎像是常识,而这恰恰是它的魅力所在。你在概率论那一阶学过,一个分布有它理论上的——它的均值、它的方差——都是用未知参数写成的公式。你手上同时还有一份样本,从中可以算出对应的样本量:你那堆数据的简单平均、你那堆数据的离散度。矩估计就是干脆把它们令为相等,再解出来。如果理论说均值等于 θ,而你的数据平均下来是 1,840,那就宣布 θ 的估计值(θ-hat)等于 1,840,然后继续往下走。

当一个分布有两个未知参数时,你就需要两个方程,于是你匹配前两阶矩:令理论均值等于样本均值、令理论方差等于样本方差,再把这一对联立着解出来。假设你把每年的理赔次数建模为泊松分布,它那唯一的参数 λ 恰好就等于它的均值。你多年观测下来,次数平均是 2.7。矩估计耸耸肩说:λ 的估计值就是 2.7。完事。它最大的好处是,几乎总能让你用小学代数就解出一个答案——哪怕下面那个更花哨的方法卡住了,它也照样能算。

这种方法的弱点正是其简单的另一面。它只听那么一两个概括数字,而忽略了数据细致的形状,于是它可能丢掉一条肥尾的保险损失正急着想告诉你的信息。它甚至可能交回一堆荒谬的东西——一个负的方差估计、或者一个落在合法范围之外的参数——因为它从不检查自己的答案是否说得通。它是那把又快又钝的工具:先抓它来用,尤其拿来当起手的初猜,但别指望它能把数据里每一滴洞见都榨出来。

极大似然:哪一种转盘设置,让数据最不令人意外?

第二种方法更深刻,而且一旦你想通了它,它就再也不会离开你。设想你能把 θ 每一个可能的取值都轮流试一遍。对每个候选值都问一句:如果 θ 真的就是这个值,那么看到我恰好看到的这份数据,概率会有多大?这个数——把观测到的数据的概率看成参数的函数——就叫似然。大多数候选值会让你这份特定的数据看起来像个离奇的巧合;只有少数几个会让它看起来再普通不过。极大似然估计挑的,就是那个让你手上真实数据变得尽可能最不令人意外的 θ 值。

一个日常的画面:你在地上捡到一枚硬币,抛了十次,得到七次正面。哪一种偏差最能解释这个结果?一枚只有 10% 概率出正面的硬币,会让“十中有七”近乎奇迹;而一枚 70% 出正面的硬币,则让它成为最有可能出现的那个结果。于是极大似然宣布:正面概率的估计值就是 0.7——也就是让你所见之事最被预期的那个取值。妙就妙在,这套推理对任何模型都管用:把你那份数据的概率写成 θ 的函数,然后一路爬到它的峰顶。

实务中,似然是一串乘积——每个数据点贡献一个因子——而许许多多小概率连乘,在数值上很难处理,所以我们改为最大化它的对数,把乘积变成一个友善的求和(即对数似然)。峰顶随后用微积分找出来,或者——在真实工作里更常见——干脆让计算机去爬这座山。这份额外的功夫得到的回报是实打实的:极大似然倾听的是整份数据集,而不只是一两阶矩;并且随着样本变大,它可以被证明是所有相合估计量中最精确的那一个。它正是拟合损失分布、以及本阶后面等着你的那些回归模型背后的主力。

把两种估计并排算一遍小例子

我们用泊松计数模型把它落到实处,在这个模型里两种方法恰好会一致——这是个让人安心的起点。假设四年的数据显示理赔次数为 2、4、3、3。样本均值是 (2+4+3+3)/4 = 3。矩估计把泊松均值 λ 跟它对上号,报告 λ 的估计值是 3。而极大似然,在写出对数似然并找到它的峰顶之后,落在的恰好是同一个答案:对泊松分布而言,最可能的 λ 正好就是样本平均。两套截然不同的哲学,给出同一个数字。

Data (claims per year): 2, 4, 3, 3     n = 4
Method of moments:  set lambda = sample mean
   lambda_hat = (2+4+3+3)/4 = 3
Maximum likelihood (Poisson):
   peak of log-likelihood also occurs at the sample mean
   lambda_hat = 3   <- same answer here, NOT a coincidence for Poisson

Use it: P(0 claims next year) = e^-3 = 0.0498  (about a 1-in-20 quiet year)
对泊松分布,两种方法重合;一旦有了 λ 的估计值,你就能为明年定价——但下游的一切,如今都建立在一个估计、而非一个已知的真相之上。

这个干净的答案,身上还驮着两条警告。第一,对泊松分布两种方法一致,但对偏斜的损失分布它们常常会分道扬镳,那时通常是极大似然凭借尊重尾部而胜出。第二,也更要紧:λ 的估计值 3,是建立在区区四年之上的。要是你把它当成刻在石头上的定论塞进明年的定价里,你就犯下了那个头号大错——忘了估计本身是不确定的。到底有多不确定?那正是紧接着要问的下一个问题。

什么样的估计才算好?

现在我们有了两台造数字的机器。可是机器也能信心十足地造出一个糟糕的数字,所以我们需要标准。既然一个估计本身就是一个随机变量——它在你可能抽到的所有样本之上,自有一个小小的分布——我们就可以像评判任何随机变量那样去评判它,用上一阶里那些矩。有三个性质要紧,精算师应当能脱口而出。

  1. 无偏——平均而言,是对的。如果你把整项研究无穷次重做,这些估计会以真实的 θ 为中心,没有系统性的偏向。偏差是一种始终如一的倾斜,再多的数据也治不好它,就像一台永远多读两公斤的秤。
  2. 相合——它会逐渐收拢。随着样本朝无穷增大,估计会向真实的 θ 收拢并稳定在那里。这就是戴着统计学家帽子的大数定律:数据越多,瞄得越准。一个估计量可以略带偏差却仍然相合,而这往往是一笔划算的交易。
  3. 有效——它什么都不浪费。在那些诚实的估计量里,有效的那个围绕真相的离散度最小,于是任何一份单独的样本都落得最近。极大似然之所以出名,正是因为对大样本而言,它本质上就是最有效的那一个。

这三者共同栖身于一个诚实的概括数字里:标准误,它无非就是你这个估计量的标准差——也就是当你重新抽取样本时,θ 的估计值会抖动多少。小的标准误意味着你这个数字值得信赖;而大的标准误,则是这个估计在坦白:它不过比一则传闻强一点点。它还会按样本量的平方根缩小,这正是为什么把数据翻成四倍,也只能把你的不确定性减半——这个让人谦卑的汇率,在精算工作里反复出现,从可信度一直到准备金评估。

在你信任一个数字之前的几句诚实告诫

第二句告诫:一个孤零零的点估计,无论它的出身多么高贵,从设计上就藏起了自己的不确定性。报告“λ 的估计值是 3”却不附标准误,就好比把保费报到分,心里却清楚它合情合理地可能落在 2 到 4 之间任何地方。这正是为什么一个严肃的精算师几乎从不只报一个光秃秃的点估计;下一篇会给它配上一个置信区间——一个诚实的范围——好让读者既看到最佳猜测,也看到该把它握得多紧。

于是你带着两条可靠的途径离开本篇——又快的矩估计,和更锋利的极大似然——以及同样关键的三把尺子(无偏、相合、有效)和那个告诉你该不该相信答案的标准误。从这里往后,套路再不会变:估计一个参数,给它系上不确定性,然后让一个诚实的模型把它带进定价或准备金评估。估计,正是统计学终于触碰到那个杂乱世界的地方——而你的概率论从来不必去碰它。