期望、方差与矩

从整个分布到一个数字

在上一篇里，随机变量给了我们一整个分布——也就是所有可能发生的事，以及每种结果各自的可能性的完整清单。这张图是诚实的，却很笨重。定价委员会没法对着一张上百根柱子的直方图做决策，他们想要的是一个数字。本篇的功夫，就在于把分布压缩成几个诚实的概括量，又不偷偷丢掉那些真正重要的真相。

第一个、也是最有名的概括量，是期望值，写作 E[X]。先把公式放一边，记住这幅画面：如果你能把这个随机试验无限次重复下去，期望值就是结果的长期平均。它是分布的平衡点——把直方图放在指尖上能保持水平的那个位置。对精算师而言，这不是什么趣味知识，而是每一笔保费的种子。

期望：长期平均

计算期望其实比听起来温和得多：拿出每个可能取到的值，按它发生的可能性加权，再把这些零件加起来。可能性高的结果会把平均值往自己这边拉，罕见的结果几乎拉不动。掷一颗均匀的骰子，1 到 6 每一面的概率都是六分之一，于是期望值是 (1+2+3+4+5+6)/6 = 3.5。注意这个妙处：3.5 是骰子永远掷不出来的数。期望是长期平均，而不是对任何一次掷出结果的预测。

现在把骰子掰成保险的形状。设想一份一年期保单：一年内有 5% 的概率出险，理赔金额恰好都是 2,000，否则损失为零。那么期望损失就是 0.05 × 2,000 + 0.95 × 0 = 100。这个 100 就是纯保费——也就是在加上任何费用和利润之前，这份风险的期望成本。精算师定价的几乎一切，都从某个精心挑选的随机变量的期望值出发。

方差：精算师真正害怕的离散程度

期望值告诉你分布坐落在哪里，却对它摆动得有多剧烈只字未提。两个风险可以共享 100 的期望损失，感觉却天差地别：一批每年都稳稳落在 100 附近的小额牙科理赔，和一份大多数年份分文不付、却偶尔会爆成数百万的卫星保单。平均值一模一样，危险却截然不同。把这份危险刻画出来，正是方差的工作。

方差这样度量离散程度：平均而言，一个结果落得离期望值有多远？我们看每个结果与均值之间的差距，把它平方（这样不足和超出都算作距离、不会相互抵消，而且大差距被惩罚得比小差距更狠），再把这些平方差距取平均。因为平方过了，单位也被平方了——“理赔的平方”对人类毫无意义——所以我们再开平方，称它为标准差。这就把我们带回到诚实的金额上：偏离平均值的一个典型距离。

回到那份“5% 概率赔 2,000”的保单。它的期望损失是 100，但标准差算出来接近 436——是平均值的四倍多。这一个数字喊出了 100 这个价签所掩盖的真相：在任何一年里，你几乎一定要么赔 0、要么赔 2,000，几乎绝不会赔出接近 100 的金额。保险之所以难、精算师之所以要持有资本，根本原因就在于：真实的风险围绕一个不大的均值有着很大的离散度。

高阶矩：偏度与尾部

期望和方差只是一整个家族里的头两位。生成它们的那套套路——取“偏离均值”的某个幂次再求平均——可以一直延续下去。这些就是分布的矩。第一阶矩定位它（均值），第二阶矩描述它的离散度（方差），而第三阶和第四阶矩则开始描述它的形状。

第三阶矩经过标度，给出偏度——也就是分布往哪边倾斜。保险损失几乎总是右偏的：在一堆普通理赔形成的隆起右侧，拖着一条又细又长的尾巴，那是罕见而巨额的理赔。第四阶矩给出峰度，衡量那条尾巴有多重——也就是有多少概率藏在离中心很远的地方。对精算师来说，这些绝非纸上谈兵。偏度和肥尾意味着：真正的危险恰恰潜伏在均值、甚至方差都看起来安然平静的那些地方。

这正是我们要往后带的诚实告诫。一个概括数字，是对现实的一种有损压缩。只报均值，你就藏起了离散度；报上均值和方差，你可能仍藏着一条狰狞的尾巴。一个著名的巨灾组合，可以在十九个平静的年份里给出讨喜的均值和温顺的方差，却在第二十年让承保它的保险公司破产。矩是工具，不是真相——而且你爬得越高，它们越是低声耳语、而非大声呼喊。

矩生成函数：一个函数，包揽所有矩

既然矩这么重要，要是能有一个对象一次性把它们全部携带起来，那就太方便了。这个对象就是矩生成函数（MGF），写作 M(t) = E[e^(tX)]。别被那个指数吓到。最好把 MGF 想成一枚指纹：它是关于一个辅助变量 t 的单个函数，能唯一地标识出整个分布，而且每一阶矩都能用一套机械化的步骤从中提取出来。

MGF的两项本领，让它真正有用、而不只是个把戏。第一，因为它是指纹，如果两个随机变量拥有相同的 MGF，它们就是同一个分布——这是证明“某样东西到底是什么”的一条干净路径。第二，也是精算师钟爱它的原因：若干个相互独立的风险之和，其 MGF 恰好就是各自 MGF 的乘积。把一千张独立保单加起来——用直方图来做简直是噩梦——在这里变成了一次乘法。这正是你接下来会遇到的好几个命名分布背后的引擎，也是本阶末尾中心极限定理背后的引擎。

Policy X:  P(loss=0)=0.95,  P(loss=2000)=0.05
E[X]      = 0.05*2000              = 100        (pure premium)
Var[X]    = 0.05*(2000-100)^2 + 0.95*(0-100)^2 = 190000
SD[X]     = sqrt(190000)           ~ 436        (>4x the mean!)
MGF: M(t) = 0.95 + 0.05*e^(2000t)

用数字写出那个小小的理赔例子：100 这个并不大的均值，藏着一个比它大四倍多的标准差——而正是这份离散度，使这份风险值得去承保。

把它用起来

这三个概括量并非按重要性排出的等级——它们回答的是不同的问题，而一个好的精算师会把它们同时摆在桌面上。下面是在实务中它们大致会落入的思考顺序。

先求期望值——纯保费，也就是长期平均成本。它回答的是：这份风险平均要花多少钱？
再求方差与标准差——离散程度。它回答的是：单独一年、或者整个组合，可能糟到偏离那个平均值多远？这决定了必须用多少资本来支撑这份承诺。
最后检查形状——偏度与尾部。它回答的是：真正的危险，是不是藏在平均值看不到的远处？如果是，那么单凭均值和方差就会带来危险的安心感。

握住了期望、方差和矩，你终于能用几个可信赖的数字来刻画任何不确定的量——而且同样重要的是，你知道这些数字漏掉了什么。接下来，你会遇到那一小撮命名分布，它们的矩和 MGF 都已经替你算好了，那是精算师用来对“理赔多久来一次”和“理赔会长到多大”建模时，随手就能取用的现成形状。