随机变量及其分布

从结果到数字

上一篇我们搭好了舞台：一个包含所有可能结果的样本空间，并在其上铺开概率。但结果常常是笨拙的东西——比如"投保人报了一起火灾理赔，厨房烧毁但车库幸免"。要给风险定价，我们需要去*度量*结果，而不只是把它们罗列出来。随机变量正是做这件事的工具：它不过是一条把数字赋予每一个结果的规则。

设想某辆汽车的一年期保单。结果可能是"没出事""一次小刮蹭""一场严重事故"等等。我们把 X 定义为*这张保单提交的理赔次数*。于是"没出事"对应 X = 0，"一次小刮蹭"对应 X = 1，依此类推。我们并没有改变世界——只是选了一副会报出数字的透镜。大写字母 X 是这个变量；它实际落到的某个具体取值（比如 2）则用小写字母 x 表示。

两种风味：计数与量度

随机变量分成两大家族，而这条离散与连续之分贯穿了精算师所做的一切。离散随机变量取的值可以一个一个列出来——通常是整数。保单上的理赔*次数*就是离散的：0、1、2、3 次，绝不会是 2.4 次。连续随机变量则可以落在某个区间内的任何位置，像在一个没有缝隙的平滑刻度盘上。以美元计的理赔*金额*就是连续的：它可能是 1203.77 美元、1203.78 美元，或介于其间的任何数。

这种划分并非纯学术——它决定了你该动用哪套数学。离散变量靠求和处理；连续变量靠积分处理（求和的平滑表亲）。保险定价恰好就坐落在这条接缝上：损失*多久发生一次*通常用像泊松分布这样的离散模型来计数，而每次损失*有多大*则用像指数分布或正态分布这样的连续模型来量度。这对"频率与严重度"的搭档，你日后会一再遇到。

概率藏在哪里：质量与密度

知道 X 是离散还是连续还不够；我们必须说清*每个取值上压着多少概率*。对离散的 X，这件事既简单又直白。概率质量函数记作 p(x)，给出每个取值的真实概率——又因为*总得发生点什么*，所有质量加起来恰好等于 1。对我们的汽车保单，可能有 p(0) = 0.90、p(1) = 0.08、p(2) = 0.018、p(3) = 0.002。每一个都是你真能下注的实实在在的概率。

连续变量藏着一处优美的微妙。试问："理赔金额*恰好*等于 1203.770000… 美元的概率是多少？"答案是零——可能的金额有无穷多个，所以任何单独一个都不带任何分量。概率住在*区间*里，而不在某个点上。因此对连续的 X，我们不用质量，而用概率密度函数 f(x) 来描述。密度本身不是概率；它是*每单位 x 上的*概率，就像概率铺得有多厚。要得到真正的概率，你得取曲线下、两个取值之间的面积。f(x) 下方的总面积等于 1。

累积分布函数：一个对谁都管用的函数

质量与密度用不同的方言描述离散与连续变量。而累积分布函数记作 F(x)，对两者讲同一种语言。它回答一个不断累加的问题："X 取值*不超过* x 的概率是多少？"——也就是 F(x) = P(X ≤ x)。当你让 x 从最左扫到最右，F 便从 0 一路爬升到 1，绝不回头，把途经的所有概率统统累积起来。

F 的形状悄悄透露了 X 的风味。对离散变量，F 是一段楼梯：先是平直，然后在每个取值处突然跳一下，而跳跃的高度*正是*该取值的质量。对我们的汽车保单，F 在刚好不到 1 次理赔时停在 0.90，到 x = 1 处一跃增加 0.08，升到 0.98。对连续变量，F 则是一道平滑的斜坡，没有跳跃，因为没有任何单点带分量。这正是精算师钟爱累积分布函数的原因：它能处理真实数据里那种别扭的混合——"零次理赔"处一根肥厚的概率尖峰，紧挨着正理赔金额那片平滑铺开的分布。

P(X = 0) = 0.90      F(0) = 0.90
P(X = 1) = 0.08      F(1) = 0.98
P(X = 2) = 0.018     F(2) = 0.998
P(X = 3) = 0.002     F(3) = 1.000
P(at least 1 claim) = 1 - F(0) = 0.10

一个微型理赔次数分布：各项质量加起来为 1，累积分布函数把它们逐步累加。至少发生一次理赔的概率，正好是 1 减去 F(0)。

一个分布就是故事的全部

把这些拼块合起来，你就抵达了核心思想：X 的分布是对这个不确定量的完整描述。给我质量函数，或密度，或累积分布函数——任意一个即可，因为彼此都能互相还原——我便知道了在自然做出选择*之前*关于 X 所能知道的一切。关于理赔次数，并没有什么进一步的隐藏事实等着被揭示；分布早已把所有可能性及其权重的完整菜单编码在内。

正因如此，下一篇才能把期望值——X 的长期平均取值——当作某种我们*从分布中算出来*的东西来讨论。一旦你握住了整个分布，平均理赔次数、离散程度、遇上糟糕年份的概率：全都随之而来。精算工作在很大程度上，归根结底就是为某项风险挑一个合理的分布，再从中挤出保费与准备金所依赖的那些数字。

但有一件事要诚实面对：分布是一个*模型*，而非真实世界本身。我们从来观测不到一张保单的真实分布；我们只是*选*一个——比如给计数选一个泊松分布——再从数据中估计它的参数，心里清楚拟合并不完美。模型是一张忠实的地图，却不是疆域本身。后面好几个阶梯专门讲如何把分布选好、如何拿它去对照现实，以及对那条遥远的尾部保持谦卑——罕见的巨灾正藏在那里，多少自信满满的模型也正是栽在那里。