JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

随机变量及其分布

随机变量把杂乱不定的结果浓缩成一个可以做运算的数字,而它的分布则是对这个数字所有可能取值的完整、诚实的描述。

从结果到数字

上一篇我们搭好了舞台:一个包含所有可能结果的样本空间,并在其上铺开概率。但结果常常是笨拙的东西——比如"投保人报了一起火灾理赔,厨房烧毁但车库幸免"。要给风险定价,我们需要去*度量*结果,而不只是把它们罗列出来。随机变量正是做这件事的工具:它不过是一条把数字赋予每一个结果的规则。

设想某辆汽车的一年期保单。结果可能是"没出事""一次小刮蹭""一场严重事故"等等。我们把 X 定义为*这张保单提交的理赔次数*。于是"没出事"对应 X = 0,"一次小刮蹭"对应 X = 1,依此类推。我们并没有改变世界——只是选了一副会报出数字的透镜。大写字母 X 是这个变量;它实际落到的某个具体取值(比如 2)则用小写字母 x 表示。

两种风味:计数与量度

随机变量分成两大家族,而这条离散与连续之分贯穿了精算师所做的一切。离散随机变量取的值可以一个一个列出来——通常是整数。保单上的理赔*次数*就是离散的:0、1、2、3 次,绝不会是 2.4 次。连续随机变量则可以落在某个区间内的任何位置,像在一个没有缝隙的平滑刻度盘上。以美元计的理赔*金额*就是连续的:它可能是 1203.77 美元、1203.78 美元,或介于其间的任何数。

这种划分并非纯学术——它决定了你该动用哪套数学。离散变量靠求和处理;连续变量靠积分处理(求和的平滑表亲)。保险定价恰好就坐落在这条接缝上:损失*多久发生一次*通常用像泊松分布这样的离散模型来计数,而每次损失*有多大*则用像指数分布正态分布这样的连续模型来量度。这对"频率与严重度"的搭档,你日后会一再遇到。

概率藏在哪里:质量与密度

知道 X 是离散还是连续还不够;我们必须说清*每个取值上压着多少概率*。对离散的 X,这件事既简单又直白。概率质量函数记作 p(x),给出每个取值的真实概率——又因为*总得发生点什么*,所有质量加起来恰好等于 1。对我们的汽车保单,可能有 p(0) = 0.90、p(1) = 0.08、p(2) = 0.018、p(3) = 0.002。每一个都是你真能下注的实实在在的概率。

连续变量藏着一处优美的微妙。试问:"理赔金额*恰好*等于 1203.770000… 美元的概率是多少?"答案是零——可能的金额有无穷多个,所以任何单独一个都不带任何分量。概率住在*区间*里,而不在某个点上。因此对连续的 X,我们不用质量,而用概率密度函数 f(x) 来描述。密度本身不是概率;它是*每单位 x 上的*概率,就像概率铺得有多厚。要得到真正的概率,你得取曲线下、两个取值之间的面积。f(x) 下方的总面积等于 1。

累积分布函数:一个对谁都管用的函数

质量与密度用不同的方言描述离散与连续变量。而累积分布函数记作 F(x),对两者讲同一种语言。它回答一个不断累加的问题:"X 取值*不超过* x 的概率是多少?"——也就是 F(x) = P(X ≤ x)。当你让 x 从最左扫到最右,F 便从 0 一路爬升到 1,绝不回头,把途经的所有概率统统累积起来。

F 的形状悄悄透露了 X 的风味。对离散变量,F 是一段楼梯:先是平直,然后在每个取值处突然跳一下,而跳跃的高度*正是*该取值的质量。对我们的汽车保单,F 在刚好不到 1 次理赔时停在 0.90,到 x = 1 处一跃增加 0.08,升到 0.98。对连续变量,F 则是一道平滑的斜坡,没有跳跃,因为没有任何单点带分量。这正是精算师钟爱累积分布函数的原因:它能处理真实数据里那种别扭的混合——"零次理赔"处一根肥厚的概率尖峰,紧挨着正理赔金额那片平滑铺开的分布。

P(X = 0) = 0.90      F(0) = 0.90
P(X = 1) = 0.08      F(1) = 0.98
P(X = 2) = 0.018     F(2) = 0.998
P(X = 3) = 0.002     F(3) = 1.000
P(at least 1 claim) = 1 - F(0) = 0.10
一个微型理赔次数分布:各项质量加起来为 1,累积分布函数把它们逐步累加。至少发生一次理赔的概率,正好是 1 减去 F(0)。

一个分布就是故事的全部

把这些拼块合起来,你就抵达了核心思想:X 的分布是对这个不确定量的完整描述。给我质量函数,或密度,或累积分布函数——任意一个即可,因为彼此都能互相还原——我便知道了在自然做出选择*之前*关于 X 所能知道的一切。关于理赔次数,并没有什么进一步的隐藏事实等着被揭示;分布早已把所有可能性及其权重的完整菜单编码在内。

正因如此,下一篇才能把期望值——X 的长期平均取值——当作某种我们*从分布中算出来*的东西来讨论。一旦你握住了整个分布,平均理赔次数、离散程度、遇上糟糕年份的概率:全都随之而来。精算工作在很大程度上,归根结底就是为某项风险挑一个合理的分布,再从中挤出保费与准备金所依赖的那些数字。

但有一件事要诚实面对:分布是一个*模型*,而非真实世界本身。我们从来观测不到一张保单的真实分布;我们只是*选*一个——比如给计数选一个泊松分布——再从数据中估计它的参数,心里清楚拟合并不完美。模型是一张忠实的地图,却不是疆域本身。后面好几个阶梯专门讲如何把分布选好、如何拿它去对照现实,以及对那条遥远的尾部保持谦卑——罕见的巨灾正藏在那里,多少自信满满的模型也正是栽在那里。