概率基础：事件、条件概率与贝叶斯

从汇聚风险到度量机遇

在「风险基础」那一阶，你已经看到保险公司为何能把许多微小、不可预测的损失汇聚成一个庞大而可预测的整体——这正是保险的核心，也是可保风险必须在投保人之间大致相互独立的原因。但「可预测」是一个必须用数字兑现的承诺。要给保单定价、厘定保费或提取准备金，精算师必须说清一次损失有多「可能」、又通常有多「大」。「可能」这个词，正是概率要把它说精确的对象。

概率是不确定性的语法。我们不会把它当作一堵公式之墙去死记；相反，我们先建立直觉，再让每一条公式作为这套语法中的一句话自然登场。读完本章，你将真正掌握贯穿整个精算课程的三件工具：任何合理的概率都必须遵守的法则、根据已知信息进行「条件化」的技艺，以及贝叶斯定理——当世界递给你一条新线索时，用来改变想法的机器。

样本空间与事件：所有可能性的地图

在度量机遇之前，我们必须先列出机遇是在哪些可能性之间作选择。某个试验中可能发生的所有结果的完整清单，就是[[sample-space|样本空间]]。掷一颗骰子，它就是六个面 {1,2,3,4,5,6}；问一位投保人今年是否会出险，它就只是 {出险，不出险}。样本空间是那片疆域，其余的一切都画在它之上。

事件不过是我们所关心的任意一组结果——地图上的一块区域。「骰子掷出偶数」就是事件 {2,4,6}。由于事件就是集合，我们用集合运算来组合它们：*并集* A∪B（「A 或 B 发生」）、*交集* A∩B（「两者同时发生」）以及*补集*（「A 不发生」）。精算师就活在这套语言里：「同一年里既有火灾索赔*又*有盗窃索赔」是交集；「出现任何索赔」则是所有损失类型的并集。

每个概率都必须遵守的三条法则

概率给每个事件赋予一个数字，用来度量我们对它的期待有多强。为了不让我们随意赋予荒谬的数值，数学家钉下了一组最小的常识性规则——[[probability-axioms|概率公理]]——其余的一切都由此推出。其一，任何概率都不为负。其二，整个样本空间的概率为 1：清单里*总有某件事*会发生。其三，对于不可能重叠的事件，概率就直接相加：当 A 与 B 互斥时，P(A 或 B) = P(A) + P(B)。

这三行话出人意料地强大。仅凭它们就能推出补集法则——P(非 A) = 1 − P(A)，这是精算师最爱的捷径：若「不出险」的概率是 0.92，那么「至少出一次险」的概率就是 0.08，无需任何额外计算。而当事件*确实可能*重叠时，加法法则会自我修正，以免把重叠部分重复计算：P(A∪B) = P(A) + P(B) − P(A∩B)。

条件化与独立性：新信息的作用

真实的核保从不在真空中进行——你对眼前的风险总是知道*一些*情况。[[conditional-probability|条件概率]]记作 P(A | B)，读作「在 B 发生的条件下 A 的概率」，正好刻画了这一点：一旦得知 B 为真，A 变得有多可能。其原理很直观——我们把样本空间收缩到只剩 B 发生的那些情形，再问*这些*情形中有多大比例同时也包含 A：P(A | B) = P(A∩B) / P(B)。

设想 1000 名驾驶人，其中 100 名未满 25 岁。假设今年有 60 人发生事故，其中 30 人正是这些年轻人。无条件的事故率是 60/1000 = 6%。但*在已知*驾驶人未满 25 岁的条件下，事故率跃升至 30/100 = 30%。年龄告诉了我们一些信息——这正是条件化在起作用，也正是保险公司按风险类别定价、而非对所有人收取同一价格的原因。

当得知一个事件对另一个事件毫无信息时，这两个事件就是[[statistical-independence|独立]]的——形式上写作 P(A | B) = P(A)，等价于 P(A∩B) = P(A)·P(B)。独立性是默默支撑整座保险大厦的隐含假设：风险汇聚之所以能驯服风险，正因为投保人的损失*大致*相互独立。一旦这一点失效——飓风、大流行病、市场崩盘同时击中成千上万张保单——损失便结伴而来，那种令人安心的平均效应随之瓦解，整个风险池可能被压垮。诚实的建模意味着每一次都要追问：独立性是否真的成立。

贝叶斯定理：诚实地改变想法

条件化通常沿着数据流动的方向运行：高风险驾驶人更可能出事故。但保险公司往往需要*反向*运行它——在看到一次事故（或一次索赔，或一次阳性体检结果）之后，我们该如何修正对其背后隐藏成因的判断？把那个箭头反转过来，正是[[act-bayes-theorem|贝叶斯定理]]所做的事。与其把它当作令人生畏的公式，不如把它看作一套有纪律的更新配方：从你在证据出现*之前*的判断出发（先验），按每个假设对证据的解释力给它加权（似然），再重新归一化。

来看保险味道的版本。假设新车险投保人中有 10% 确实属于高风险。高风险驾驶人第一年出险的概率为 50%；标准驾驶人则只有 10%。如今一位新投保人出险了。他一开始就属于高风险的概率有多大？在每 1000 名投保人中，100 名是高风险、900 名是标准风险。高风险的出险者：100 × 0.5 = 50。标准风险的出险者：900 × 0.1 = 90。于是共出现 50 + 90 = 140 次索赔，其中 50 次来自高风险驾驶人。

P(high-risk | claim) = (0.10 x 0.50) / (0.10 x 0.50 + 0.90 x 0.10)
                     = 0.050 / (0.050 + 0.090)
                     = 0.050 / 0.140
                     = 0.357  (about 36%)

「高风险」的先验信念在观察到一次索赔后，从 10% 升至约 36%——但远未达到确定。

请留意那 36% 背后藏着的诚实教训。一次索赔确实是真实的证据——我们的信念翻了三倍多，从 10% 升到 36%——然而大多数出险者仍是只是遇上倒霉一年的标准风险驾驶人。把每一位出险者都断定为高风险加以惩罚，既不公平，在统计上也是错的。这种按证据比例*逐步*更新的贝叶斯习惯，正是可信度理论的种子——保险公司在那里会把投保人自身的经验与更广的风险池融合起来，这是你在阶梯上很久之后才会遇到的工具；而把同一笔损失看作随机变量的视角，则是后续几篇指南所要展开的基础。

让这套工具上场

本指南中的一切，都是精算师无休止重复的同一个推理循环。它的运行方式如下，而「概率」这一整阶所做的，无非是为其中每一步配上更锋利的工具。

命名样本空间——哪怕只是粗略地，列出该风险可能产生的每一种结果。
界定要紧的事件——一次索赔、一笔超过免赔额的损失、一年内的死亡——把它们定义为上述结果的集合。
赋予遵守公理的概率，再针对你对该风险真正了解的一切进行条件化。
当新证据出现时，用贝叶斯按比例更新你的信念——切勿对单一数据点反应过度。

请始终怀着一份谦逊：我们写下的每一个概率，本身都是从数据与判断中得来的估计，而非自然法则。一个赋予清晰数字的模型，给人的确定感往往超过它应得的程度。高明的精算师既精确地运用这些工具，*又*牢记它们终究只是工具——是地图，而永远不完全是疆域本身。请把这份双重的自律，一并带入接下来的概率分布与期望值之中。