贝叶斯定理与信念更新

取决于你已知信息的概率

在本阶你已经见过随机变量和概率分布。贝叶斯定理，就是把这套机器拿来回答一个非常贴近人的问题：*既然我已经看到了某些迹象，我该如何更新自己原本的判断？*这一步——把新证据转化为修正后的信念——正是大量统计学与机器学习的脉搏所在。

你需要的第一个观念是条件概率：在*已知*另一件事为真的前提下，某件事发生的可能性。我们写作 P(A | B)，读作“在 B 的条件下 A 的概率”。那道竖线意思是“在 B 已经发生的那个世界里”。比如，随机一个人带伞的概率是一个数；而*在外面正下雨的前提下*他带伞的概率，通常要高一些。所谓条件化，无非是把世界缩小到与你所观察到的情形相符的那些情况，再在这个更小的世界里问你的问题。

三个词：先验、似然、后验

贝叶斯式思考把任何更新问题拆成三个有名字的部件。先验是你在新证据到来*之前*所持的信念：你事先赋予某个假设的一个概率。似然衡量这个假设对你实际看到的证据解释得有多好：如果假设为真，这个观察出现的概率有多大？后验则是你把两者结合之后*修正*过的信念。这三者合在一起，先验、似然与后验，就是这套方法的全部词汇。

一个好用的心象：先验是你的起点，似然是证据施加的那股拉力，后验是你被拉扯之后的落点。强证据（似然非常一边倒）拉得很猛，能掀翻一个不算坚定的先验；弱证据或模棱两可的证据几乎拉不动你，于是后验仍贴近先验。任何事都不会绝对确定——你最终得到的总是一份信念的*分布*，而不是一锤定音的判决。

当这个循环一遍遍运转——随着更多数据到来，今天的后验成为明天的先验——你就拥有了贝叶斯推断的引擎。它其实是审慎之人本就会用的推理方式的一个规范化版本：先持一个暂定的看法，观察发生了什么，再按证据有多出人意料的程度去相应地调整。

公式，以及一个完整算例

下面就是贝叶斯定理本身，把名字标上去，它就再也不像一句魔咒了：

P(H | E) = P(E | H) * P(H) / P(E)

  P(H | E)  posterior  -> belief AFTER seeing evidence
  P(E | H)  likelihood -> how well H explains E
  P(H)      prior      -> belief BEFORE the evidence
  P(E)      evidence   -> total chance of seeing E at all

后验 = 似然乘以先验，再除以证据出现的总概率。分母只是个归一化因子，让各概率加起来等于 1。

我们用经典的“医学检测”谜题把它落到实处，因为答案几乎让所有人都吃惊。某种病的患病率是千分之一。检测能查出99%的真实病例（这是你患病时的似然），但它也有5%的假阳性率（对 5% 的健康人会误报）。现在你检测呈阳性。你真正患病的概率是多少？

先验：检测前，P(患病) = 0.001，于是 P(健康) = 0.999。
患病时阳性的似然 = 0.99；健康时阳性的似然 = 0.05。
证据（出现阳性的总概率）= 0.99×0.001 + 0.05×0.999 = 0.00099 + 0.04995 = 0.05094。
后验：P(患病 | 阳性) = 0.00099 / 0.05094 ≈ 0.019——还不到 2%。

请再读一遍：一项*99% 准确*的检测呈阳性，仍然意味着你大约有 98% 的可能没事。原因就在于先验。这病实在太罕见，在庞大的健康人群中产生的少量假阳性，远远盖过了真阳性。贝叶斯定理强迫你始终把基础发生率放在视野里——一旦忽略先验，你就会反应过度得离谱。（不过，一次阳性也并非毫无意义：你的信念从 0.1% 跳到了约 2%，足足升了二十倍，这正是医生为什么会再开一项独立的复检。）

最大似然：先验那位低调的表亲

贝叶斯要的是后验，但要诚实地求后验，就得对一个先验作出承诺——而有时你并不想这么做。最大似然走的是更精简的一条路。它不问“给定数据我该相信什么”，而是问“哪一组未知量的取值，会让我所看到的数据出现得最有可能？”你选出让似然最大的那个假设，到此为止。这就是最大似然估计，它无处不在。

一个小例子：你把一枚弯曲的硬币抛 10 次，得到 7 次正面。这枚硬币出正面的真实概率是多少？最大似然给出 0.7——在这个取值下，“10 中 7”出现得最有可能。这恰好就是你直觉早已给出的答案。关键在于，那份*直觉*其实是一套精确的数学程序，而这套程序可以推广到有几百万个未知量、直觉彻底失灵的模型上去。

下面这座桥把贝叶斯接回来，也把本阶串了起来。最大似然其实就是关掉了先验的贝叶斯——假定一切假设事先同样可信，于是后验完全由似然来驱动。当你确实毫无先验知识时，这样做是诚实的；当你其实有先验知识时，这样做就有风险：在数据极少的情况下，忽略一个合理的先验，会让一次小小的偶然（比如那枚弯币恰好碰运气出了 7 次正面）被太当真。

它在机器学习里出现在哪儿

这并不是跑题——它正是模型如何学习的脊梁。当你训练几乎任何一个分类器或回归器时，你所最小化的那个损失函数，往往不过是负对数似然的伪装。“找出让训练数据最有可能的参数”与“找出让损失最小的参数”，常常是*同一句话*的两种写法。所以你刚刚认识的最大似然思想，悄悄驱动着训练中极大的一部分。

贝叶斯定理也直接登台主演。那个名字欢快的小分类器——朴素贝叶斯——把公式径直套在文本上，用于垃圾邮件过滤却出奇地好用：它只是把各个词的似然相乘，再让“垃圾 vs 非垃圾”的先验来左右天平。而垃圾邮件过滤器、医学检测、欺诈侦测器，全都共享同一个陷阱：当你要找的东西很罕见时，即便是准确的探测器，只要不尊重基础发生率，也会被假警报淹没。

还有一条要带着往后走的诚实告诫。后验只与它的输入一样可靠：有偏的先验，或设错的似然，会给出一个自信满满却错误的答案，外面还裹着数字的权威。贝叶斯并不会凭空制造确定性——它只是为你喂进去的那份确定性记账。如今对不确定性量化的关注之所以存在，正是因为真实系统不仅要说出*预测了什么*，还要说出*有多确定*；而一个没有拿现实检验过的概率，可能危险地过度自信。