JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

贝叶斯定理与信念更新

以例子开路、温和讲解证据应当如何改变你的判断——条件概率,先验、似然与后验,那个著名的公式,以及悄悄训练了半个机器学习领域的最大似然思想。

取决于你已知信息的概率

在本阶你已经见过随机变量概率分布。贝叶斯定理,就是把这套机器拿来回答一个非常贴近人的问题:*既然我已经看到了某些迹象,我该如何更新自己原本的判断?*这一步——把新证据转化为修正后的信念——正是大量统计学与机器学习的脉搏所在。

你需要的第一个观念是条件概率:在*已知*另一件事为真的前提下,某件事发生的可能性。我们写作 P(A | B),读作“在 B 的条件下 A 的概率”。那道竖线意思是“在 B 已经发生的那个世界里”。比如,随机一个人带伞的概率是一个数;而*在外面正下雨的前提下*他带伞的概率,通常要高一些。所谓条件化,无非是把世界缩小到与你所观察到的情形相符的那些情况,再在这个更小的世界里问你的问题。

三个词:先验、似然、后验

贝叶斯式思考把任何更新问题拆成三个有名字的部件。先验是你在新证据到来*之前*所持的信念:你事先赋予某个假设的一个概率。似然衡量这个假设对你实际看到的证据解释得有多好:如果假设为真,这个观察出现的概率有多大?后验则是你把两者结合之后*修正*过的信念。这三者合在一起,先验、似然与后验,就是这套方法的全部词汇。

一个好用的心象:先验是你的起点,似然是证据施加的那股拉力,后验是你被拉扯之后的落点。强证据(似然非常一边倒)拉得很猛,能掀翻一个不算坚定的先验;弱证据或模棱两可的证据几乎拉不动你,于是后验仍贴近先验。任何事都不会绝对确定——你最终得到的总是一份信念的*分布*,而不是一锤定音的判决。

当这个循环一遍遍运转——随着更多数据到来,今天的后验成为明天的先验——你就拥有了贝叶斯推断的引擎。它其实是审慎之人本就会用的推理方式的一个规范化版本:先持一个暂定的看法,观察发生了什么,再按证据有多出人意料的程度去相应地调整。

公式,以及一个完整算例

下面就是贝叶斯定理本身,把名字标上去,它就再也不像一句魔咒了:

P(H | E) = P(E | H) * P(H) / P(E)

  P(H | E)  posterior  -> belief AFTER seeing evidence
  P(E | H)  likelihood -> how well H explains E
  P(H)      prior      -> belief BEFORE the evidence
  P(E)      evidence   -> total chance of seeing E at all
后验 = 似然乘以先验,再除以证据出现的总概率。分母只是个归一化因子,让各概率加起来等于 1。

我们用经典的“医学检测”谜题把它落到实处,因为答案几乎让所有人都吃惊。某种病的患病率是千分之一。检测能查出99%的真实病例(这是你患病时的似然),但它也有5%的假阳性率(对 5% 的健康人会误报)。现在你检测呈阳性。你真正患病的概率是多少?

  1. 先验:检测前,P(患病) = 0.001,于是 P(健康) = 0.999。
  2. 患病时阳性的似然 = 0.99;健康时阳性的似然 = 0.05。
  3. 证据(出现阳性的总概率)= 0.99×0.001 + 0.05×0.999 = 0.00099 + 0.04995 = 0.05094。
  4. 后验:P(患病 | 阳性) = 0.00099 / 0.05094 ≈ 0.019——还不到 2%。

请再读一遍:一项*99% 准确*的检测呈阳性,仍然意味着你大约有 98% 的可能没事。原因就在于先验。这病实在太罕见,在庞大的健康人群中产生的少量假阳性,远远盖过了真阳性。贝叶斯定理强迫你始终把基础发生率放在视野里——一旦忽略先验,你就会反应过度得离谱。(不过,一次阳性也并非毫无意义:你的信念从 0.1% 跳到了约 2%,足足升了二十倍,这正是医生为什么会再开一项独立的复检。)

最大似然:先验那位低调的表亲

贝叶斯要的是后验,但要诚实地求后验,就得对一个先验作出承诺——而有时你并不想这么做。最大似然走的是更精简的一条路。它不问“给定数据我该相信什么”,而是问“哪一组未知量的取值,会让我所看到的数据出现得最有可能?”你选出让似然最大的那个假设,到此为止。这就是最大似然估计,它无处不在。

一个小例子:你把一枚弯曲的硬币抛 10 次,得到 7 次正面。这枚硬币出正面的真实概率是多少?最大似然给出 0.7——在这个取值下,“10 中 7”出现得最有可能。这恰好就是你直觉早已给出的答案。关键在于,那份*直觉*其实是一套精确的数学程序,而这套程序可以推广到有几百万个未知量、直觉彻底失灵的模型上去。

下面这座桥把贝叶斯接回来,也把本阶串了起来。最大似然其实就是关掉了先验的贝叶斯——假定一切假设事先同样可信,于是后验完全由似然来驱动。当你确实毫无先验知识时,这样做是诚实的;当你其实有先验知识时,这样做就有风险:在数据极少的情况下,忽略一个合理的先验,会让一次小小的偶然(比如那枚弯币恰好碰运气出了 7 次正面)被太当真。

它在机器学习里出现在哪儿

这并不是跑题——它正是模型如何学习的脊梁。当你训练几乎任何一个分类器或回归器时,你所最小化的那个损失函数,往往不过是负对数似然的伪装。“找出让训练数据最有可能的参数”与“找出让损失最小的参数”,常常是*同一句话*的两种写法。所以你刚刚认识的最大似然思想,悄悄驱动着训练中极大的一部分。

贝叶斯定理也直接登台主演。那个名字欢快的小分类器——朴素贝叶斯——把公式径直套在文本上,用于垃圾邮件过滤却出奇地好用:它只是把各个词的似然相乘,再让“垃圾 vs 非垃圾”的先验来左右天平。而垃圾邮件过滤器、医学检测、欺诈侦测器,全都共享同一个陷阱:当你要找的东西很罕见时,即便是准确的探测器,只要不尊重基础发生率,也会被假警报淹没。

还有一条要带着往后走的诚实告诫。后验只与它的输入一样可靠:有偏的先验,或设错的似然,会给出一个自信满满却错误的答案,外面还裹着数字的权威。贝叶斯并不会凭空制造确定性——它只是为你喂进去的那份确定性记账。如今对不确定性量化的关注之所以存在,正是因为真实系统不仅要说出*预测了什么*,还要说出*有多确定*;而一个没有拿现实检验过的概率,可能危险地过度自信。