五个西格玛：到什么时候才算发现？

一个鼓包还不是一项发现

到现在你已经知道，一个隐藏的粒子是怎样自己现身的了。你把数百万个事件重建出来的不变质量画成图，一个沉重的母粒子就会泄露自己——化作一座小小的山丘，从平滑下倾的本底斜坡上隆起：在某个质量处，多出来的事件堆积成一个鼓包。麻烦在于，本底从来不会完美地平滑。它在抖动。哪怕数据里什么新东西都没有，随机的计数涨落也会自己造出一座座小山小谷；隔着房间望去，一簇侥幸聚拢的本底事件，可以看起来和一个真峰的起手式一模一样。

所以，当一个实验看到一处超出时，在它敢于说出「发现」这个词之前，它先要面对一个尖锐而诚实的问题：这是一个新粒子——还是仅仅本底走了一次罕见的好运？这一篇里的整套机器，存在的意义就是用一个数字、而不是一种直觉，来回答这唯一的问题。关键的念头是这样问：如果这里真的没有任何新东西，那么单凭偶然，多*久*才会奉上一个至少这么大的鼓包？如果答案是「随时都会」，那就耸耸肩。如果答案是「几乎从不」，那你也许正看着某个真实的东西。

一次抖动有多令人意外？西格玛与 p 值

要把这个问题变成一个数字，你首先需要一把衡量「寻常抖动」的尺子。计数遵循一条简单的经验法则：如果你在某个质量窗口里预期大约 N 个本底事件，那么围绕这个期望值的随机散布，大致就是 N 的平方根。所以如果你预期 100 个本底事件，看到 90 个或 110 个并不该让你吃惊——这是大约十的摆动，也就是 100 的平方根。这个平方根，就是你衡量「意外」的天然单位，用希腊字母 西格玛（σ）来记。一个西格玛的超出，平淡无奇得很；本底无时无刻不在这么干。一处超出爬得越高、越超过它本应有的散布，就越难被当作运气挥手抹去。

西格玛其实是一个乔装打扮的概率。藏在它背后的，是 p 值：在完全没有新物理的情况下，单凭本底伪造出一处至少和你所见一样大的超出的几率。p 值越小，意外越大。在这两者之间来回翻译，是这个领域的日常语言：一个一西格玛的涨落，大约每六次出现一次；两西格玛，大约每四十四次一次；三西格玛，大约每七百次一次。每多一个西格玛，都不是一小步，而是一道陡崖——随着西格玛攀升，造假的几率飞速跳水。正是这种陡峭，让物理学家把门槛设在了他们设的那个地方。

expected background N      ->  natural scatter  ~  sqrt(N)
significance (sigma)       =   (observed - expected) / sqrt(N)

1 sigma  ~ 1 in 6        3 sigma ~ 1 in 740      5 sigma ~ 1 in 3,500,000
2 sigma  ~ 1 in 44       4 sigma ~ 1 in 31,600

一个粗略的显著性，就是这处超出比预期散布高出多少，并以那个散布为单位来度量。西格玛上的每一步都是悬崖，而非台阶：每多一个西格玛，偶然造假的几率就以巨大的倍数下跌。（真正的分析用的统计方法，比这个信封背面的比值要完整得多，但精神恰恰就是这样。）

为什么是五，而不是三？

下面，就是统治这个领域的那条约定。要声称某件事有证据，粒子物理学家想要大约三个西格玛——大致七百四十分之一的侥幸几率。但要声称一项彻头彻尾的发现，门槛是[[statistical-significance-five-sigma|五个西格玛]]：一处超出大到，纯本底要伪造出它，大约要三百五十万次才碰上一回。这是一个刻意为之的、近乎荒谬的严苛要求。为什么这么狠？三个西格玛听起来很罕见，可在这个领域里，三西格玛的鼓包出现、又蒸发，频繁得令人尴尬——一座座许下诺言的山丘，等到更多数据一来便消融不见。这门学科的历史上，散落着无数三西格玛的幽灵。

把门槛设这么高，有三个诚实的理由。第一，物理学家进行的搜寻数量极其庞大，遍布无数的质量窗口和衰变道，所以即便是罕见的侥幸，也注定会在某处冒出来——这一点太重要了，下面会单辟一节来讲。第二，赌注极大：一项被宣称的发现会重写教科书、会引导一个数以千计人的领域，所以一次假警报的代价是惨重的。第三——也是最微妙的——简单的西格玛计算只数了随机散布，而它悄悄地假定了本底已被完美地建模。本底从来都不是这样。五个西格玛那份额外的缓冲，部分正是对那套模型中种种瑕疵的保险，也就是我们很快要遇到的系统不确定度。

别处也在看效应：一千张彩票

现在，来看那个专门坑住粗心人的陷阱。假设你把一整段质量谱从头扫到尾，要在它上面任何地方找出一个鼓包。在每一个位置，出现一次大的随机抖动的几率都很小——可你并不是在盯着一个位置看，你盯着的是好几百个。这就是彩票：一张票几乎永远不会中，但买上一千张，*某一张*中奖的几率就陡然攀升。一个出现在你事先预言的某个特定质量处的三西格玛鼓包，是真正令人意外的；而同样这个鼓包，若出现在一段你随意横扫的宽广谱线的*某处*，就远没那么意外了，因为你给了偶然一千个位置去冒出一个来。这种「表观显著性被吹大」，就是[[look-elsewhere-effect|别处也在看效应]]。

物理学家用两个诚实的记账术语来对付它。局域显著性，是这个鼓包在它实际出现的那个确切位置上有多令人意外，仿佛你事先就瞄准了那里。全局显著性，则是当你公平地把「你本可在多少个地方找到鼓包」全都计入之后，它还有多令人意外。全局这个数，永远是更小、更冷静的那个——而要构成一项发现，必须达到五个西格玛的，正是这个全局数。多少诱人的局域四西格玛超出，在「别处也在看」修正把它往下一拽、拽向平淡之后，便悄然褪色了。

两种不确定度：抖动与偏差

每一个显著性的背后，都站着一次测量，而每一次测量，都背着两种性质迥异的误差棒。第一种是统计不确定度——你已经见过的那种随机散布，有限计数的「N 的平方根」抖动。它有一个慷慨的特征：它会随着你收集更多数据而缩小。让对撞机多跑一阵，收集四倍的碰撞，这份不确定度大致就减半。统计误差，是你那部分凭耐心和更多亮度就能治好的无知。

第二种，才是危险的那种。系统不确定度不是随机散布，而是一种偏差——你的整个实验可能朝同一个方向一致地偏掉的一种方式。也许你量能器的能量标度被校准得偏高了半个百分点，于是每一个能量读数都略微偏大。也许你对本底的模拟有某种微妙的不完美，于是你误判了该预期多少个寻常事件。关键在于，这种误差*不会*随数据增多而缩小：用一台校准失准的秤量上十亿次，你得到的不过是十亿个全都偏了同样数额的读数，而且偏得精度极高。想想一台读数偏重两公斤的浴室秤——上去站一千次，能把抖动平均掉，却永远平均不掉那两公斤的谎。

五个西格玛的实战：一项发现的纪律

把这一切合起来，你就能明白，为什么一项真正的发现是一桩缓慢的、守纪律的行动，而不是灵光一闪。2012 年的希格斯发现是教科书式的案例：两个互相独立的实验各自扫寻一个鼓包，各自眼看着一处不大的超出在数月间随数据累积而长大，各自做了「别处也在看」的修正，各自把自己的系统不确定度按倒在地——直到两者都独立地越过五个西格玛、*而且在同一个质量处*，这个领域才允许自己说出那个词。两支独立的队伍抵达同一个答案，本身就是一道强有力的校验，远比其中任何一支单独得出的要可靠。

支撑这一切的，是一种安静的纪律，你在下一篇里还会再遇到它：[[blind-analysis-combination|盲分析]]。因为人总是看见自己希望看见的，实验便在任何人被允许去看鼓包区域*之前*，先把每一条筛选规则、每一道切割都钉死——这样，分析就无法在不知不觉中被调教得去讨好一个充满希望的抖动。只有当方法被冻结之后，他们才解盲，读出答案。这个习惯，连同五个西格玛和「别处也在看」修正，就是让这个领域保持诚实的免疫系统。

最后一句诚实的话，好让整条判据保持在恰当的分寸里。五个西格玛证明的是，你在本底之外找到了*某个*真实的东西——一处货真价实、并非侥幸的超出。它并不证明那东西*是什么*。2012 年宣布的那项发现，严格说来，是一个质量大致对得上的新玻色子；要把它称作*那个*希格斯，还花了好几年去测量它如何衰变、又如何强烈地与质量耦合，把它的每一项性质都拿去和预言对照。而且五个西格玛也不是不朽的保票：一个结果仍可能因为分析中被查出的某个瑕疵而被推翻，这恰恰正是独立确认为何如此要紧。这条判据不是魔杖。它是一份冷静的、来之不易的纪律，用来把罕见的真，从寻常的假里分辨出来——也是这一阶梯所教的「把碰撞变成知识」一切内容的一块恰如其分的压顶石。接下来，我们就去看这份纪律，如何在那些伟大的发现本身之中一一上演。