JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

五个西格玛:到什么时候才算发现?

数据里冒出一个鼓包,还不算一项发现。这一篇里,我们要认识物理学家用来把真信号和侥幸的抖动区分开的那把尺子——五个西格玛的判据——以及那个会把偶然涨落吹大的「别处也在看」陷阱,还有那条诚实的分界线:哪种噪声会随数据增多而缩小,哪种偏差不会。

一个鼓包还不是一项发现

到现在你已经知道,一个隐藏的粒子是怎样自己现身的了。你把数百万个事件重建出来的不变质量画成图,一个沉重的母粒子就会泄露自己——化作一座小小的山丘,从平滑下倾的本底斜坡上隆起:在某个质量处,多出来的事件堆积成一个鼓包。麻烦在于,本底从来不会完美地平滑。它在抖动。哪怕数据里什么新东西都没有,随机的计数涨落也会自己造出一座座小山小谷;隔着房间望去,一簇侥幸聚拢的本底事件,可以看起来和一个真峰的起手式一模一样。

所以,当一个实验看到一处超出时,在它敢于说出「发现」这个词之前,它先要面对一个尖锐而诚实的问题:这是一个新粒子——还是仅仅本底走了一次罕见的好运?这一篇里的整套机器,存在的意义就是用一个数字、而不是一种直觉,来回答这唯一的问题。关键的念头是这样问:如果这里真的没有任何新东西,那么单凭偶然,多*久*才会奉上一个至少这么大的鼓包?如果答案是「随时都会」,那就耸耸肩。如果答案是「几乎从不」,那你也许正看着某个真实的东西。

一次抖动有多令人意外?西格玛与 p 值

要把这个问题变成一个数字,你首先需要一把衡量「寻常抖动」的尺子。计数遵循一条简单的经验法则:如果你在某个质量窗口里预期大约 N 个本底事件,那么围绕这个期望值的随机散布,大致就是 N 的平方根。所以如果你预期 100 个本底事件,看到 90 个或 110 个并不该让你吃惊——这是大约十的摆动,也就是 100 的平方根。这个平方根,就是你衡量「意外」的天然单位,用希腊字母 西格玛(σ)来记。一个西格玛的超出,平淡无奇得很;本底无时无刻不在这么干。一处超出爬得越高、越超过它本应有的散布,就越难被当作运气挥手抹去。

西格玛其实是一个乔装打扮的概率。藏在它背后的,是 p 值:在完全没有新物理的情况下,单凭本底伪造出一处至少和你所见一样大的超出的几率。p 值越小,意外越大。在这两者之间来回翻译,是这个领域的日常语言:一个一西格玛的涨落,大约每六次出现一次;两西格玛,大约每四十四次一次;三西格玛,大约每七百次一次。每多一个西格玛,都不是一小步,而是一道陡崖——随着西格玛攀升,造假的几率飞速跳水。正是这种陡峭,让物理学家把门槛设在了他们设的那个地方。

expected background N      ->  natural scatter  ~  sqrt(N)
significance (sigma)       =   (observed - expected) / sqrt(N)

1 sigma  ~ 1 in 6        3 sigma ~ 1 in 740      5 sigma ~ 1 in 3,500,000
2 sigma  ~ 1 in 44       4 sigma ~ 1 in 31,600
一个粗略的显著性,就是这处超出比预期散布高出多少,并以那个散布为单位来度量。西格玛上的每一步都是悬崖,而非台阶:每多一个西格玛,偶然造假的几率就以巨大的倍数下跌。(真正的分析用的统计方法,比这个信封背面的比值要完整得多,但精神恰恰就是这样。)

为什么是五,而不是三?

下面,就是统治这个领域的那条约定。要声称某件事有证据,粒子物理学家想要大约三个西格玛——大致七百四十分之一的侥幸几率。但要声称一项彻头彻尾的发现,门槛是[[statistical-significance-five-sigma|五个西格玛]]:一处超出大到,纯本底要伪造出它,大约要三百五十万次才碰上一回。这是一个刻意为之的、近乎荒谬的严苛要求。为什么这么狠?三个西格玛听起来很罕见,可在这个领域里,三西格玛的鼓包出现、又蒸发,频繁得令人尴尬——一座座许下诺言的山丘,等到更多数据一来便消融不见。这门学科的历史上,散落着无数三西格玛的幽灵。

把门槛设这么高,有三个诚实的理由。第一,物理学家进行的搜寻数量极其庞大,遍布无数的质量窗口和衰变道,所以即便是罕见的侥幸,也注定会在某处冒出来——这一点太重要了,下面会单辟一节来讲。第二,赌注极大:一项被宣称的发现会重写教科书、会引导一个数以千计人的领域,所以一次假警报的代价是惨重的。第三——也是最微妙的——简单的西格玛计算只数了随机散布,而它悄悄地假定了本底已被完美地建模。本底从来都不是这样。五个西格玛那份额外的缓冲,部分正是对那套模型中种种瑕疵的保险,也就是我们很快要遇到的系统不确定度

别处也在看效应:一千张彩票

现在,来看那个专门坑住粗心人的陷阱。假设你把一整段质量谱从头扫到尾,要在它上面任何地方找出一个鼓包。在每一个位置,出现一次大的随机抖动的几率都很小——可你并不是在盯着一个位置看,你盯着的是好几百个。这就是彩票:一张票几乎永远不会中,但买上一千张,*某一张*中奖的几率就陡然攀升。一个出现在你事先预言的某个特定质量处的三西格玛鼓包,是真正令人意外的;而同样这个鼓包,若出现在一段你随意横扫的宽广谱线的*某处*,就远没那么意外了,因为你给了偶然一千个位置去冒出一个来。这种「表观显著性被吹大」,就是[[look-elsewhere-effect|别处也在看效应]]

物理学家用两个诚实的记账术语来对付它。局域显著性,是这个鼓包在它实际出现的那个确切位置上有多令人意外,仿佛你事先就瞄准了那里。全局显著性,则是当你公平地把「你本可在多少个地方找到鼓包」全都计入之后,它还有多令人意外。全局这个数,永远是更小、更冷静的那个——而要构成一项发现,必须达到五个西格玛的,正是这个全局数。多少诱人的局域四西格玛超出,在「别处也在看」修正把它往下一拽、拽向平淡之后,便悄然褪色了。

两种不确定度:抖动与偏差

每一个显著性的背后,都站着一次测量,而每一次测量,都背着两种性质迥异的误差棒。第一种是统计不确定度——你已经见过的那种随机散布,有限计数的「N 的平方根」抖动。它有一个慷慨的特征:它会随着你收集更多数据而缩小。让对撞机多跑一阵,收集四倍的碰撞,这份不确定度大致就减半。统计误差,是你那部分凭耐心和更多亮度就能治好的无知。

第二种,才是危险的那种。系统不确定度不是随机散布,而是一种偏差——你的整个实验可能朝同一个方向一致地偏掉的一种方式。也许你量能器的能量标度被校准得偏高了半个百分点,于是每一个能量读数都略微偏大。也许你对本底的模拟有某种微妙的不完美,于是你误判了该预期多少个寻常事件。关键在于,这种误差*不会*随数据增多而缩小:用一台校准失准的秤量上十亿次,你得到的不过是十亿个全都偏了同样数额的读数,而且偏得精度极高。想想一台读数偏重两公斤的浴室秤——上去站一千次,能把抖动平均掉,却永远平均不掉那两公斤的谎。

五个西格玛的实战:一项发现的纪律

把这一切合起来,你就能明白,为什么一项真正的发现是一桩缓慢的、守纪律的行动,而不是灵光一闪。2012 年的希格斯发现是教科书式的案例:两个互相独立的实验各自扫寻一个鼓包,各自眼看着一处不大的超出在数月间随数据累积而长大,各自做了「别处也在看」的修正,各自把自己的系统不确定度按倒在地——直到两者都独立地越过五个西格玛、*而且在同一个质量处*,这个领域才允许自己说出那个词。两支独立的队伍抵达同一个答案,本身就是一道强有力的校验,远比其中任何一支单独得出的要可靠。

支撑这一切的,是一种安静的纪律,你在下一篇里还会再遇到它:[[blind-analysis-combination|盲分析]]。因为人总是看见自己希望看见的,实验便在任何人被允许去看鼓包区域*之前*,先把每一条筛选规则、每一道切割都钉死——这样,分析就无法在不知不觉中被调教得去讨好一个充满希望的抖动。只有当方法被冻结之后,他们才解盲,读出答案。这个习惯,连同五个西格玛和「别处也在看」修正,就是让这个领域保持诚实的免疫系统。

最后一句诚实的话,好让整条判据保持在恰当的分寸里。五个西格玛证明的是,你在本底之外找到了*某个*真实的东西——一处货真价实、并非侥幸的超出。它并不证明那东西*是什么*。2012 年宣布的那项发现,严格说来,是一个质量大致对得上的新玻色子;要把它称作*那个*希格斯,还花了好几年去测量它如何衰变、又如何强烈地与质量耦合,把它的每一项性质都拿去和预言对照。而且五个西格玛也不是不朽的保票:一个结果仍可能因为分析中被查出的某个瑕疵而被推翻,这恰恰正是独立确认为何如此要紧。这条判据不是魔杖。它是一份冷静的、来之不易的纪律,用来把罕见的真,从寻常的假里分辨出来——也是这一阶梯所教的「把碰撞变成知识」一切内容的一块恰如其分的压顶石。接下来,我们就去看这份纪律,如何在那些伟大的发现本身之中一一上演。