五個西格瑪：到什麼時候才算發現？

一個鼓包還不是一項發現

到現在你已經知道，一個隱藏的粒子是怎樣自己現身的了。你把數百萬個事件重建出來的不變質量畫成圖，一個沉重的母粒子就會洩露自己——化作一座小小的山丘，從平滑下傾的本底斜坡上隆起：在某個質量處，多出來的事件堆積成一個鼓包。麻煩在於，本底從來不會完美地平滑。它在抖動。哪怕數據裡什麼新東西都沒有，隨機的計數漲落也會自己造出一座座小山小谷；隔著房間望去，一簇僥倖聚攏的本底事件，可以看起來和一個真峰的起手式一模一樣。

所以，當一個實驗看到一處超出時，在它敢於說出「發現」這個詞之前，它先要面對一個尖銳而誠實的問題：這是一個新粒子——還是僅僅本底走了一次罕見的好運？這一篇裡的整套機器，存在的意義就是用一個數字、而不是一種直覺，來回答這唯一的問題。關鍵的念頭是這樣問：如果這裡真的沒有任何新東西，那麼單憑偶然，多*久*才會奉上一個至少這麼大的鼓包？如果答案是「隨時都會」，那就聳聳肩。如果答案是「幾乎從不」，那你也許正看著某個真實的東西。

一次抖動有多令人意外？西格瑪與 p 值

要把這個問題變成一個數字，你首先需要一把衡量「尋常抖動」的尺子。計數遵循一條簡單的經驗法則：如果你在某個質量窗口裡預期大約 N 個本底事件，那麼圍繞這個期望值的隨機散布，大致就是 N 的平方根。所以如果你預期 100 個本底事件，看到 90 個或 110 個並不該讓你吃驚——這是大約十的擺動，也就是 100 的平方根。這個平方根，就是你衡量「意外」的天然單位，用希臘字母 西格瑪（σ）來記。一個西格瑪的超出，平淡無奇得很；本底無時無刻不在這麼幹。一處超出爬得越高、越超過它本應有的散布，就越難被當作運氣揮手抹去。

西格瑪其實是一個喬裝打扮的機率。藏在它背後的，是 p 值：在完全沒有新物理的情況下，單憑本底偽造出一處至少和你所見一樣大的超出的幾率。p 值越小，意外越大。在這兩者之間來回翻譯，是這個領域的日常語言：一個一西格瑪的漲落，大約每六次出現一次；兩西格瑪，大約每四十四次一次；三西格瑪，大約每七百次一次。每多一個西格瑪，都不是一小步，而是一道陡崖——隨著西格瑪攀升，造假的幾率飛速跳水。正是這種陡峭，讓物理學家把門檻設在了他們設的那個地方。

expected background N      ->  natural scatter  ~  sqrt(N)
significance (sigma)       =   (observed - expected) / sqrt(N)

1 sigma  ~ 1 in 6        3 sigma ~ 1 in 740      5 sigma ~ 1 in 3,500,000
2 sigma  ~ 1 in 44       4 sigma ~ 1 in 31,600

一個粗略的顯著性，就是這處超出比預期散布高出多少，並以那個散布為單位來度量。西格瑪上的每一步都是懸崖，而非台階：每多一個西格瑪，偶然造假的幾率就以巨大的倍數下跌。（真正的分析用的統計方法，比這個信封背面的比值要完整得多，但精神恰恰就是這樣。）

為什麼是五，而不是三？

下面，就是統治這個領域的那條約定。要聲稱某件事有證據，粒子物理學家想要大約三個西格瑪——大致七百四十分之一的僥倖幾率。但要聲稱一項徹頭徹尾的發現，門檻是[[statistical-significance-five-sigma|五個西格瑪]]：一處超出大到，純本底要偽造出它，大約要三百五十萬次才碰上一回。這是一個刻意為之的、近乎荒謬的嚴苛要求。為什麼這麼狠？三個西格瑪聽起來很罕見，可在這個領域裡，三西格瑪的鼓包出現、又蒸發，頻繁得令人尷尬——一座座許下諾言的山丘，等到更多數據一來便消融不見。這門學科的歷史上，散落著無數三西格瑪的幽靈。

把門檻設這麼高，有三個誠實的理由。第一，物理學家進行的搜尋數量極其龐大，遍布無數的質量窗口和衰變道，所以即便是罕見的僥倖，也注定會在某處冒出來——這一點太重要了，下面會單闢一節來講。第二，賭注極大：一項被宣稱的發現會重寫教科書、會引導一個數以千計人的領域，所以一次假警報的代價是慘重的。第三——也是最微妙的——簡單的西格瑪計算只數了隨機散布，而它悄悄地假定了本底已被完美地建模。本底從來都不是這樣。五個西格瑪那份額外的緩衝，部分正是對那套模型中種種瑕疵的保險，也就是我們很快要遇到的系統不確定度。

別處也在看效應：一千張彩票

現在，來看那個專門坑住粗心人的陷阱。假設你把一整段質量譜從頭掃到尾，要在它上面任何地方找出一個鼓包。在每一個位置，出現一次大的隨機抖動的幾率都很小——可你並不是在盯著一個位置看，你盯著的是好幾百個。這就是彩票：一張票幾乎永遠不會中，但買上一千張，*某一張*中獎的幾率就陡然攀升。一個出現在你事先預言的某個特定質量處的三西格瑪鼓包，是真正令人意外的；而同樣這個鼓包，若出現在一段你隨意橫掃的寬廣譜線的*某處*，就遠沒那麼意外了，因為你給了偶然一千個位置去冒出一個來。這種「表觀顯著性被吹大」，就是[[look-elsewhere-effect|別處也在看效應]]。

物理學家用兩個誠實的記帳術語來對付它。局域顯著性，是這個鼓包在它實際出現的那個確切位置上有多令人意外，彷彿你事先就瞄準了那裡。全局顯著性，則是當你公平地把「你本可在多少個地方找到鼓包」全都計入之後，它還有多令人意外。全局這個數，永遠是更小、更冷靜的那個——而要構成一項發現，必須達到五個西格瑪的，正是這個全局數。多少誘人的局域四西格瑪超出，在「別處也在看」修正把它往下一拽、拽向平淡之後，便悄然褪色了。

兩種不確定度：抖動與偏差

每一個顯著性的背後，都站著一次測量，而每一次測量，都背著兩種性質迥異的誤差棒。第一種是統計不確定度——你已經見過的那種隨機散布，有限計數的「N 的平方根」抖動。它有一個慷慨的特徵：它會隨著你收集更多數據而縮小。讓對撞機多跑一陣，收集四倍的碰撞，這份不確定度大致就減半。統計誤差，是你那部分憑耐心和更多亮度就能治好的無知。

第二種，才是危險的那種。系統不確定度不是隨機散布，而是一種偏差——你的整個實驗可能朝同一個方向一致地偏掉的一種方式。也許你量能器的能量標度被校準得偏高了半個百分點，於是每一個能量讀數都略微偏大。也許你對本底的模擬有某種微妙的不完美，於是你誤判了該預期多少個尋常事件。關鍵在於，這種誤差*不會*隨數據增多而縮小：用一台校準失準的秤量上十億次，你得到的不過是十億個全都偏了同樣數額的讀數，而且偏得精度極高。想想一台讀數偏重兩公斤的浴室秤——上去站一千次，能把抖動平均掉，卻永遠平均不掉那兩公斤的謊。

五個西格瑪的實戰：一項發現的紀律

把這一切合起來，你就能明白，為什麼一項真正的發現是一樁緩慢的、守紀律的行動，而不是靈光一閃。2012 年的希格斯發現是教科書式的案例：兩個互相獨立的實驗各自掃尋一個鼓包，各自眼看著一處不大的超出在數月間隨數據累積而長大，各自做了「別處也在看」的修正，各自把自己的系統不確定度按倒在地——直到兩者都獨立地越過五個西格瑪、*而且在同一個質量處*，這個領域才允許自己說出那個詞。兩支獨立的隊伍抵達同一個答案，本身就是一道強有力的校驗，遠比其中任何一支單獨得出的要可靠。

支撐這一切的，是一種安靜的紀律，你在下一篇裡還會再遇到它：[[blind-analysis-combination|盲分析]]。因為人總是看見自己希望看見的，實驗便在任何人被允許去看鼓包區域*之前*，先把每一條篩選規則、每一道切割都釘死——這樣，分析就無法在不知不覺中被調教得去討好一個充滿希望的抖動。只有當方法被凍結之後，他們才解盲，讀出答案。這個習慣，連同五個西格瑪和「別處也在看」修正，就是讓這個領域保持誠實的免疫系統。

最後一句誠實的話，好讓整條判據保持在恰當的分寸裡。五個西格瑪證明的是，你在本底之外找到了*某個*真實的東西——一處貨真價實、並非僥倖的超出。它並不證明那東西*是什麼*。2012 年宣布的那項發現，嚴格說來，是一個質量大致對得上的新玻色子；要把它稱作*那個*希格斯，還花了好幾年去測量它如何衰變、又如何強烈地與質量耦合，把它的每一項性質都拿去和預言對照。而且五個西格瑪也不是不朽的保票：一個結果仍可能因為分析中被查出的某個瑕疵而被推翻，這恰恰正是獨立確認為何如此要緊。這條判據不是魔杖。它是一份冷靜的、來之不易的紀律，用來把罕見的真，從尋常的假裡分辨出來——也是這一階梯所教的「把碰撞變成知識」一切內容的一塊恰如其分的壓頂石。接下來，我們就去看這份紀律，如何在那些偉大的發現本身之中一一上演。