JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

五個西格瑪:到什麼時候才算發現?

數據裡冒出一個鼓包,還不算一項發現。這一篇裡,我們要認識物理學家用來把真訊號和僥倖的抖動區分開的那把尺子——五個西格瑪的判據——以及那個會把偶然漲落吹大的「別處也在看」陷阱,還有那條誠實的分界線:哪種雜訊會隨數據增多而縮小,哪種偏差不會。

一個鼓包還不是一項發現

到現在你已經知道,一個隱藏的粒子是怎樣自己現身的了。你把數百萬個事件重建出來的不變質量畫成圖,一個沉重的母粒子就會洩露自己——化作一座小小的山丘,從平滑下傾的本底斜坡上隆起:在某個質量處,多出來的事件堆積成一個鼓包。麻煩在於,本底從來不會完美地平滑。它在抖動。哪怕數據裡什麼新東西都沒有,隨機的計數漲落也會自己造出一座座小山小谷;隔著房間望去,一簇僥倖聚攏的本底事件,可以看起來和一個真峰的起手式一模一樣。

所以,當一個實驗看到一處超出時,在它敢於說出「發現」這個詞之前,它先要面對一個尖銳而誠實的問題:這是一個新粒子——還是僅僅本底走了一次罕見的好運?這一篇裡的整套機器,存在的意義就是用一個數字、而不是一種直覺,來回答這唯一的問題。關鍵的念頭是這樣問:如果這裡真的沒有任何新東西,那麼單憑偶然,多*久*才會奉上一個至少這麼大的鼓包?如果答案是「隨時都會」,那就聳聳肩。如果答案是「幾乎從不」,那你也許正看著某個真實的東西。

一次抖動有多令人意外?西格瑪與 p 值

要把這個問題變成一個數字,你首先需要一把衡量「尋常抖動」的尺子。計數遵循一條簡單的經驗法則:如果你在某個質量窗口裡預期大約 N 個本底事件,那麼圍繞這個期望值的隨機散布,大致就是 N 的平方根。所以如果你預期 100 個本底事件,看到 90 個或 110 個並不該讓你吃驚——這是大約十的擺動,也就是 100 的平方根。這個平方根,就是你衡量「意外」的天然單位,用希臘字母 西格瑪(σ)來記。一個西格瑪的超出,平淡無奇得很;本底無時無刻不在這麼幹。一處超出爬得越高、越超過它本應有的散布,就越難被當作運氣揮手抹去。

西格瑪其實是一個喬裝打扮的機率。藏在它背後的,是 p 值:在完全沒有新物理的情況下,單憑本底偽造出一處至少和你所見一樣大的超出的幾率。p 值越小,意外越大。在這兩者之間來回翻譯,是這個領域的日常語言:一個一西格瑪的漲落,大約每六次出現一次;兩西格瑪,大約每四十四次一次;三西格瑪,大約每七百次一次。每多一個西格瑪,都不是一小步,而是一道陡崖——隨著西格瑪攀升,造假的幾率飛速跳水。正是這種陡峭,讓物理學家把門檻設在了他們設的那個地方。

expected background N      ->  natural scatter  ~  sqrt(N)
significance (sigma)       =   (observed - expected) / sqrt(N)

1 sigma  ~ 1 in 6        3 sigma ~ 1 in 740      5 sigma ~ 1 in 3,500,000
2 sigma  ~ 1 in 44       4 sigma ~ 1 in 31,600
一個粗略的顯著性,就是這處超出比預期散布高出多少,並以那個散布為單位來度量。西格瑪上的每一步都是懸崖,而非台階:每多一個西格瑪,偶然造假的幾率就以巨大的倍數下跌。(真正的分析用的統計方法,比這個信封背面的比值要完整得多,但精神恰恰就是這樣。)

為什麼是五,而不是三?

下面,就是統治這個領域的那條約定。要聲稱某件事有證據,粒子物理學家想要大約三個西格瑪——大致七百四十分之一的僥倖幾率。但要聲稱一項徹頭徹尾的發現,門檻是[[statistical-significance-five-sigma|五個西格瑪]]:一處超出大到,純本底要偽造出它,大約要三百五十萬次才碰上一回。這是一個刻意為之的、近乎荒謬的嚴苛要求。為什麼這麼狠?三個西格瑪聽起來很罕見,可在這個領域裡,三西格瑪的鼓包出現、又蒸發,頻繁得令人尷尬——一座座許下諾言的山丘,等到更多數據一來便消融不見。這門學科的歷史上,散落著無數三西格瑪的幽靈。

把門檻設這麼高,有三個誠實的理由。第一,物理學家進行的搜尋數量極其龐大,遍布無數的質量窗口和衰變道,所以即便是罕見的僥倖,也注定會在某處冒出來——這一點太重要了,下面會單闢一節來講。第二,賭注極大:一項被宣稱的發現會重寫教科書、會引導一個數以千計人的領域,所以一次假警報的代價是慘重的。第三——也是最微妙的——簡單的西格瑪計算只數了隨機散布,而它悄悄地假定了本底已被完美地建模。本底從來都不是這樣。五個西格瑪那份額外的緩衝,部分正是對那套模型中種種瑕疵的保險,也就是我們很快要遇到的系統不確定度

別處也在看效應:一千張彩票

現在,來看那個專門坑住粗心人的陷阱。假設你把一整段質量譜從頭掃到尾,要在它上面任何地方找出一個鼓包。在每一個位置,出現一次大的隨機抖動的幾率都很小——可你並不是在盯著一個位置看,你盯著的是好幾百個。這就是彩票:一張票幾乎永遠不會中,但買上一千張,*某一張*中獎的幾率就陡然攀升。一個出現在你事先預言的某個特定質量處的三西格瑪鼓包,是真正令人意外的;而同樣這個鼓包,若出現在一段你隨意橫掃的寬廣譜線的*某處*,就遠沒那麼意外了,因為你給了偶然一千個位置去冒出一個來。這種「表觀顯著性被吹大」,就是[[look-elsewhere-effect|別處也在看效應]]

物理學家用兩個誠實的記帳術語來對付它。局域顯著性,是這個鼓包在它實際出現的那個確切位置上有多令人意外,彷彿你事先就瞄準了那裡。全局顯著性,則是當你公平地把「你本可在多少個地方找到鼓包」全都計入之後,它還有多令人意外。全局這個數,永遠是更小、更冷靜的那個——而要構成一項發現,必須達到五個西格瑪的,正是這個全局數。多少誘人的局域四西格瑪超出,在「別處也在看」修正把它往下一拽、拽向平淡之後,便悄然褪色了。

兩種不確定度:抖動與偏差

每一個顯著性的背後,都站著一次測量,而每一次測量,都背著兩種性質迥異的誤差棒。第一種是統計不確定度——你已經見過的那種隨機散布,有限計數的「N 的平方根」抖動。它有一個慷慨的特徵:它會隨著你收集更多數據而縮小。讓對撞機多跑一陣,收集四倍的碰撞,這份不確定度大致就減半。統計誤差,是你那部分憑耐心和更多亮度就能治好的無知。

第二種,才是危險的那種。系統不確定度不是隨機散布,而是一種偏差——你的整個實驗可能朝同一個方向一致地偏掉的一種方式。也許你量能器的能量標度被校準得偏高了半個百分點,於是每一個能量讀數都略微偏大。也許你對本底的模擬有某種微妙的不完美,於是你誤判了該預期多少個尋常事件。關鍵在於,這種誤差*不會*隨數據增多而縮小:用一台校準失準的秤量上十億次,你得到的不過是十億個全都偏了同樣數額的讀數,而且偏得精度極高。想想一台讀數偏重兩公斤的浴室秤——上去站一千次,能把抖動平均掉,卻永遠平均不掉那兩公斤的謊。

五個西格瑪的實戰:一項發現的紀律

把這一切合起來,你就能明白,為什麼一項真正的發現是一樁緩慢的、守紀律的行動,而不是靈光一閃。2012 年的希格斯發現是教科書式的案例:兩個互相獨立的實驗各自掃尋一個鼓包,各自眼看著一處不大的超出在數月間隨數據累積而長大,各自做了「別處也在看」的修正,各自把自己的系統不確定度按倒在地——直到兩者都獨立地越過五個西格瑪、*而且在同一個質量處*,這個領域才允許自己說出那個詞。兩支獨立的隊伍抵達同一個答案,本身就是一道強有力的校驗,遠比其中任何一支單獨得出的要可靠。

支撐這一切的,是一種安靜的紀律,你在下一篇裡還會再遇到它:[[blind-analysis-combination|盲分析]]。因為人總是看見自己希望看見的,實驗便在任何人被允許去看鼓包區域*之前*,先把每一條篩選規則、每一道切割都釘死——這樣,分析就無法在不知不覺中被調教得去討好一個充滿希望的抖動。只有當方法被凍結之後,他們才解盲,讀出答案。這個習慣,連同五個西格瑪和「別處也在看」修正,就是讓這個領域保持誠實的免疫系統。

最後一句誠實的話,好讓整條判據保持在恰當的分寸裡。五個西格瑪證明的是,你在本底之外找到了*某個*真實的東西——一處貨真價實、並非僥倖的超出。它並不證明那東西*是什麼*。2012 年宣布的那項發現,嚴格說來,是一個質量大致對得上的新玻色子;要把它稱作*那個*希格斯,還花了好幾年去測量它如何衰變、又如何強烈地與質量耦合,把它的每一項性質都拿去和預言對照。而且五個西格瑪也不是不朽的保票:一個結果仍可能因為分析中被查出的某個瑕疵而被推翻,這恰恰正是獨立確認為何如此要緊。這條判據不是魔杖。它是一份冷靜的、來之不易的紀律,用來把罕見的真,從尋常的假裡分辨出來——也是這一階梯所教的「把碰撞變成知識」一切內容的一塊恰如其分的壓頂石。接下來,我們就去看這份紀律,如何在那些偉大的發現本身之中一一上演。