一根你喝不下的消防水龍帶
在上一篇指南裡,你看到了一顆由層層探測層疊成的「洋蔥」,是如何把一次碰撞變成一幅豐富的快照——幾兆位元組,把每一條徑跡、每一處能量沉積、每一條線索都描摹下來。對單單一次碰撞而言,這美極了。麻煩在於碰撞的數量太大。在像 LHC 這樣的機器的核心,成束的質子彼此對穿,每秒約 4000 萬次,而每一次對穿,真正發生碰撞的並非一對、而是幾十對質子。這台探測器,實際上是被要求每秒為一個原子的內部拍照數千萬次,永不停歇。
來算一筆殘酷的帳。每秒 4000 萬次對穿,每次產生大約一兆位元組的原始探測器資料,那就是每秒約 40 太位元組。讓它運行一整天,你要寫下的資料,會比全人類有史以來的全部文字產出還多,而且要一遍又一遍。地球上沒有任何磁碟陣列、沒有任何網路、沒有任何預算能吞下這根消防水龍帶。而殘忍之處在於:你沒法把束流按下暫停去追上進度。無論你準備好沒有,質子都在不停對穿,所以任何一次你沒能在它發生的當下記錄下來的碰撞,就永遠沒了。這一條事實——資料多到你永遠留不完、來得快到你永遠存不下——正是逼出本篇指南裡一切內容的根由。
為什麼幾乎一切都值得丟掉
把碰撞丟掉,聽上去魯莽得很——直到你意識到它們幾乎全都乏味透頂。原因在於你早先遇到過的截面:它是某個過程有效的「靶子大小」,截面越大,那個過程發生得就越頻繁。麻煩在於:無聊的過程截面巨大,而真正的獎品截面微小。當兩個質子彼此擦肩而過時,它們幾乎總是只透過尋常的強交互作用噴出一團低能強子噴注的亂麻——這類事件我們早已完全理解,並且已經記錄過數十億次。相比之下,造出一個希格斯玻色子的截面要小上大約幾十億倍。有趣的物理,是一條細到幾近消失的接縫,貫穿在一座平庸之事堆成的大山裡。
所以目標並不是「留住碰撞」,而是留住繡花針、讓乾草從指縫間漏走。繡花針靠攜帶那些尋常垃圾幾乎從不具備的特徵來出賣自己:一顆硬邦邦、高動量、橫向飛離束流的電子或μ子,一對能量極高的光子,又或者一大份丟失橫能量——暗示有什麼隱形之物逃逸了。這些都不能保證就是新物理——它們不過是稀有過程往往會留下的稀有特徵。觸發系統的全部任務,就是在原始的、尚未重建的資料裡認出這些特徵,快到能趕在下一次對穿把一切覆蓋之前出手。
觸發是一道階梯,而非一道單閘
你沒法在兩次對穿之間的時間裡把一個事件完整重建出來——那點時間連光穿過探測器都勉強。所以觸發系統分層工作,一層比一層更慢、更聰明,每一層都把上一層放過來的東西再丟掉絕大部分。把它想成一連串越來越細的篩子:第一道粗糙卻即時,把明擺著的垃圾抖落出去;最後一道幾乎就是一次完整分析,但它要看的永遠只是涓涓細流。這個削減幅度大得驚人,正是它這個工程奇蹟,才讓對撞機在根本上成為可能。
- 第一級(硬體,微秒級):直接坐在探測器上的定製電子學,只去看那些粗略而快速的信號——量能器裡一團很大的能量、μ子室裡一條很硬的徑跡。沒有軟體,沒有重建;只是一些專用電路在問簡單的「是/否」。單單這一級,就把速率從每秒 4000 萬壓到約 10 萬個事件。
- 更高級別(軟體,毫秒級):一大片由普通電腦組成的「農場」,此刻有時間對每一個倖存的事件跑一遍快速而局部的重建——搭出粗略的徑跡,把一處能量沉積與一條徑跡配對,以確認它真的是一顆電子。有了更多時間和更多資訊,它把第一級放過來的東西再扔掉大半,把速率降到大約每秒一千個事件。
- 寫入磁碟:只有最後那每秒約 1000 個事件被認定值得留下。它們匯入觸發與資料獲取系統,被寫進永久儲存,成為物理分析日後真正賴以生存的資料集。其餘一切——超過全部碰撞的 99.99%——都沒了,對科學而言從未存在過。
請留意這道階梯裡的策略:把又便宜又快的判斷花在容易剔除的對象上,把又昂貴又仔細的判斷留給那寥寥幾個已經看起來有戲的事件。這跟急診室給病人分診是同一個邏輯——「觸發(trigger)」與「分診(triage)」這兩個詞,氣質相通。到了階梯的最底端,那股每秒 40 太位元組的洪流,已被馴成一條細了十萬倍的小溪,然而,只要觸發的「菜單」選得好,幾乎每一根繡花針都被留住了。
堆積:多次碰撞,一幀快照
還有第二個轉折,讓觸發比單純比拼速度更難。為了攢夠足夠多的稀有碰撞,你不得不把束流壓得極密,密到每一次成束對穿產生的不是一次碰撞、而是許多次——常常是五十對甚至更多的質子,在彼此相距不到一毫米、相隔不到一奈秒之內同時相撞。探測器在時間上分不清它們;它把它們記成單單一幀、徹底交疊在一起的快照。這一團同時發生的碰撞亂麻,叫作堆積,它正是你為高碰撞率所付的代價。
堆積是有腐蝕性的。你真正在意的那一次有趣碰撞,被幾十次同一瞬間發生的乏味碰撞埋在底下,它們各自的徑跡和能量都一股腦倒進同一張圖裡。這些散逸的能量會把你的測量抹糊,而最糟的是,它還能偽造出一個觸發特徵——五十次無聊的碰撞疊在一起,可能湊成一團誤導人的能量,在一瞬間看上去就像一個激動人心的事件。理清哪條徑跡來自哪個碰撞點,正是更高層觸發與後期分析如此繁重的一大原因。這也是為什麼你希望每一次碰撞在空間上,都盡機器之所能被乾淨地分隔開。
倖存者的算術
我們把這些數字串起來,因為這套算術正是整件事的要害。一年裡你能攢下某個過程多少例,由兩個因素決定:它的截面(自然多久造它一次),以及積分亮度(機器一共遞送了多少碰撞曝光量,以反費米靶為單位計)。把兩者相乘,就得到被產生出來的事件數。但你只留下觸發系統為之觸發了的那些,所以你實際能拿來分析的數目,是這個乘積再乘上觸發系統對你那個特徵的效率。你每損失一個百分點的觸發效率,就是你那來之不易的發現裡,永遠見不到的一個百分點。
events you can analyse = cross-section x integrated luminosity x trigger efficiency fewer events kept -> larger statistical uncertainty -> harder to claim a discovery
這也是為什麼一次被丟掉的碰撞,並不像乍聽上去那麼浪費。你丟棄的事件,絕大多數都是你早已手握數十億例的高截面尋常過程;再多留些它們幾乎毫無意義。你拼命要留住的,是那條稀有的接縫。觸發設計的藝術,就在於把每一道閾值——μ子要多硬、能量團要多大——定得恰好低到能逮住你想要的信號,又恰好高到能拒掉那股洪流,好讓你那寶貴的記錄頻寬,花在繡花針上、而不是乾草上。這個平衡往任何一邊偏錯,你要麼淹沒在資料裡,要麼錯過那項發現。