触发：留下绣花针，扔掉干草堆

一根你喝不下的消防水龙带

在上一篇指南里，你看到了一颗由层层探测层叠成的“洋葱”，是如何把一次碰撞变成一幅丰富的快照——几兆字节，把每一条径迹、每一处能量沉积、每一条线索都描摹下来。对单单一次碰撞而言，这美极了。麻烦在于碰撞的数量太大。在像 LHC 这样的机器的核心，成束的质子彼此对穿，每秒约 4000 万次，而每一次对穿，真正发生碰撞的并非一对、而是几十对质子。这台探测器，实际上是被要求每秒为一个原子的内部拍照数千万次，永不停歇。

来算一笔残酷的账。每秒 4000 万次对穿，每次产生大约一兆字节的原始探测器数据，那就是每秒约 40 太字节。让它运行一整天，你要写下的数据，会比全人类有史以来的全部文字产出还多，而且要一遍又一遍。地球上没有任何磁盘阵列、没有任何网络、没有任何预算能吞下这根消防水龙带。而残忍之处在于：你没法把束流按下暂停去追上进度。无论你准备好没有，质子都在不停对穿，所以任何一次你没能在它发生的当下记录下来的碰撞，就永远没了。这一条事实——数据多到你永远留不完、来得快到你永远存不下——正是逼出本篇指南里一切内容的根由。

为什么几乎一切都值得扔掉

把碰撞扔掉，听上去鲁莽得很——直到你意识到它们几乎全都乏味透顶。原因在于你早先遇到过的截面：它是某个过程有效的“靶子大小”，截面越大，那个过程发生得就越频繁。麻烦在于：无聊的过程截面巨大，而真正的奖品截面微小。当两个质子彼此擦肩而过时，它们几乎总是只通过寻常的强相互作用喷出一团低能强子喷注的乱麻——这类事件我们早已完全理解，并且已经记录过数十亿次。相比之下，造出一个希格斯玻色子的截面要小上大约几十亿倍。有趣的物理，是一条细到几近消失的接缝，贯穿在一座平庸之事堆成的大山里。

所以目标并不是“留住碰撞”，而是留住绣花针、让干草从指缝间漏走。绣花针靠携带那些寻常垃圾几乎从不具备的特征来出卖自己：一颗硬邦邦、高动量、横向飞离束流的电子或μ子，一对能量极高的光子，又或者一大份丢失横能量——暗示有什么隐形之物逃逸了。这些都不能保证就是新物理——它们不过是稀有过程往往会留下的稀有特征。触发系统的全部任务，就是在原始的、尚未重建的数据里认出这些特征，快到能赶在下一次对穿把一切覆盖之前出手。

触发是一道阶梯，而非一道单闸

你没法在两次对穿之间的时间里把一个事件完整重建出来——那点时间连光穿过探测器都勉强。所以触发系统分层工作，一层比一层更慢、更聪明，每一层都把上一层放过来的东西再扔掉绝大部分。把它想成一连串越来越细的筛子：第一道粗糙却即时，把明摆着的垃圾抖落出去；最后一道几乎就是一次完整分析，但它要看的永远只是涓涓细流。这个削减幅度大得惊人，正是它这个工程奇迹，才让对撞机在根本上成为可能。

第一级（硬件，微秒级）：直接坐在探测器上的定制电子学，只去看那些粗略而快速的信号——量能器里一团很大的能量、μ子室里一条很硬的径迹。没有软件，没有重建；只是一些专用电路在问简单的“是/否”。单单这一级，就把速率从每秒 4000 万压到约 10 万个事件。
更高级别（软件，毫秒级）：一大片由普通计算机组成的“农场”，此刻有时间对每一个幸存的事件跑一遍快速而局部的重建——搭出粗略的径迹，把一处能量沉积与一条径迹配对，以确认它真的是一颗电子。有了更多时间和更多信息，它把第一级放过来的东西再扔掉大半，把速率降到大约每秒一千个事件。
写入磁盘：只有最后那每秒约 1000 个事件被认定值得留下。它们汇入触发与数据获取系统，被写进永久存储，成为物理分析日后真正赖以生存的数据集。其余一切——超过全部碰撞的 99.99%——都没了，对科学而言从未存在过。

请留意这道阶梯里的策略：把又便宜又快的判断花在容易剔除的对象上，把又昂贵又仔细的判断留给那寥寥几个已经看起来有戏的事件。这跟急诊室给病人分诊是同一个逻辑——“触发（trigger）”与“分诊（triage）”这两个词，气质相通。到了阶梯的最底端，那股每秒 40 太字节的洪流，已被驯成一条细了十万倍的小溪，然而，只要触发的“菜单”选得好，几乎每一根绣花针都被留住了。

堆积：多次碰撞，一帧快照

还有第二个转折，让触发比单纯比拼速度更难。为了攒够足够多的稀有碰撞，你不得不把束流压得极密，密到每一次成束对穿产生的不是一次碰撞、而是许多次——常常是五十对甚至更多的质子，在彼此相距不到一毫米、相隔不到一纳秒之内同时相撞。探测器在时间上分不清它们；它把它们记成单单一帧、彻底交叠在一起的快照。这一团同时发生的碰撞乱麻，叫作堆积，它正是你为高碰撞率所付的代价。

堆积是有腐蚀性的。你真正在意的那一次有趣碰撞，被几十次同一瞬间发生的乏味碰撞埋在底下，它们各自的径迹和能量都一股脑倒进同一张图里。这些散逸的能量会把你的测量抹糊，而最糟的是，它还能伪造出一个触发特征——五十次无聊的碰撞叠在一起，可能凑成一团误导人的能量，在一瞬间看上去就像一个激动人心的事件。理清哪条径迹来自哪个碰撞点，正是更高层触发与后期分析如此繁重的一大原因。这也是为什么你希望每一次碰撞在空间上，都尽机器之所能被干净地分隔开。

幸存者的算术

我们把这些数字串起来，因为这套算术正是整件事的要害。一年里你能攒下某个过程多少例，由两个因素决定：它的截面（自然多久造它一次），以及积分亮度（机器一共递送了多少碰撞曝光量，以反费米靶为单位计）。把两者相乘，就得到被产生出来的事件数。但你只留下触发系统为之触发了的那些，所以你实际能拿来分析的数目，是这个乘积再乘上触发系统对你那个特征的效率。你每损失一个百分点的触发效率，就是你那来之不易的发现里，永远见不到的一个百分点。

events you can analyse
   = cross-section  x  integrated luminosity  x  trigger efficiency

fewer events kept  ->  larger statistical uncertainty  ->  harder to claim a discovery

把自然的稀有度变成一个你能发表的数字的这条链。触发系统坐在正中间，那里效率一低，下游的每一个结果都会被悄无声息地缩水。

这也是为什么一次被扔掉的碰撞，并不像乍听上去那么浪费。你丢弃的事件，绝大多数都是你早已手握数十亿例的高截面寻常过程；再多留些它们几乎毫无意义。你拼命要留住的，是那条稀有的接缝。触发设计的艺术，就在于把每一道阈值——μ子要多硬、能量团要多大——定得恰好低到能逮住你想要的信号，又恰好高到能拒掉那股洪流，好让你那宝贵的记录带宽，花在绣花针上、而不是干草上。这个平衡往任何一边偏错，你要么淹没在数据里，要么错过那项发现。