剪接与加工：编辑这条信息

一份草稿，而非成品信息

在上一篇里，你看着转录跑了一遍：一种酶沿着基因爬行，一个字母一个字母地拼出一条崭新的 RNA 链。人很容易以为活儿干完了——基因都抄好了，细胞当然可以直接读它、造出蛋白质。在细菌里，这几乎成立。但你不是细菌，在你的细胞里，那条新链离“可用”还差得远。从基因上滚下来的，是一份未经编辑的原始草稿，叫做 pre-mRNA——一条初级转录本，任何核糖体都绝不会被允许照原样去读它。

为什么要这么多周折？有两个原因，而且都绕回到你在前面一级里遇到过的那堵墙：细胞核。在真核生物里，转录在细胞核内进行，造蛋白质却在核外、在细胞质里进行。于是这条信息必须熬过一段旅程——穿过核孔出去，再穿越一个挤满了会啃食散落 RNA 的酶的繁忙细胞。一份赤裸裸的草稿还没到达就会被切碎。除此之外，基因本身写得很乱，有用的文字被一长段一长段必须剪掉的填充物打断。给草稿做编辑，一举解决了这两个问题。

于是细胞让这份草稿走上一条编辑流水线。三道编辑把原始的 pre-mRNA 变成一条成品的、可外运的信使 RNA——前端一顶保护性的帽、后端一条保护性的尾，以及中段一次精确的剪切与粘接。本篇就按顺序走一遍这三道工序，并以那个让整套机器值回票价的回报收尾：一个基因悄悄造出好几种不同的蛋白质。

封住两端：帽与尾

想象寄一份易损的文件。在它离手之前，你会封住前端，让什么都咬不进去，也让收件人知道该从哪里开始。这就是 5′ 帽：一个特殊的、经过修饰的核苷酸，被装到转录本最前端（5′ 端）上。它装得出奇地早——转录还在进行时，几乎是 RNA 的前端刚从聚合酶里探出来就装上了。这顶帽三重地发挥价值：它保护前端免遭啃食 RNA 的酶，它充当细胞抓着把 RNA 经核孔运出去的“把手”，它还是核糖体随后寻找的对接信号，好知道该从哪里开始读。

后端也有它自己的保护：poly-A 尾，一长串单一的 RNA 字母——腺嘌呤 A——常常一两百个 A 连成一排，接在 3′（后）端上。这里有个意外：这些 A *不是*从基因上抄来的。在转录本接近末尾处，细胞认出一段信号序列，在那里把 RNA 切断，再由一种专门的酶事后简单地接上那串 A。随后一些特殊蛋白包裹这条尾巴，而真正干活的是这层蛋白外衣——不是那些光秃秃的 A。一条又长又包裹良好的尾巴意味着一份稳定、会被读很多次的信息；随着尾巴在信息的一生中被慢慢啃短，这条 mRNA 便漂向被销毁。这条尾巴实际上是一根缓慢燃烧的引信——一个细胞可以设定的有效期计时器。

剪接：剪掉填充物

现在轮到那场轰轰烈烈的编辑了，发生在中段的那一道。回想一下基因组那篇里的意外：在你的 DNA 中，真正编码蛋白质的只是薄薄一条，而单个基因里编码的部分甚至不是连续的。在一个真核基因内部，有意义的编码片段被切碎，被一长段一长段的填充物隔开。想象一段录下来的演讲，讲者在精彩句子之间不停地东拉西扯。为得到干净的版本，编辑剪掉每一段跑题的内容，再把精彩的句子按顺序粘接回去。这种剪辑就叫剪接。

这两类片段各有名字，还配得上一个小小的助记。外显子（exon）是被“表达”（EXpressed）出来的片段——它们留在最终信息里。内含子（intron）是“居间”（INtervening）的片段——夹在外显子之间、会被移除的填充物。一条崭新的 pre-mRNA 两者兼有，沿其长度交替排列；剪接剪除每一个内含子，把外显子首尾相接封合起来，留下一条连续的编码信息。所需的精度令人咋舌：剪切必须精确到单个字母，因为哪怕错一个，下游的每一个词都会移位，把整个蛋白质搅得一团乱。

  pre-mRNA  (raw draft, straight off the gene):

  cap-[ exon1 ]--intronA--[ exon2 ]----intronB----[ exon3 ]-AAAA...
           |        (cut)      |          (cut)       |
           +------------------>+--------------------->+
                       exons joined, introns dropped

  mature mRNA  (ready to export and read):

  cap-[ exon1 ][ exon2 ][ exon3 ]-AAAA...

一图看懂剪接：内含子被甩成环、丢弃，外显子按顺序接好，帽与尾把成品信息夹在中间。抗肌萎缩蛋白基因是极端例子——其原始转录本的 99% 以上都是内含子，被剪掉了。

在往下走之前，先说两点诚实的提醒。其一，“外显子”并不等于“编码蛋白质”——外显子也包括 mRNA 两端不被翻译的片段，所以外显子只是一段在剪接中幸存下来的片段，未必是编码蛋白质的。其二，内含子并非纯粹该被丢弃遗忘的垃圾：有些携带调控信号，而正是“能把它们剪掉、再把外显子重接起来”这一能力，恰恰解锁了下一节里的把戏。

剪接体：一台由 RNA 驱动的剪切—粘接机器

以单字母的精度、在数以万计的不同基因上、重复数百万次地剪切——细胞不会把这事交给运气。它动用一台庞大的、能自我组装的机器，叫做剪接体。让它与众不同的转折在于：剪接体并不像细胞里大多数机器那样主要由蛋白质构成。它的核心工作部件是一些小 RNA 分子（与蛋白质一起包装成绰号叫“snurp”的单元）。是 RNA 在负责识别——甚至负责剪切与连接的那道化学反应。

在每个内含子上，剪接体现场组装，由它的 RNA 部件识别那些标出内含子起止位置的“路标”字母。
它把内含子折出一个像牛仔套索一样的环，让两侧的外显子靠拢到一起。
它把内含子剪下来，再把两个外显子封合（连接）成一条连续的链。
它解体并回收部件，准备在下一个内含子上把整套舞步再跳一遍。

剪接体的催化核心是 RNA 而非蛋白质，这是一条真正深刻的线索。一个充当酶的 RNA 分子叫做核酶，它告诉我们：RNA 既能*携带*信息，又能*驱动*化学反应——这正是生命在蛋白质主导之前得以起步所需要的。这同一台机器也常常是故障点：当剪接体或它所读取的信号出错时，外显子会被错误地跳过或保留，后果中就包括真正的人类疾病——某些肌萎缩、某些癌症。诺西那生（nusinersen）等现代药物的起效方式，是促使剪接体保留一个它本会丢弃的关键外显子——修的是*剪辑*，而非基因本身。

一个基因，好几种蛋白质：回报

现在轮到那个让所有这些编辑值回成本的回报了。剪接并非每次都被迫用上每一个外显子。设想同一本说明书，只要选择保留哪几页、跳过哪几页，就能组装成自行车、滑板车或独轮手推车。这正是那一招——可变剪接：从*同一条* pre-mRNA 出发，剪接体可以在一种细胞里保留某些外显子，在另一种细胞里把它们略去，由单个基因产出不止一种成品 mRNA——也就是不止一种蛋白质。这些相关却有别的版本被称为异构体。

这解开了基因组那篇留下的一个悬念。人类只有约两万个编码蛋白质的基因——勉强比一条小小的线虫多一点——可我们造出的蛋白质却多得多、也丰富得多。可变剪接是答案的很大一部分：我们绝大多数含多个外显子的基因都会以不止一种方式剪接，因此基因的*数量*严重低估了蛋白质的数量。这一抉择也并非随机——它是受调控的。细胞用一些特殊蛋白，根据细胞类型、发育阶段或抵达细胞的信号，把剪接体偏向某一方。例如，同一个抗体基因，可以这样剪接以把抗体锚定在免疫细胞表面，又那样剪接以放出一个游离、被分泌到血液中的版本：同一个基因，两种职能，就在剪接这一步决定。

为什么细菌跳过这一切

一个诚实的对照把整篇串起来。这条精细的编辑流水线基本上是真核生物的事。细菌没有细胞核，因此没有一堵需要把信息摆渡过去的墙——它的核糖体可以一边转录还在进行，就一边抓住 RNA 开始造蛋白质，两个过程并排发生。细菌的基因通常也没有内含子，所以几乎没什么可剪的。没有核外运这一步，几乎没有剪接：细菌的草稿在生成的那一刻就已经接近可用了。

所以你刚学到的这套编辑并不是放之四海皆准的日常杂务；它是身为真核生物所付出的代价——也是所拥有的力量——的一部分。基因组周围的那堵墙制造了一个递送难题，而解决它（加帽、加尾、外运）顺带成了一个编辑、调控与多样化（剪接、可变剪接）的机会。这一切的成品，是一条干净的、加了帽、加了尾、剪接好的信使 RNA，获准外运、随时可读。读它——把它那些三字母的词变成一串氨基酸——就是翻译，是中心法则的后半程，也是下一级的主题。