一份草稿,而非成品信息
在上一篇里,你看着转录跑了一遍:一种酶沿着基因爬行,一个字母一个字母地拼出一条崭新的 RNA 链。人很容易以为活儿干完了——基因都抄好了,细胞当然可以直接读它、造出蛋白质。在细菌里,这几乎成立。但你不是细菌,在你的细胞里,那条新链离“可用”还差得远。从基因上滚下来的,是一份未经编辑的原始草稿,叫做 pre-mRNA——一条初级转录本,任何核糖体都绝不会被允许照原样去读它。
为什么要这么多周折?有两个原因,而且都绕回到你在前面一级里遇到过的那堵墙:细胞核。在真核生物里,转录在细胞核内进行,造蛋白质却在核外、在细胞质里进行。于是这条信息必须熬过一段旅程——穿过核孔出去,再穿越一个挤满了会啃食散落 RNA 的酶的繁忙细胞。一份赤裸裸的草稿还没到达就会被切碎。除此之外,基因本身写得很乱,有用的文字被一长段一长段必须剪掉的填充物打断。给草稿做编辑,一举解决了这两个问题。
于是细胞让这份草稿走上一条编辑流水线。三道编辑把原始的 pre-mRNA 变成一条成品的、可外运的信使 RNA——前端一顶保护性的帽、后端一条保护性的尾,以及中段一次精确的剪切与粘接。本篇就按顺序走一遍这三道工序,并以那个让整套机器值回票价的回报收尾:一个基因悄悄造出好几种不同的蛋白质。
封住两端:帽与尾
想象寄一份易损的文件。在它离手之前,你会封住前端,让什么都咬不进去,也让收件人知道该从哪里开始。这就是 5′ 帽:一个特殊的、经过修饰的核苷酸,被装到转录本最前端(5′ 端)上。它装得出奇地早——转录还在进行时,几乎是 RNA 的前端刚从聚合酶里探出来就装上了。这顶帽三重地发挥价值:它保护前端免遭啃食 RNA 的酶,它充当细胞抓着把 RNA 经核孔运出去的“把手”,它还是核糖体随后寻找的对接信号,好知道该从哪里开始读。
后端也有它自己的保护:poly-A 尾,一长串单一的 RNA 字母——腺嘌呤 A——常常一两百个 A 连成一排,接在 3′(后)端上。这里有个意外:这些 A *不是*从基因上抄来的。在转录本接近末尾处,细胞认出一段信号序列,在那里把 RNA 切断,再由一种专门的酶事后简单地接上那串 A。随后一些特殊蛋白包裹这条尾巴,而真正干活的是这层蛋白外衣——不是那些光秃秃的 A。一条又长又包裹良好的尾巴意味着一份稳定、会被读很多次的信息;随着尾巴在信息的一生中被慢慢啃短,这条 mRNA 便漂向被销毁。这条尾巴实际上是一根缓慢燃烧的引信——一个细胞可以设定的有效期计时器。
剪接:剪掉填充物
现在轮到那场轰轰烈烈的编辑了,发生在中段的那一道。回想一下基因组那篇里的意外:在你的 DNA 中,真正编码蛋白质的只是薄薄一条,而单个基因里编码的部分甚至不是连续的。在一个真核基因内部,有意义的编码片段被切碎,被一长段一长段的填充物隔开。想象一段录下来的演讲,讲者在精彩句子之间不停地东拉西扯。为得到干净的版本,编辑剪掉每一段跑题的内容,再把精彩的句子按顺序粘接回去。这种剪辑就叫剪接。
这两类片段各有名字,还配得上一个小小的助记。外显子(exon)是被“表达”(EXpressed)出来的片段——它们留在最终信息里。内含子(intron)是“居间”(INtervening)的片段——夹在外显子之间、会被移除的填充物。一条崭新的 pre-mRNA 两者兼有,沿其长度交替排列;剪接剪除每一个内含子,把外显子首尾相接封合起来,留下一条连续的编码信息。所需的精度令人咋舌:剪切必须精确到单个字母,因为哪怕错一个,下游的每一个词都会移位,把整个蛋白质搅得一团乱。
pre-mRNA (raw draft, straight off the gene):
cap-[ exon1 ]--intronA--[ exon2 ]----intronB----[ exon3 ]-AAAA...
| (cut) | (cut) |
+------------------>+--------------------->+
exons joined, introns dropped
mature mRNA (ready to export and read):
cap-[ exon1 ][ exon2 ][ exon3 ]-AAAA...在往下走之前,先说两点诚实的提醒。其一,“外显子”并不等于“编码蛋白质”——外显子也包括 mRNA 两端不被翻译的片段,所以外显子只是一段在剪接中幸存下来的片段,未必是编码蛋白质的。其二,内含子并非纯粹该被丢弃遗忘的垃圾:有些携带调控信号,而正是“能把它们剪掉、再把外显子重接起来”这一能力,恰恰解锁了下一节里的把戏。
剪接体:一台由 RNA 驱动的剪切—粘接机器
以单字母的精度、在数以万计的不同基因上、重复数百万次地剪切——细胞不会把这事交给运气。它动用一台庞大的、能自我组装的机器,叫做剪接体。让它与众不同的转折在于:剪接体并不像细胞里大多数机器那样主要由蛋白质构成。它的核心工作部件是一些小 RNA 分子(与蛋白质一起包装成绰号叫“snurp”的单元)。是 RNA 在负责识别——甚至负责剪切与连接的那道化学反应。
- 在每个内含子上,剪接体现场组装,由它的 RNA 部件识别那些标出内含子起止位置的“路标”字母。
- 它把内含子折出一个像牛仔套索一样的环,让两侧的外显子靠拢到一起。
- 它把内含子剪下来,再把两个外显子封合(连接)成一条连续的链。
- 它解体并回收部件,准备在下一个内含子上把整套舞步再跳一遍。
剪接体的催化核心是 RNA 而非蛋白质,这是一条真正深刻的线索。一个充当酶的 RNA 分子叫做核酶,它告诉我们:RNA 既能*携带*信息,又能*驱动*化学反应——这正是生命在蛋白质主导之前得以起步所需要的。这同一台机器也常常是故障点:当剪接体或它所读取的信号出错时,外显子会被错误地跳过或保留,后果中就包括真正的人类疾病——某些肌萎缩、某些癌症。诺西那生(nusinersen)等现代药物的起效方式,是促使剪接体保留一个它本会丢弃的关键外显子——修的是*剪辑*,而非基因本身。
一个基因,好几种蛋白质:回报
现在轮到那个让所有这些编辑值回成本的回报了。剪接并非每次都被迫用上每一个外显子。设想同一本说明书,只要选择保留哪几页、跳过哪几页,就能组装成自行车、滑板车或独轮手推车。这正是那一招——可变剪接:从*同一条* pre-mRNA 出发,剪接体可以在一种细胞里保留某些外显子,在另一种细胞里把它们略去,由单个基因产出不止一种成品 mRNA——也就是不止一种蛋白质。这些相关却有别的版本被称为异构体。
这解开了基因组那篇留下的一个悬念。人类只有约两万个编码蛋白质的基因——勉强比一条小小的线虫多一点——可我们造出的蛋白质却多得多、也丰富得多。可变剪接是答案的很大一部分:我们绝大多数含多个外显子的基因都会以不止一种方式剪接,因此基因的*数量*严重低估了蛋白质的数量。这一抉择也并非随机——它是受调控的。细胞用一些特殊蛋白,根据细胞类型、发育阶段或抵达细胞的信号,把剪接体偏向某一方。例如,同一个抗体基因,可以这样剪接以把抗体锚定在免疫细胞表面,又那样剪接以放出一个游离、被分泌到血液中的版本:同一个基因,两种职能,就在剪接这一步决定。
为什么细菌跳过这一切
一个诚实的对照把整篇串起来。这条精细的编辑流水线基本上是真核生物的事。细菌没有细胞核,因此没有一堵需要把信息摆渡过去的墙——它的核糖体可以一边转录还在进行,就一边抓住 RNA 开始造蛋白质,两个过程并排发生。细菌的基因通常也没有内含子,所以几乎没什么可剪的。没有核外运这一步,几乎没有剪接:细菌的草稿在生成的那一刻就已经接近可用了。
所以你刚学到的这套编辑并不是放之四海皆准的日常杂务;它是身为真核生物所付出的代价——也是所拥有的力量——的一部分。基因组周围的那堵墙制造了一个递送难题,而解决它(加帽、加尾、外运)顺带成了一个编辑、调控与多样化(剪接、可变剪接)的机会。这一切的成品,是一条干净的、加了帽、加了尾、剪接好的信使 RNA,获准外运、随时可读。读它——把它那些三字母的词变成一串氨基酸——就是翻译,是中心法则的后半程,也是下一级的主题。