JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

剪接体与可变剪接

真核基因的编码信息被内含子打断,必须精确到单个碱基地剪除。来认识剪接体——一台主要由 RNA 搭成的机器——并看看把同样的外显子以不同方式拼接,如何让一个基因造出多种蛋白质,悄然让“一个基因,一种蛋白质”这句老口号退场。

问题所在:一条被打断的信息

上一篇里,你看着一条真核转录本在细胞核中、在 前体 mRNA 加工过程中接受了三处大的编辑——前端扣上一顶帽子、后端加上一条多聚 A 尾、中段则把内含子剪除。本篇要打开第三处编辑,也是最戏剧性的一处,并追问:细胞如何以精确到单个字母的准头把它完成。完成此事的那台机器——[[molbio-spliceosome|剪接体]]——原来是整个分子生物学里最奇特、也最具启发性的装置之一。

回想基因组那一级里真核基因的布局:它的编码信息并非一气呵成的连续段落,而是被切成一块块。被保留、最终进入成熟信息的那些块,是外显子(想成“被表达的”,expressed);夹在它们之间、被转录却随即丢弃的那些块,是内含子(想成“居间插入的”,intervening)。你能在基因的外显子-内含子组织里看到它们——外显子、内含子、外显子、内含子,如此往复。整个基因连同内含子一起,被抄成前体 mRNA。于是这条原始转录本读起来,就像一句话里、在真正的词与词之间塞进了一长串胡言乱语。

两个数字让这个尺度变得鲜活。在一个典型的人类基因里,内含子通常远比外显子长——一个基因可以横跨几万个 DNA 碱基,可一旦去掉内含子,造出的成熟 mRNA 却只有区区两三千个碱基。而且这刀必须*恰好*落在正确的字母之间:哪怕错一个碱基,都会移动阅读框,从那一点起核糖体读到的便是彻头彻尾的乱码。所以这项任务并非只是“去掉内含子”——而是每一次都要以单核苷酸的精度、按正确的顺序,把每一个内含子剪掉。

标明在哪里下刀的三处记号

在几万个字母当中,机器怎么知道一个内含子从哪里开始、到哪里结束?它读三处短小的路标——几乎每个内含子都带着的两个[[splice-sites-and-branch-point|剪接位点]]与一个分支点。几乎每个内含子的前端都以碱基 GU 起头(5' 剪接位点,即供体),后端都以 AG 收尾(3' 剪接位点,即受体)。这就是 GU-AG 规则。在 3' 端再往前一点的位置,坐着分支点:一个特定的腺嘌呤(A),它将充当一个铰链。这三处记号合起来,等于在说:“内含子从这里开始,枢轴在这里,内含子到这里结束。”

  exon 1            INTRON  ( cut me out )              exon 2
5'...---[ A G | G U ........ A ........ A G ]| C C ---...3'
              ^5' site      ^branch    ^3' site
              (GU donor)    point A    (AG acceptor)

  the spliceosome joins exon 1 --- exon 2 and frees the intron
一个一般的内含子:以 GU 开头,以 AG 收尾,并在近 3' 端处带一个分支点 A。剪接体在两个 | 处下刀,并把两侧的外显子连接起来。

正是这些路标让剪接得以精确——也正是它们让剪接变得脆弱。一个破坏掉某个 GU 或 AG 的单点突变,或是一个在外显子内部意外造出*新* GU 或 AG 的突变,都可能让机器在错误的位置下刀、毁掉蛋白质。这类剪接位点突变,是遗传病一个重要、却常被忽视的成因:一个远离任何编码字母的碱基改变,仍可能仅仅因为破坏了剪接方式而毁掉一个基因。这也是一个诚实的理由,说明只盯着编码字母看的老习惯,会漏掉真正致病的改变。

剪接体:一台主要由 RNA 造成的机器

意外就在这里。你也许以为这刀该由蛋白质酶来下——毕竟细胞里大多数化学反应都是蛋白质干的。但剪接体主要由小核 RNA搭成,那是一些短小的 RNA 分子(叫做 U1、U2、U4、U5、U6),每一条都裹着一组蛋白质,组成一个叫 snRNP(“小核核糖核蛋白”,读作“斯纳普”)的颗粒。几个 snRNP 按既定顺序组装到内含子上;而关键在于,是这些 *RNA*——不是蛋白质——靠碱基配对去识别剪接位点,并坐镇于化学反应发生的催化中心。蛋白质是脚手架和帮手;真正干活的核心,是 RNA。

把这次组装看成一连串“识别”。U1 最先到来,与 5' 端的 GU 位点配对,标出内含子的前端。接着 U2 与分支点配对,刻意把那个特殊的分支 A 鼓向外侧,使它具反应性的“手臂”露出来、随时待命。一个预先组好的三件套——U4/U6 加 U5 颗粒——前来加入,把内含子的两端拉到一起;随后一次剧烈的重排把 U1 和 U4 甩出去,U6 接管前端,而 U5 把两个外显子的末端对齐扶稳。只有在这番重新洗牌之后,那个由 U6 与 U2 的 RNA 构成的催化中心,才被启动。这台机器不是一把静止的剪刀;它在每一个内含子上都重新把自己搭起来,核对记号,然后才下定决心动刀。

两刀与一个套索:化学是怎么发生的

组装完成后,剪接体只用两步化学反应就把内含子去掉——而让它精确的诀窍在于:这两步是*同一种*反应,即由 RNA 的某一部分去攻击另一部分、交换原子之间的键。跟着这两步走,那个著名的环——套索(lariat,得名于牛仔的套索绳)——便会从几何关系里自然现身。

  1. 第一刀。分支点 A 有一条自由的化学“手臂”(它的 2'-OH),剪接体早已让它对准内含子的前端。这条手臂攻击 5' 端的 GU 位点,把那里的链一刀切断。被切下的内含子前端并不飘走——它反过来接到内含子中段的分支点 A 上,把内含子扭成一个带着拖尾的闭合环。这个“带尾的环”就是套索。
  2. 第二刀。把前端切松之后,外显子 1 自己也多出一个自由端。这个端如今摆过去,攻击 3' 端的 AG 位点,也就是内含子的尾巴。这第二刀把内含子彻底释放——仍是套索的形状——并在同一个动作里,把两个外显子首尾相接、不留缝隙地连上。阅读框被一字不差地保住了。
  3. 收尾。被释放的套索被解开(去分支)成一条直链,随即被降解,其核苷酸得到回收。剪接体的各个 snRNP 拆散开来,到下一个内含子那里重新使用。少了一个内含子的成熟 mRNA,则继续往前走。

退一步看刚刚发生了什么:整件活儿都由 RNA 剪接完成——是 RNA 识别 RNA、RNA 催化那两刀。没有靠水去盲目地砍断链条;细胞反而是在一次受控的交换里重用自己的键,正因如此,刀口才恰好落在正确的字母之间、从不差一个碱基。套索并不是失误或残渣——它正是那次分支点攻击留下的直接指纹,是第一刀如何下成的可见证据。

可变剪接:一个基因,多种蛋白质

现在来看回报,也是这之所以是整个领域最重要的观念之一的缘由。没有任何东西强迫细胞每一次都保留每一个外显子。通过选择跳过某个外显子、或纳入一个额外的外显子、或改用另一个剪接位点,剪接体就能从*同一条*前体 mRNA 出发,把*同一套*外显子以*不同*的组合拼接起来。每一种组合都是一条不同的成熟 mRNA,于是就是一种不同的蛋白质。这就是[[molbio-alternative-splicing|可变剪接]];在人类身上,它是常态而非例外:我们绝大多数的多外显子基因,都不止以一种方式被剪接。

把外显子想成一组编号为 1、2、3、4、5 的乐高积木。某种细胞也许搭出 1-2-3-4-5 这条信息;另一种细胞也许跳过第 3 块、搭成 1-2-4-5;第三种细胞也许保留第 2 块的另一个版本。身体一直在这样做。一个肌肉细胞和一个脑细胞可以运行同一个基因,却各自造出微妙不同、各得其所的蛋白质;而一个著名的、参与构建神经系统接线的果蝇基因,从单单一段 DNA 出发,原则上可以被剪接出数以万计互不相同的蛋白质。同一个基因;不同的剪刀活儿;不同的产物。

是什么决定一个细胞造哪一个版本?调控蛋白会结合在剪接位点附近,要么诱导某个 snRNP 去使用一个位点(增强它),要么把那个位点藏起来(沉默它)。由于这些调控因子在不同细胞之间各不相同、又随细胞的状态而变,剪接便成了基因表达之上的又一层控制——不只控制一个基因*是否*被读取,更控制它的蛋白质以*哪种形式*出现。细胞甚至把剪接接到自己的质量控制上:故意剪进一个提前的终止密码子,就给这条信息打上无义介导降解的标记,从而把这个基因的产出调低。一言以蔽之,剪接绝非单纯的整理——它是细胞所做的一项决定。

为何重要:“一个基因,一种蛋白质”之死

在基因组被测序之前,生物学家揣着一句利落的口号:一个基因,一种蛋白质。随后来了一记真切的震撼。人类基因组计划发现,我们只有大约两万个编码蛋白质的基因——比一条小小的线虫多不了多少,甚至比某些植物还少。人们本以为要有大得多的数目,才能解释一个人。可变剪接是这道谜底的重要一环:数目不多的基因,每一个都可被剪接成若干种蛋白质,就能指定一个比基因数目大上数倍的蛋白质组。那句口号干脆就是错的。诚实的版本是:一个基因,*往往是多种蛋白质*。

这也化解了一种更老的偏见。那些不惜代价被丢弃的内含子,曾被斥为浪费、甚至“垃圾”——可恰恰是内含子的存在,才使可变剪接成为可能;而把基因切成一块块模块化外显子,才让演化得以混搭功能部件。这后一个想法——[[exon-shuffling|外显子洗牌]]——是真实而有力的:由于外显子常常对应于紧凑的蛋白质结构域,把一个外显子从某个基因挪进另一个基因,就能一步之内给一个蛋白质添上一整个全新的工作模块。所以,一种看似杂乱而浪费的布局,细读之下,竟是多样性的发生器。