逼出一套密码的那个数目落差
来到这一级时,你手里已经握着故事的两端。从转录那一级你知道,一个基因如何变成一条 RNA 链,只用四个字母写成——A、C、G、U。从蛋白质那一级你知道,一条造好的蛋白质是一串氨基酸,取自二十种的调色盘。界定这一级的问题,正是连接两者的那座桥:一份用四字母表写就的讯息,怎么给二十种不同的东西命名?答案就是[[molbio-genetic-code|遗传密码]]——细胞从 RNA 到蛋白质的那张查找表。
把可能性数一数,这个设计几乎自己就浮现出来。若一个 RNA 字母只命名一种氨基酸,你最多拼出 4 种——远远不够。两两成对地读,给出 4 × 4 = 16 种,仍不足二十。可一次读三个,便给出 4 × 4 × 4 = 64 种组合,绰绰有余。于是密码以三个一组来读讯息。每个三字母的组合就是一个[[molbio-codon|密码子]],而一个密码子命名一种氨基酸。AUG、GCA、UUU——每个三联体都是蛋白质语言里的一个单词。
六十四个密码子对应二十种氨基酸,余量很慷慨,而密码以两种方式花掉它。六十四个中有三个被留作终止信号——相当于句号,宣告“蛋白质到此结束”;另有一个密码子 AUG 身兼二职,既是起始信号,又是甲硫氨酸这种氨基酸的密码子。其余六十一个全都命名氨基酸。二十种氨基酸分摊六十一个密码子,于是大多数氨基酸各自不止一个密码子。这份余量并非浪费;你将看到,它正是密码静悄悄的安全设计之一。
怎么查这本字典
按惯例,这本字典是为信使 RNA 写的,按 5' 到 3' 方向读取——也正是核糖体将要行进的方向。细胞用的头一个密码子几乎总是[[molbio-start-codon|AUG]],它定下读取从何处开始,并贡献蛋白质的第一个氨基酸(甲硫氨酸)。从那里起,细胞每次跨过三个字母,一个接一个地查密码子,直到撞上三个[[molbio-stop-codon|终止密码子]]之一——UAA、UAG 或 UGA——它们一概不命名任何氨基酸。链就在那里完工并被释放。
mRNA 5'- A U G G C A A A A U U U U A A -3'
Met Ala Lys Phe STOP
| | | | |
start stop (no amino acid)
reading frame = where you start cutting into triplets
same letters, frame shifted by 1:
...A U G G C A A A A U U U U A A... -> different protein值得停下来想想密码是什么、不是什么。它是一张纯粹的查找表——UUU 永远意味着苯丙氨酸,在你的肝里、在一根香蕉里、在一种土壤细菌里都一样。它在单词之间不带标点:没有逗号标出密码子的边界,于是唯一让三联体保持对齐的,就是读取最初从哪里开始。而且它只朝一个固定方向读。这一级里其余的一切——你接下来要认识的接头分子 tRNA,以及托住讯息的核糖体——存在的意义,就是把这张表一个密码子一个密码子地物理执行出来。
多出来的单词:简并性与摆动
由于六十一个密码子分担着给二十种氨基酸命名的活,几乎每种氨基酸都由若干个不同的密码子拼写。亮氨酸有六个密码子,丙氨酸有四个,只有甲硫氨酸和色氨酸各自恰好一个。这种“多密码子对应一种氨基酸”的性质叫做[[code-degeneracy|简并性]](或冗余)。要紧的是,简并并不让密码变得含糊:任何一个密码子仍然恰好只表示一种氨基酸。它是单向的发散——多种拼写,一个含义——绝不是一个词有两个意思。
细看会发现,这份冗余并不随机——它集中在第三个字母上。同一种氨基酸的密码子,通常头两位一致,只在第三位不同:GCU、GCC、GCA、GCG 全都表示丙氨酸。弗朗西斯·克里克用[[wobble-hypothesis|摆动假说]]解释了原因。tRNA 接头通过把自己三字母的反密码子与密码子配对来读取密码子,但第三位上的配对很松——它会“摆动”——于是单个 tRNA 就能识别好几个仅在该位不同的密码子。这正是为何细胞读完全部六十一个有义密码子,所需的 tRNA 远少于六十一种。
这本字典是怎么被破译的
这一切在 1960 年并非显而易见。研究者确信存在一套密码,却全然不知哪个三联体对应什么。突破来自马歇尔·尼伦伯格与海因里希·马特伊,他们给一份无细胞的造蛋白质混合物喂入一种全由单一字母构成的人工 RNA——poly-U,也就是 ……UUUUU……这份混合物造出了一条全由苯丙氨酸构成的蛋白质。UUU 意味着苯丙氨酸:字典里的第一个单词,靠实验读出,而非靠猜。
另外两项进展补齐了其余部分。尼伦伯格与菲利普·莱德设计出一个巧招:让一段段短而确定的三字母 RNA 各自只钩住与之匹配的那个 tRNA,使他们得以一个一个地指派密码子。而哈尔·戈宾德·科拉纳学会了用化学方法合成具有精确重复模式的 RNA——UCUCUC……、AAGAAGAAG……——其蛋白质产物钉牢了那些含义取决于阅读框的密码子。两路并进,到 1966 年,六十四个密码子全都有了含义。尼伦伯格与科拉纳因此共享了 1968 年诺贝尔奖。
阅读框,以及为何区区一个碱基也举足轻重
既然密码不带逗号,那么你从哪里开始把讯息切成三联体,就是一切。那个起始偏移量就是[[molbio-reading-frame|阅读框]]。同一串字母可以按三种不同的框来读,取决于你是从第一、第二还是第三个碱基起读,而每一种框都产出一套截然不同的密码子序列。想想英文串 THEFATCATATEABIGRAT:从头分组读作 THE FAT CAT,可往后挪一个字母再起,就成了乱码——HEF ATC ATA。字母从未改变,改变的只是分组。
这正是为何插入或删除一个碱基,要比替换一个严重得多。在基因中段添加或去掉单单一个字母,会把下游每一个密码子整体挪移一位——即[[molbio-reading-frame|移码]]——于是从那一点起,核糖体读到的是一串错位、互不相关的密码子,并几乎总会绊到一个提前出现的终止密码子,把蛋白质截断成一堆废话。回接到突变那一级:移码通常远比点替换更具破坏性,恰恰因为它毁掉的不是一个单词,而是整句话的其余全部。(删除或添加三个碱基则温和些——它去掉或插入整整一个密码子,而让阅读框保持完好。)