遗传密码：读取密码子

四个字母的“字母表”，二十个字母的“语言”

在上一级的末尾，我们得到了一条已经完工、也编辑好的信使 RNA——它是某个基因的一条单链拷贝，用 A、C、G、U 这四个 RNA 字母写成。如今这条信息必须被变成一条蛋白质，而蛋白质是用一套完全不同的字母表写就的：一条由氨基酸串起来的链，氨基酸取自一个共二十种的集合。于是细胞面对的，是一个最名副其实的“翻译”问题。它必须把一段用四个字母写成的文本，转换成一段用二十个字母写成的文本。怎么转？

把可能性数一数，答案几乎自己就蹦出来了。如果细胞一次只读一个字母，四个字母最多只能命名四种氨基酸——远远不够。一次读两个字母能给出十六种组合（四乘以四），离二十还差一截。可一次读三个字母，就能给出六十四种组合（四乘四乘四）——绰绰有余。生命最终选定的正是这一种。信息是以互不重叠、三个一组的方式被读取的，每一个这样的三联体就叫做一个密码子。一个密码子，就是遗传密码里最基本的“单词”。

阅读框：从哪里起读，会改变一切

三联体这个想法之所以微妙，关键就在这里。mRNA 并不会在密码子之间自带空格。它只是一长串字母，就像一句完全没有间隔写出来的话：一句话写得字字相连没有空格。所以你*从哪里*开始把字母三个三个地分组——也就是阅读框——会彻底改变这条信息说的是什么。哪怕只把起点挪动一个字母，下游的每一个密码子都会被重新划成另一个完全不同的单词。

mRNA letters:  A U G C C U A C G G G A U A A

frame +0:     AUG CCU ACG GGA UAA   -> Met-Pro-Thr-Gly-STOP
frame +1:     A UGC CUA CGG GAU AA  -> (garbage, different words)
frame +2:     AU GCC UAC GGG AUA A  -> (garbage, different words)

同一串字母，存在三种可能的阅读框。其中只有一种能拼出本来要表达的蛋白质；细胞必须锁定那个正确的起点。

正因如此，接下来的两个概念——一个固定的起始密码子，以及几个明确的终止密码子——绝不是什么可有可无的“收尾杂务”。它们正是把阅读框钉死在原位的东西。要是没有一个约定好的起点，细胞就无从知道三种框里哪一种才是真正的信息，同一串字母也就能被读成三种不同（而且大多毫无意义）的样子。

起始、终止，以及一个基因的“标点”

读取几乎总是从一个特殊的密码子开始：AUG。这就是起始密码子，它身兼两职。它一方面设定阅读框——告诉核糖体“就从这里开始三个三个地数”——另一方面它本身也编码一种氨基酸，即甲硫氨酸。所以几乎每一条新合成的蛋白质都以一个甲硫氨酸开头（之后细胞往往会把它修掉）。正是这一个 AUG，化解了上一节里整个阅读框的难题，成了那个“定锚”。

读取在三个密码子中的任何一个处结束——UAA、UAG 和 UGA——它们合称终止密码子。它们与其余所有密码子都不一样：它们不命名任何氨基酸。根本就没有任何一种 tRNA 能与它们匹配。当读取机器走到一个终止密码子时，没有氨基酸可以被送来，蛋白质链便被释放，翻译随之停止。所以终止密码子就像一句话末尾的句号——它本身不携带任何“字母”，只是标出结尾。

请留意这是如何把六十四个密码子分配出去的。其中一个（AUG）是起始，三个是终止，剩下的六十个全都用来命名氨基酸。六十个密码子去分担区区二十种氨基酸的活儿——这种“供大于求”的不对称，正是下一个重要概念，也正是这套密码如此稳健的原因所在。

简并性与摆动：为什么是六十一对二十

六十一个密码子（六十四个减去三个终止密码子）去对应二十种氨基酸，所以大多数氨基酸都由不止一个密码子命名。比如氨基酸亮氨酸有六个不同的密码子；而甲硫氨酸和色氨酸则各只有一个。这种“一种氨基酸对应多个密码子”的特性，叫做简并性（又称冗余）。它不是马虎，而是一项特性。因为那些“多出来”的密码子通常只在*第三个*字母上不同，所以最后这一位上的一个笔误，往往拼出来仍是同一种氨基酸，于是蛋白质毫发无损。这套密码自带一个针对微小复制错误的“减震器”。

在“如何读取”这一点上，还藏着一个巧妙的机关。每一种氨基酸都由一种转运 RNA 送来，它那三个字母的反密码子与密码子配对。你或许会以为细胞会备齐六十一种不同的 tRNA，给每一个编码密码子各配一种——可它并不这么做。在密码子第三位上的配对是松动的：单单一种 tRNA 就能识别好几个仅在最后那个字母上有别的密码子。弗朗西斯·克里克把这种“松动”称为摆动假说。正因如此，细胞用远少于密码子数目的 tRNA 就能蒙混过关，而这又与我们刚见过的简并性严丝合缝地呼应——无论是在密码本里，还是在读取它的过程中，第三个字母都是那个最“宽容”的位置。

几乎所有生命，都共用一本密码本

现在要讲的这部分，理应让你真正停下来怔一怔。密码子与氨基酸之间的对应关系——AUG 代表甲硫氨酸、UUU 代表苯丙氨酸，等等——在一个细菌、一棵红杉、一株蘑菇和你身上，几乎是一模一样的。我们称这套密码近乎通用。这个“近乎”很要紧，待会儿我们会回头说它，但请先在这个核心事实上停留片刻：一本共用的密码本，贯穿了几乎整个生命世界。

为什么这件事令人惊叹？因为化学上并没有任何东西*强迫* AUG 必须代表甲硫氨酸。密码子与氨基酸的配对，更像是一种约定俗成，而不是一条物理定律——换成许许多多别的密码本，本来也照样行得通。所以，生命的每一个分支都在使用*同一套*这种任意的约定，这是“所有生命都源自同一个共同祖先”这一论断最有力的单条线索。这套密码在很久以前就被定死在一个共同的祖先细胞里，随后又被如此深地烙进了生命运转的方式之中，以至于一旦改动它，就会同时把每一条蛋白质都搅乱——这代价太大，永远划不来去推翻。这正是当初我们头一回比较细菌、古菌与真核生物时，你所接触到的“共同祖先”这一观念在分子层面上的回响。

现在来诚实地说说那个“近乎”。这套密码并不是完美通用的。少数几种生物，以及更常见的、我们自己细胞里的线粒体，都有几个被重新指派过的密码子——比如，一个在标准密码里意思是“终止”的密码子，在人类线粒体里却被读作一种氨基酸。这些例外既稀少又微小，而它们恰恰正是我们对一套共享密码所应有的预期：它偶尔会在某个与世隔绝的角落里发生漂变。它们并不推翻通用性；反而印证了这套密码是有一段历史的。（而正是这种通用性，使基因工程成为可能：一个被放进细菌里的人类基因能被正确读取，就因为这只细菌用的是同一本密码本。）

把它串起来

退后一步看，遗传密码不过是一张带着几条“语法规则”的查找表。如今我们已经把那些规则一一讲清——三个一组地读、在一个固定的框里读、从起始读到终止、以简并性作为安全网，还有一本近乎通用、为几乎所有生命所共享的密码本。这就把整个故事中关于*信息*的那一半补全了：我们现在能确切地说出，一条 mRNA *意味着*什么。我们还没见到的，是那台真正动手去读它的机器。

那台机器就是核糖体，而它一个密码子接一个密码子地读取，正是中心法则的后半程——也就是真正意义上的翻译。在下一篇里，我们将看着核糖体锁定一个起始密码子、一次一个密码子地拉入与之匹配的 tRNA，再把它们携带的氨基酸缝合成一条不断增长的链。本篇里的一切都是那本规则手册；接下来要做的，是把它朗读出来。