JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

遗传密码:读取密码子

细胞此刻手里攥着一条已经完工的 RNA 信息——可一套只有四个字母的“字母表”,怎么拼得出一条用二十种字母写成的蛋白质?我们来破译遗传密码:字母是如何三个一组被读取的、读取从哪里开始、又在哪里停下,以及为什么地球上几乎所有生物都用着同一本密码本。

四个字母的“字母表”,二十个字母的“语言”

在上一级的末尾,我们得到了一条已经完工、也编辑好的 信使 RNA——它是某个基因的一条单链拷贝,用 A、C、G、U 这四个 RNA 字母写成。如今这条信息必须被变成一条蛋白质,而蛋白质是用一套完全不同的字母表写就的:一条由 氨基酸串起来的链,氨基酸取自一个共二十种的集合。于是细胞面对的,是一个最名副其实的“翻译”问题。它必须把一段用四个字母写成的文本,转换成一段用二十个字母写成的文本。怎么转?

把可能性数一数,答案几乎自己就蹦出来了。如果细胞一次只读一个字母,四个字母最多只能命名四种氨基酸——远远不够。一次读两个字母能给出十六种组合(四乘以四),离二十还差一截。可一次读三个字母,就能给出六十四种组合(四乘四乘四)——绰绰有余。生命最终选定的正是这一种。信息是以互不重叠、三个一组的方式被读取的,每一个这样的三联体就叫做一个密码子。一个 密码子,就是遗传密码里最基本的“单词”。

阅读框:从哪里起读,会改变一切

三联体这个想法之所以微妙,关键就在这里。mRNA 并不会在密码子之间自带空格。它只是一长串字母,就像一句完全没有间隔写出来的话:一句话写得字字相连没有空格。所以你*从哪里*开始把字母三个三个地分组——也就是阅读框——会彻底改变这条信息说的是什么。哪怕只把起点挪动一个字母,下游的每一个密码子都会被重新划成另一个完全不同的单词。

mRNA letters:  A U G C C U A C G G G A U A A

frame +0:     AUG CCU ACG GGA UAA   -> Met-Pro-Thr-Gly-STOP
frame +1:     A UGC CUA CGG GAU AA  -> (garbage, different words)
frame +2:     AU GCC UAC GGG AUA A  -> (garbage, different words)
同一串字母,存在三种可能的阅读框。其中只有一种能拼出本来要表达的蛋白质;细胞必须锁定那个正确的起点。

正因如此,接下来的两个概念——一个固定的起始密码子,以及几个明确的终止密码子——绝不是什么可有可无的“收尾杂务”。它们正是把阅读框钉死在原位的东西。要是没有一个约定好的起点,细胞就无从知道三种框里哪一种才是真正的信息,同一串字母也就能被读成三种不同(而且大多毫无意义)的样子。

起始、终止,以及一个基因的“标点”

读取几乎总是从一个特殊的密码子开始:AUG。这就是起始密码子,它身兼两职。它一方面设定阅读框——告诉核糖体“就从这里开始三个三个地数”——另一方面它本身也编码一种氨基酸,即甲硫氨酸。所以几乎每一条新合成的蛋白质都以一个甲硫氨酸开头(之后细胞往往会把它修掉)。正是这一个 AUG,化解了上一节里整个阅读框的难题,成了那个“定锚”。

读取在三个密码子中的任何一个处结束——UAA、UAG 和 UGA——它们合称终止密码子。它们与其余所有密码子都不一样:它们不命名任何氨基酸。根本就没有任何一种 tRNA 能与它们匹配。当读取机器走到一个终止密码子时,没有氨基酸可以被送来,蛋白质链便被释放,翻译随之停止。所以终止密码子就像一句话末尾的句号——它本身不携带任何“字母”,只是标出结尾。

请留意这是如何把六十四个密码子分配出去的。其中一个(AUG)是起始,三个是终止,剩下的六十个全都用来命名氨基酸。六十个密码子去分担区区二十种氨基酸的活儿——这种“供大于求”的不对称,正是下一个重要概念,也正是这套密码如此稳健的原因所在。

简并性与摆动:为什么是六十一对二十

六十一个密码子(六十四个减去三个终止密码子)去对应二十种氨基酸,所以大多数氨基酸都由不止一个密码子命名。比如氨基酸亮氨酸有六个不同的密码子;而甲硫氨酸和色氨酸则各只有一个。这种“一种氨基酸对应多个密码子”的特性,叫做简并性(又称冗余)。它不是马虎,而是一项特性。因为那些“多出来”的密码子通常只在*第三个*字母上不同,所以最后这一位上的一个笔误,往往拼出来仍是同一种氨基酸,于是蛋白质毫发无损。这套密码自带一个针对微小复制错误的“减震器”。

在“如何读取”这一点上,还藏着一个巧妙的机关。每一种氨基酸都由一种转运 RNA 送来,它那三个字母的反密码子与密码子配对。你或许会以为细胞会备齐六十一种不同的 tRNA,给每一个编码密码子各配一种——可它并不这么做。在密码子第三位上的配对是松动的:单单一种 tRNA 就能识别好几个仅在最后那个字母上有别的密码子。弗朗西斯·克里克把这种“松动”称为摆动假说。正因如此,细胞用远少于密码子数目的 tRNA 就能蒙混过关,而这又与我们刚见过的简并性严丝合缝地呼应——无论是在密码本里,还是在读取它的过程中,第三个字母都是那个最“宽容”的位置。

几乎所有生命,都共用一本密码本

现在要讲的这部分,理应让你真正停下来怔一怔。密码子与氨基酸之间的对应关系——AUG 代表甲硫氨酸、UUU 代表苯丙氨酸,等等——在一个细菌、一棵红杉、一株蘑菇和你身上,几乎是一模一样的。我们称这套密码近乎通用。这个“近乎”很要紧,待会儿我们会回头说它,但请先在这个核心事实上停留片刻:一本共用的密码本,贯穿了几乎整个生命世界。

为什么这件事令人惊叹?因为化学上并没有任何东西*强迫* AUG 必须代表甲硫氨酸。密码子与氨基酸的配对,更像是一种约定俗成,而不是一条物理定律——换成许许多多别的密码本,本来也照样行得通。所以,生命的每一个分支都在使用*同一套*这种任意的约定,这是“所有生命都源自同一个共同祖先”这一论断最有力的单条线索。这套密码在很久以前就被定死在一个共同的祖先细胞里,随后又被如此深地烙进了生命运转的方式之中,以至于一旦改动它,就会同时把每一条蛋白质都搅乱——这代价太大,永远划不来去推翻。这正是当初我们头一回比较细菌、古菌与真核生物时,你所接触到的“共同祖先”这一观念在分子层面上的回响。

现在来诚实地说说那个“近乎”。这套密码并不是完美通用的。少数几种生物,以及更常见的、我们自己细胞里的线粒体,都有几个被重新指派过的密码子——比如,一个在标准密码里意思是“终止”的密码子,在人类线粒体里却被读作一种氨基酸。这些例外既稀少又微小,而它们恰恰正是我们对一套共享密码所应有的预期:它偶尔会在某个与世隔绝的角落里发生漂变。它们并不推翻通用性;反而印证了这套密码是有一段历史的。(而正是这种通用性,使基因工程成为可能:一个被放进细菌里的人类基因能被正确读取,就因为这只细菌用的是同一本密码本。)

把它串起来

退后一步看,遗传密码不过是一张带着几条“语法规则”的查找表。如今我们已经把那些规则一一讲清——三个一组地读、在一个固定的框里读、从起始读到终止、以简并性作为安全网,还有一本近乎通用、为几乎所有生命所共享的密码本。这就把整个故事中关于*信息*的那一半补全了:我们现在能确切地说出,一条 mRNA *意味着*什么。我们还没见到的,是那台真正动手去读它的机器。

那台机器就是核糖体,而它一个密码子接一个密码子地读取,正是中心法则的后半程——也就是真正意义上的翻译。在下一篇里,我们将看着核糖体锁定一个起始密码子、一次一个密码子地拉入与之匹配的 tRNA,再把它们携带的氨基酸缝合成一条不断增长的链。本篇里的一切都是那本规则手册;接下来要做的,是把它朗读出来。