JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

一个基因的结构

一个基因远不止它那串编码蛋白质的字母。让我们沿着 DNA 走一遍,认识启动子、外显子与内含子、不被翻译的两端,以及那些决定它何时开口的远方增强子。

一个基因是一片街区,而不仅仅是一句话

在上一篇里,你认识了作为遗传单位、同时又是一段实体 DNA 的基因,也知道了那个令人泄气的事实:当一个人,只需要大约两万个蛋白质编码基因。现在我们一路放大,沿着其中一段一个碱基一个碱基地走,看看它究竟由什么构成。首先要忘掉的,是“基因不过是拼写出某个蛋白质的那串字母”这种想法。编码蛋白质的部分是标题,但一个真正的基因更像一整片街区:写着蛋白质配方的那栋房子,再加上门铃、门牌、门口附近的开关,以及一些可能位于街道远处、出人意料的开关。

要在这片街区里辨别方向,我们需要一个方位感。回想一下:一条 DNA 链从 5' 端走向 3' 端,就像一条单行道,而两条链是反向平行、彼此朝相反方向延伸的。当转录读取一个基因时,它把其中一条链抄写成 RNA,并沿着新生 RNA 朝 5' 向 3' 的方向前进。按照惯例,我们把基因画成起点在左,并以转录起始的位置为基准来标注坐标:起点之前的一切叫“上游”(负数),起点之后的一切叫“下游”(正数)。记住这张地图;接下来遇到的每个部件,都坐落在它上面某个确定的位置。

沿着一个真核基因从头走到尾

让我们从上游到下游,参观一个典型的真核基因。在基因本体的正前方,是启动子:一段不会被抄进信使、却充当转录发射台的 DNA。它是负责制造 RNA 的机器被招募、被瞄准的地方。许多启动子内部有一个著名的地标——TATA 盒(一段富含 A 与 T 的短序列,比如 TATAAA),它帮助定位起始点。启动子要解决的问题是“这个基因该不该被读取、又该从哪一个碱基开始读”,而它本身并不提供配方里的任何内容。

在转录起始位点,抄写开始,基因其余部分被转录成一条长长的 RNA。但这条 RNA 最前面的一段同样不是蛋白质配方:它是 5' 非翻译区,也就是 5' UTR。核糖体稍后会降落在这里,沿着它扫描,直到抵达起始密码子(DNA 上的三个字母 A-T-G,在 RNA 上是 AUG),蛋白质的搭建才真正开始。可以把 UTR 想成这封信件上的封面附言和地址标签:它携带着关于这条信息该以多高效率、在何处被翻译的信号,但它本身并不属于那个蛋白质。

现在来到真核布局里最奇怪的部分。编码区并不是连续的。它被切成一段段叫作外显子(最终留在信息里的部分)的片段,中间被内含子(会被剪掉的部分)隔开。在人类基因组里,内含子往往远远长于它们所打断的外显子:一个基因可以横跨数千个碱基的 DNA,而其中只有一小部分最终指定蛋白质。正是这种外显子—内含子的组织方式,使得刚刚合成的 RNA 必须先经过编辑才能被读取——这正是后面转录各阶将要详细展开的主题。最后一个外显子之后,是 3' UTR,又一条不被翻译的尾巴,其中某处有一个多聚腺苷酸化信号,告诉细胞在哪里结束这条信息、并接上一条保护性的尾巴。

upstream <----- transcription start (+1) -----> downstream

  [enhancer] .... [PROMOTER] | 5'UTR [EXON1]~intron~[EXON2]~intron~[EXON3] 3'UTR [polyA signal]
     far away      launch pad |  ATG (start codon).....stop codon
     not copied   not copied  |  <-------- transcribed into one long RNA -------->
                              |  <-- introns later cut out, exons spliced together -->
一个典型真核基因从上游到下游的布局:只有外显子(去掉 UTR 后)最终指定蛋白质。

那些远离基因的开关

启动子告诉你转录从哪里开始,却几乎说不清它有多频繁、在哪种组织里、在生命的哪个阶段发生。这个决定在很大程度上由另外一些调控元件来做出,其中最著名的就是增强子。一个增强子是一小段 DNA,它结合调控蛋白,把一个基因的转录调高。它惊人之处在于:它可以坐落在距离它所控制的启动子数千、甚至数十万个碱基之外,有时在某个内含子里面,有时在整个基因的下游。由于 DNA 是一种柔韧、可弯曲的分子,而不是一架僵硬的梯子,链条可以打弯成环,让一个遥远的增强子在物理上被带到启动子身旁——就像把一条长丝带折起来,让相隔很远的两点彼此相触。

增强子并非孤军作战。沉默子把转录调低,而绝缘子像一道道栅栏,阻止某个增强子伸手去够它本不该触碰的基因。一个基因常常同时受到好几个这样的元件管辖,每个元件回应着不同的信号,它们的合票决定了最终的转录速率。这正是为什么同一个基因在某种细胞里高声喧哗、在另一种细胞里却沉默无言,尽管 DNA 字母完全相同:差别在于有哪些调控蛋白在场来读取这些开关。我们将在调控各阶看到,正是这种分散式的、组合式的控制,是一套并不庞大的基因之所以能造出丰富多样生物体的主要原因。

细菌的做法不同——而且更紧凑

你在基础阶就遇到过原核与真核的分野;在这里,它直接体现在一个基因的建筑结构上。一个典型的细菌基因显得格外精简。几乎没有内含子,所以编码区通常从起始密码子一路连续地跑到终止密码子。细菌基因组很致密,几乎没有间隔 DNA,基因彼此挨得很近。启动子也更简单:它不是靠一个由众多蛋白质组成的大委员会去阅读的 TATA 盒,而是被制造 RNA 的酶上一个可更换的部件——叫作西格玛因子(sigma 因子)——直接识别。

还有一个更深层的结构上的转折。细菌常常把好几个相关的基因排成一排、置于同一个启动子之下,把它们一起转录到一条共享的 RNA 上。这种安排就是操纵子,它让细胞能用一个决定,就把一整套相关的活计(比方说,消化某种糖所需的每一种酶)一起开或关。真核生物几乎从不这么做;它们的每个基因通常都有自己的启动子和自己的信息。于是对比十分鲜明:细菌的基因是一段精瘦、连续、常常被共享的指令;而真核基因是一段冗长、被打断、被单独调控的指令,它的开关散落在周围的 DNA 之中。

为什么要有这么多额外的 DNA?基因不只是它的蛋白质

退一步把账算清。启动子、两个 UTR、好几个内含子,再加上一群分散的增强子、沉默子和绝缘子:在一个人类基因里,真正指定那个蛋白质的字母,通常只占所涉 DNA 的少数。这正是你上一篇遇到的那条鸿沟——编码与非编码 DNA之间的差距——在单个基因层面上的样貌。那些额外的材料并不是废料。它们是控制的装置:决定一个基因是否开口、何时开口、在哪里开口、开口多大声。曾经,“垃圾 DNA”是给一切非编码序列贴的时髦标签;今天我们知道,其中很大一部分正是在做着上面这种调控的工作,尽管确实也有一部分是真正惰性的。

这种被切分的结构还带来第二份红利。正因为编码区被分装成一个个外显子,细胞可以用不止一种方式把它们拼接起来。通过可变剪接,一个基因的外显子能被组合成好几种不同的最终信息,每一种产出一个不同的蛋白质。这就是“一个基因,一个蛋白质”那句老口号被淘汰的分子层面的原因:平均而言,一个人类基因会产生不止一个蛋白质。内含子—外显子的布局并不只是被容忍的杂乱;它正是让这种多面性成为可能的东西,使大约两万个基因得以编码出一个大得多的蛋白质库。

  1. 找到启动子和各个增强子:决定这个基因是否被读取、以及读得多大声的发射台与音量旋钮。
  2. 标出转录起始点,再标出 5' UTR:在配方开始之前先被读到的那段封面附言。
  3. 勾出外显子与内含子:只有外显子(去掉 UTR 后)携带蛋白质配方;内含子会被剪掉。
  4. 停在 3' UTR 和多聚腺苷酸化信号处:那段收尾的标签,说明在哪里停止、以及这条信息能存活多久。

为什么现在就要在还没看到转录发生之前,先纠缠于解剖结构?因为之后的每一章,讲的都是这些部件的故事。转录,是机器在阅读启动子、把外显子和内含子抄成 RNA。RNA 加工,是把内含子去掉、把外显子拼接起来的那场编辑。调控,则是增强子、沉默子与读取它们的蛋白质之间的对话。先学会这张布局图,等每位演员上台时你都能认出它——而且你已经领会了最深的那一点:一个基因不只是它那段编码蛋白质的序列,它是那段序列再加上所有支配它“何时、如何被使用”的指令。