一个基因的结构

一个基因是一片街区，而不仅仅是一句话

在上一篇里，你认识了作为遗传单位、同时又是一段实体 DNA 的基因，也知道了那个令人泄气的事实：当一个人，只需要大约两万个蛋白质编码基因。现在我们一路放大，沿着其中一段一个碱基一个碱基地走，看看它究竟由什么构成。首先要忘掉的，是“基因不过是拼写出某个蛋白质的那串字母”这种想法。编码蛋白质的部分是标题，但一个真正的基因更像一整片街区：写着蛋白质配方的那栋房子，再加上门铃、门牌、门口附近的开关，以及一些可能位于街道远处、出人意料的开关。

要在这片街区里辨别方向，我们需要一个方位感。回想一下：一条 DNA 链从 5' 端走向 3' 端，就像一条单行道，而两条链是反向平行、彼此朝相反方向延伸的。当转录读取一个基因时，它把其中一条链抄写成 RNA，并沿着新生 RNA 朝 5' 向 3' 的方向前进。按照惯例，我们把基因画成起点在左，并以转录起始的位置为基准来标注坐标：起点之前的一切叫“上游”（负数），起点之后的一切叫“下游”（正数）。记住这张地图；接下来遇到的每个部件，都坐落在它上面某个确定的位置。

沿着一个真核基因从头走到尾

让我们从上游到下游，参观一个典型的真核基因。在基因本体的正前方，是启动子：一段不会被抄进信使、却充当转录发射台的 DNA。它是负责制造 RNA 的机器被招募、被瞄准的地方。许多启动子内部有一个著名的地标——TATA 盒（一段富含 A 与 T 的短序列，比如 TATAAA），它帮助定位起始点。启动子要解决的问题是“这个基因该不该被读取、又该从哪一个碱基开始读”，而它本身并不提供配方里的任何内容。

在转录起始位点，抄写开始，基因其余部分被转录成一条长长的 RNA。但这条 RNA 最前面的一段同样不是蛋白质配方：它是 5' 非翻译区，也就是 5' UTR。核糖体稍后会降落在这里，沿着它扫描，直到抵达起始密码子（DNA 上的三个字母 A-T-G，在 RNA 上是 AUG），蛋白质的搭建才真正开始。可以把 UTR 想成这封信件上的封面附言和地址标签：它携带着关于这条信息该以多高效率、在何处被翻译的信号，但它本身并不属于那个蛋白质。

现在来到真核布局里最奇怪的部分。编码区并不是连续的。它被切成一段段叫作外显子（最终留在信息里的部分）的片段，中间被内含子（会被剪掉的部分）隔开。在人类基因组里，内含子往往远远长于它们所打断的外显子：一个基因可以横跨数千个碱基的 DNA，而其中只有一小部分最终指定蛋白质。正是这种外显子—内含子的组织方式，使得刚刚合成的 RNA 必须先经过编辑才能被读取——这正是后面转录各阶将要详细展开的主题。最后一个外显子之后，是 3' UTR，又一条不被翻译的尾巴，其中某处有一个多聚腺苷酸化信号，告诉细胞在哪里结束这条信息、并接上一条保护性的尾巴。

upstream <----- transcription start (+1) -----> downstream

  [enhancer] .... [PROMOTER] | 5'UTR [EXON1]~intron~[EXON2]~intron~[EXON3] 3'UTR [polyA signal]
     far away      launch pad |  ATG (start codon).....stop codon
     not copied   not copied  |  <-------- transcribed into one long RNA -------->
                              |  <-- introns later cut out, exons spliced together -->

一个典型真核基因从上游到下游的布局：只有外显子（去掉 UTR 后）最终指定蛋白质。

那些远离基因的开关

启动子告诉你转录从哪里开始，却几乎说不清它有多频繁、在哪种组织里、在生命的哪个阶段发生。这个决定在很大程度上由另外一些调控元件来做出，其中最著名的就是增强子。一个增强子是一小段 DNA，它结合调控蛋白，把一个基因的转录调高。它惊人之处在于：它可以坐落在距离它所控制的启动子数千、甚至数十万个碱基之外，有时在某个内含子里面，有时在整个基因的下游。由于 DNA 是一种柔韧、可弯曲的分子，而不是一架僵硬的梯子，链条可以打弯成环，让一个遥远的增强子在物理上被带到启动子身旁——就像把一条长丝带折起来，让相隔很远的两点彼此相触。

增强子并非孤军作战。沉默子把转录调低，而绝缘子像一道道栅栏，阻止某个增强子伸手去够它本不该触碰的基因。一个基因常常同时受到好几个这样的元件管辖，每个元件回应着不同的信号，它们的合票决定了最终的转录速率。这正是为什么同一个基因在某种细胞里高声喧哗、在另一种细胞里却沉默无言，尽管 DNA 字母完全相同：差别在于有哪些调控蛋白在场来读取这些开关。我们将在调控各阶看到，正是这种分散式的、组合式的控制，是一套并不庞大的基因之所以能造出丰富多样生物体的主要原因。

细菌的做法不同——而且更紧凑

你在基础阶就遇到过原核与真核的分野；在这里，它直接体现在一个基因的建筑结构上。一个典型的细菌基因显得格外精简。几乎没有内含子，所以编码区通常从起始密码子一路连续地跑到终止密码子。细菌基因组很致密，几乎没有间隔 DNA，基因彼此挨得很近。启动子也更简单：它不是靠一个由众多蛋白质组成的大委员会去阅读的 TATA 盒，而是被制造 RNA 的酶上一个可更换的部件——叫作西格玛因子（sigma 因子）——直接识别。

还有一个更深层的结构上的转折。细菌常常把好几个相关的基因排成一排、置于同一个启动子之下，把它们一起转录到一条共享的 RNA 上。这种安排就是操纵子，它让细胞能用一个决定，就把一整套相关的活计（比方说，消化某种糖所需的每一种酶）一起开或关。真核生物几乎从不这么做；它们的每个基因通常都有自己的启动子和自己的信息。于是对比十分鲜明：细菌的基因是一段精瘦、连续、常常被共享的指令；而真核基因是一段冗长、被打断、被单独调控的指令，它的开关散落在周围的 DNA 之中。

为什么要有这么多额外的 DNA？基因不只是它的蛋白质

退一步把账算清。启动子、两个 UTR、好几个内含子，再加上一群分散的增强子、沉默子和绝缘子：在一个人类基因里，真正指定那个蛋白质的字母，通常只占所涉 DNA 的少数。这正是你上一篇遇到的那条鸿沟——编码与非编码 DNA之间的差距——在单个基因层面上的样貌。那些额外的材料并不是废料。它们是控制的装置：决定一个基因是否开口、何时开口、在哪里开口、开口多大声。曾经，“垃圾 DNA”是给一切非编码序列贴的时髦标签；今天我们知道，其中很大一部分正是在做着上面这种调控的工作，尽管确实也有一部分是真正惰性的。

这种被切分的结构还带来第二份红利。正因为编码区被分装成一个个外显子，细胞可以用不止一种方式把它们拼接起来。通过可变剪接，一个基因的外显子能被组合成好几种不同的最终信息，每一种产出一个不同的蛋白质。这就是“一个基因，一个蛋白质”那句老口号被淘汰的分子层面的原因：平均而言，一个人类基因会产生不止一个蛋白质。内含子—外显子的布局并不只是被容忍的杂乱；它正是让这种多面性成为可能的东西，使大约两万个基因得以编码出一个大得多的蛋白质库。

找到启动子和各个增强子：决定这个基因是否被读取、以及读得多大声的发射台与音量旋钮。
标出转录起始点，再标出 5' UTR：在配方开始之前先被读到的那段封面附言。
勾出外显子与内含子：只有外显子（去掉 UTR 后）携带蛋白质配方；内含子会被剪掉。
停在 3' UTR 和多聚腺苷酸化信号处：那段收尾的标签，说明在哪里停止、以及这条信息能存活多久。

为什么现在就要在还没看到转录发生之前，先纠缠于解剖结构？因为之后的每一章，讲的都是这些部件的故事。转录，是机器在阅读启动子、把外显子和内含子抄成 RNA。RNA 加工，是把内含子去掉、把外显子拼接起来的那场编辑。调控，则是增强子、沉默子与读取它们的蛋白质之间的对话。先学会这张布局图，等每位演员上台时你都能认出它——而且你已经领会了最深的那一点：一个基因不只是它那段编码蛋白质的序列，它是那段序列再加上所有支配它“何时、如何被使用”的指令。