非编码 DNA 与“垃圾”的迷思

百分之二与百分之九十八

在本阶前几篇里，你已经见过一个基因的内部构造——启动子、外显子、内含子，以及被各种信号包裹的编码核心——也看到一个人类基因组在 23 对染色体上约有 32 亿个碱基对。现在把这整个基因组放在脑海里，问一个直白的记账问题：其中究竟有多少真正拼写出蛋白质？答案正是组织起整篇指南的那一记震动。人类 DNA 中只有大约百分之一到百分之二是编码序列，以三联体被读取、并翻译成蛋白质的氨基酸。其余百分之九十八以上，都是非编码 DNA。

这话很容易被读偏。“非编码”是一个精确而狭窄的词：它的意思是“不会被翻译成蛋白质”。它并不意味着无用、沉默或空白。想象一本厚厚的工具书，只有部分页面承载着正文条目；其余是索引、交叉引用、告诉你每一章从哪里开始的标签页，以及把这一切装订在一起的书脊。这些都不是正文，可一旦去掉，这本书就不再像一本书那样可用了。非编码基因组就是那索引、那些标签页和那书脊——再加上，正如我们将看到的，相当一部分细胞只是单纯容忍着的杂物。

非编码基因组里住着什么

这非编码的多数并不是一种东西；它是一个住满了各色居民的拥挤街区。这里有调控序列——启动子、增强子、沉默子——决定每个基因何时、何处、以多大强度被读取的开关与调光旋钮。这里有被转录成 RNA、却从不被翻译的 DNA，从勤勤恳恳的核糖体 RNA 和转运 RNA，到调节基因活性的长非编码 RNA和微 RNA。这里有染色体的结构序列。还有大片大片的重复 DNA，其中很大一部分源自可移动元件。这份名单实在是五花八门，而这恰恰说明了为什么“垃圾”这样一个单一标签从一开始就注定过于粗糙。

THE HUMAN GENOME, by share of total DNA (rough, much overlaps)
  protein-coding sequence (exons read in codons) ........ ~1-2%
  non-coding, NON-repetitive
    introns + UTRs ........................................ large
    regulatory: promoters / enhancers / silencers ........ scattered
    non-coding RNA genes: rRNA, tRNA, lncRNA, miRNA ....... small but vital
  repetitive DNA ........................................ ~half the genome
    transposon-derived (mostly old, immobile) ........... ~45%
    satellite DNA (centromeres) + mini/microsatellites .. structural + variable
  pseudogenes (broken gene-like copies) ................ >10,000 of them

一张谁住在哪里的粗略地图。各类别有所重叠，确切的百分比仍在不断校正。

留意一下真正的功能在那张地图上出现在哪里。调控基因组中相当大的一部分是非编码的，这带来一个引人注目的实际后果：当全基因组研究去搜寻与常见疾病相关的遗传变异时，它们找到的变异，往往落在非编码的调控 DNA 中，而不是落在蛋白质编码基因里面。一个把基因调高或调低的开关，可以与基因本身同等重要。于是，细胞最有意思的那些决定——在它约两万个基因中读哪一个、在哪种组织里、在哪个时刻——很大程度上是写在我们曾经轻蔑对待的那部分里的。

重复、跳跃基因，以及着丝粒处的卫星

一个基因组之所以如此庞大，最大的单一原因就是重复 DNA：以许多——有时数以百万计——个拷贝存在的序列。在人类中它们约占我们全部 DNA 的一半，这正是“为什么基因组大小既不随基因数目、也不随复杂程度变化”的真正解答。重复有两大样式。串联重复首尾相接、排成一列，就像把“哈”字写上一千遍：短的（如 CACACACA…… 这样的微卫星）广泛散布，且因人而异；而巨大的卫星 DNA区块则堆积在特定的位置。散在重复则撒遍整个基因组各处，其中大多数是可移动元件留下的遗迹。

那些可移动的遗迹就是转座元件——“跳跃基因”——携带着把自己复制或剪切出来、再插入别处之指令的 DNA 片段。大多数以经由 RNA 中间体的“复制—粘贴”方式移动：该元件先被转录成 RNA，再由一种叫逆转录酶的酶把那段 RNA 复制回 DNA，落到一个新位点，原件留在原处，于是拷贝不断增多。（这一 RNA 到 DNA 的步骤，正是 HIV 等逆转录病毒所用的伎俩，而这些元件确实是它们演化上的表亲——这生动地提醒我们：中心法则从未禁止信息从 RNA 反向流回 DNA。）单是转座元件就约占人类 DNA 的 45%。我们的大多数拷贝如今都已古老而不能移动，但在漫长的演化里，它们的跳跃播撒了重复序列、偶尔打断某个基因而致病，并——令人惊讶地——向宿主捐献了能用的调控序列、乃至整个外显子。

而堆积在着丝粒处的卫星 DNA，是“非编码却不可或缺”最干净利落的例子。着丝粒是染色体被夹紧的“腰部”（让复制后的染色体呈现经典 X 形的那个位置），在人类中它主要由重复的卫星 DNA 构筑而成。这些 DNA 没有一点编码蛋白质，却在结构上至关重要：细胞正是在此组装起那套抓握装置，让纺锤丝得以抓住每条染色体、在细胞分裂时把拷贝拉开。失去着丝粒，染色体就无法被正确地传递下去。这些染色体地标清楚地表明：一段序列可以是非编码的，却仍为整个基因组承重。

假基因与基因家族：基因组的修订史

基因并非全是独一无二的孤本。许多基因成基因家族——一组通过复制源自共同祖先的相关基因，就像共享着家族相貌的表亲。复制是进化通往新颖性的主要途径之一：当一个基因被意外复制，一个拷贝可以继续做原本的工作，另一个则可自由漂移、突变、或许获得新功能，而这一切都不会让生物体陷入人手不足。珠蛋白家族就是经典例子——不同成员制造在不同生命阶段使用的携氧亚基，外加肌肉里的肌红蛋白，全都是同一个祖先主题的变奏。

在这些工作中的家族成员旁边，坐着一些看起来像基因、却不再产生正常产物的破损拷贝：假基因。它们主要以两种方式形成。一个复制拷贝可以积累使其失效的突变——一个过早的终止密码子、一次移码——直到它再也产不出有功能的蛋白质。或者，一条已完成、已剪接的信使 RNA 被逆转录回基因组，落脚成一个“加工假基因”，显眼地缺少真基因所有的内含子和启动子。人类基因组中携带着远超一万个这样的拷贝。它们简直就是基因组的修订史——保存在页边的、被划掉的草稿和删去的段落。跨物种比较它们，让我们得以读出基因组随时间如何变化，一种分子层面的古文字学。

退役“垃圾”，又不矫枉过正

垃圾 DNA这个词诞生于 1972 年，用来称呼基因组中那些看似没有蛋白质编码用途的大量重复序列和假基因。那画面就像一间堆满杂物的阁楼，细胞拖着这些东西到处走，却从不使用。在随后的几十年里，这幅图景渐渐磨损了。所谓垃圾中的很大比例，结果被证明有功能、或至少是活跃的——控制基因的增强子和启动子、被转录成有功能非编码 RNA 的 DNA、着丝粒处的结构卫星和端粒处的保护帽。把我们的无知命名为“垃圾”是有真实代价的：它悄悄地劝退了人们，让他们没有去寻找那个明明就藏在眼前的调控基因组。这正是“垃圾 DNA”说法退场的核心。

但诚实是双向切割的，而正是在这里，严谨的生物学家拒绝夸大其词。当ENCODE 计划报告说基因组的大部分都存在“生化活动”时，新闻标题宣布我们 80% 的 DNA 都有功能。这混淆了两件不同的事。以很低水平被转录、或被某个蛋白质碰触，这是生化活动——而我们的基因组确实是被普遍转录的，在两条链上被复制成 RNA，远超过任何人曾经的预期。但活动并不等同于那种对进化才真正重要的、严格意义上的功能：即一段序列是保守的、被选择保留的、一旦失去会让生物体付出代价的。一台开着没关的复印机会一直出复印件，但这并不意味着那些复印件是有人想要的。

所以今天审慎的立场是混合的，而且坦白说，是未完成的。一些非编码 DNA 显然有功能，且在物种间保守。一些最好被描述为寄生性的或自我增殖的，那些为自己而复制的转座子。还有一些也许确实主要是惰性的填充物，被一个宽容的基因组顺带携带着。其中深刻的教训关乎科学的谦逊：“我们还不知道这东西做什么”，并不等于“它什么都不做”。基因组学不断在修正这幅图景，而聪明的做法是把这张地图握得松一点——诚实地为我们的无知命名，而不是把它打扮成垃圾或宝藏中的任何一个。