基因组的解剖

翻开整本食谱

在之前的篇章里，你已经认识了基因——它既是遗传的单位，也是一段实体的DNA；你也认识了基因组——它是整本食谱，而不是单独一道菜谱。本阶把这本食谱翻开，问一个关于结构的问题：里面究竟写了些什么？又是如何把这么多东西塞进一个你肉眼看不见的空间里的？先从纯粹的尺度说起。人类基因组的每一套大约是三十亿个碱基对，而一个细胞携带两套——约六十亿个字母。把一个人类细胞里的DNA首尾相连地拉直，长度约两米；可它却折叠进一个仅有百万分之几米大小的细胞核里。这就好比把四十公里长的钓鱼线塞进一粒米里，而且塞得如此整齐，以至于任何一个基因仍能随时被找到并读取。

三十亿是个大数字，但它也小得出奇。若以每秒一个字母的速度念出来，大约要念上一个世纪；然而同样的信息却能装进远不到一个GB的电脑存储里——比一部现代手机里的一张照片还小。基因组之所以了不起，并不是因为它“大”，而是因为它被组织得如此致密、被有选择地读取、又被极其可靠地复制。本篇将描绘这套解剖：哪一部分是基因，其余的是什么，以及原核生物和真核生物如何用截然不同的方式把这一切铺排开来。

基因组的大小天差地别——而这些大小会“说谎”

把目光扫过整棵生命之树，你首先会注意到基因组大小的差异有多么巨大。一种小细菌可能携带不到两百万个碱基对；一种典型的真菌是几千万个；一只果蝇约一亿四千万个；一个人是三十亿个。到这里为止，这看起来或许像一架井然有序的梯子：越高级的生物，DNA越多。可接着这架梯子就塌了。大理石肺鱼携带的基因组大约是我们的四十倍。一种不起眼的开花植物——日本重楼（Paris japonica）——所含的DNA约为人类的五十倍。某些单细胞的变形虫则以百倍之差把我们比了下去。很显然，一个细胞里DNA的多少，并不是衡量这个生物有多精巧的尺度。

这种不匹配有个名字：C值悖论。C值不过是一个生物体一套染色体中所含DNA的量。所谓“悖论”，是指C值并不随复杂程度变化；更糟的是，两个看上去同样复杂的生物，其基因组大小可以相差几十倍。这件事曾长期令人困惑，因为生物学家半是预期着DNA的量总该说明点什么关于生物复杂性的事。它的解答——在我们真正能读取基因组之后才变得清晰——正是本篇的核心：一个大基因组的大部分并不是多出来的基因，而是非编码DNA，尤其是重复序列；它们之所以积累起来，原因往往与“让生物更精巧”毫无关系。

基因组内部：一点点编码，一大堆别的东西

打开人类基因组，按每一段“在做什么”来拆分它。最粗的一刀是切成基因和基因之间的DNA，但令人意外的是它们的比例。我们基因组中只有大约百分之一到百分之二直接编码蛋白质。其余都是非编码DNA：决定基因何时、何处被读取的调控开关；其产物是一段工作型RNA、却永远不会变成蛋白质的基因；大片大片的重复序列；以及很久以前把自己插入我们祖先DNA中的病毒所留下的石化残骸。光是重复序列就占了人类基因组的大约一半——既有串联堆叠的短模体拷贝，也有在演化时间里把自己撒遍全基因组的可移动元件。

Human genome (~3,000,000,000 bp per set), very roughly by category:

  protein-coding sequence (exons) ...... ~1-2%   <- spells out proteins
  regulatory + RNA genes + introns ..... varies  <- controls / non-protein RNA
  repetitive & transposon-derived DNA .. ~50%    <- repeats, mobile-element relics

  ~20,000 protein-coding genes total (about the same as a tiny worm)

人类基因组的粗略解剖——编码序列只是薄薄一片，重复序列却占了一大块。

几十年来，这一大堆非编码物质中的很大一部分被斥为“垃圾DNA”。这是个过早的标签，而把“为什么过早”说精确，是有意义的。我们如今知道，非编码基因组中相当多的部分在做着真实的工作——首先就体现在调控上：决定哪些基因在哪种细胞里、在什么时候被打开。但与此同时，相反方向的矫枉过正同样是错的：并非每一个碱基都有功能。确实有一些序列就是惰性的填充物，或是搭便车混进来的“自私”重复。诚实的表述应当谨慎：“非编码”意思是“不被翻译成蛋白质”，而非“无用”；有功能的那一部分，落在旧说法的“几乎没有”和夸张说法的“全部”之间的某处。

而基因的数目本身，是所有数字里最令人谦卑的一个。在基因组首次被读出之后，最终的清点结果只有大约两万个蛋白质编码基因——跟一条仅一毫米长的线虫差不多，比某些植物还少。当一个人，并不需要在零件清单上比一条蠕虫多出太多条目。真正不同的是这些零件如何被运用：被剪接成多种蛋白质、在不同细胞里被开或关、并被接入“基因彼此调控”的网络。复杂性栖身于编排之中，而不在零件清单的长度里。

铺排基因组的两种方式：细菌与我们

你已经认识了作为细胞生命最深一道分界的原核—真核之分。这道分界在两类细胞如何储存各自基因组上体现得淋漓尽致。细菌没有细胞核，因此它的基因组松散地待在细胞质里，是一条通常为环状的染色体，经过超螺旋盘绕，聚成一个被称为拟核的致密区域——那是一团DNA，而不是一个有膜壁的房间。细菌基因组紧凑而基因密集：基因之间间隔很小，基因内部很少被打断，重复填充物也极少。在主染色体之外，许多细菌还携带质粒——一些额外DNA的小环，可以在细胞之间传递，常常带着像抗生素抗性这样的实用性状。

真核细胞的做法恰恰相反。我们的基因组被封存在一个有膜包被的细胞核里，分成若干条线性染色体（人类是23对），并且——这一点至关重要——缠绕在蛋白质“线轴”上。这正是本阶其余篇章将要细讲的那个伟大的打包戏法：DNA缠绕在组蛋白上，形成一颗颗被称为核小体的“珠子”，珠子再盘绕、折叠成染色质，染色质又一次次折叠，直到两米长的DNA装进一个显微镜下才看得见的细胞核里。这种折叠不只是储存，也是一种控制：因为一个区域被打包得有多紧，会帮助决定其中的基因究竟能不能被读取。真核基因组也比细菌的宽松得多：摊得很开，满是调控DNA、被打断的基因和重复序列。

把这套解剖拼起来

把这些碎片拼成一幅完整的图：让我们从外向内，走一遍解剖一个基因组时会依次看到什么。

从整个基因组开始：一个生物体全部DNA的合集，从小细菌不到两百万个字母，到植物或动物的几十亿个不等——并且记住，这个大小既不预示基因的数目，也不预示复杂程度。
找到它栖居在哪里：在原核生物里，它松散地待在细胞质中，是一条环状染色体外加质粒；在真核生物里，它被封在细胞核内，分布于若干条线性染色体上。
放大看其内容：在我们体内，只有约百分之一到二编码蛋白质；其余是调控DNA、RNA基因，尤其是重复序列——人类基因组大约有一半是重复序列。
数一数基因：人类只有大约两万个蛋白质编码基因——并且要抵制住把这个数字当成复杂度评分来读的冲动，因为真正要紧的是编排，而非数目。

有了这套解剖在手，本阶其余的篇章就成了一次对你刚刚铺开的这些部件的巡游。接下来，你会放大到单个基因，近距离观察它的外显子、内含子和调控信号。然后，你会正面迎击“垃圾”DNA这个问题。最后，你会亲眼看到那个打包戏法的运作——DNA如何缠绕组蛋白、折叠成染色质，这正是“如何把这一切装进细胞核、又仍能随取随读”的答案。