JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

基因组的解剖

基因组里究竟装着什么、基因组大小的疯狂跨度,以及为什么更大的基因组(甚至更多的基因)并不会让一个生物更复杂。

翻开整本食谱

在之前的篇章里,你已经认识了基因——它既是遗传的单位,也是一段实体的DNA;你也认识了基因组——它是整本食谱,而不是单独一道菜谱。本阶把这本食谱翻开,问一个关于结构的问题:里面究竟写了些什么?又是如何把这么多东西塞进一个你肉眼看不见的空间里的?先从纯粹的尺度说起。人类基因组的每一套大约是三十亿个碱基对,而一个细胞携带两套——约六十亿个字母。把一个人类细胞里的DNA首尾相连地拉直,长度约两米;可它却折叠进一个仅有百万分之几米大小的细胞核里。这就好比把四十公里长的钓鱼线塞进一粒米里,而且塞得如此整齐,以至于任何一个基因仍能随时被找到并读取。

三十亿是个大数字,但它也小得出奇。若以每秒一个字母的速度念出来,大约要念上一个世纪;然而同样的信息却能装进远不到一个GB的电脑存储里——比一部现代手机里的一张照片还小。基因组之所以了不起,并不是因为它“大”,而是因为它被组织得如此致密、被有选择地读取、又被极其可靠地复制。本篇将描绘这套解剖:哪一部分是基因,其余的是什么,以及原核生物和真核生物如何用截然不同的方式把这一切铺排开来。

基因组的大小天差地别——而这些大小会“说谎”

把目光扫过整棵生命之树,你首先会注意到基因组大小的差异有多么巨大。一种小细菌可能携带不到两百万个碱基对;一种典型的真菌是几千万个;一只果蝇约一亿四千万个;一个人是三十亿个。到这里为止,这看起来或许像一架井然有序的梯子:越高级的生物,DNA越多。可接着这架梯子就塌了。大理石肺鱼携带的基因组大约是我们的四十倍。一种不起眼的开花植物——日本重楼(Paris japonica)——所含的DNA约为人类的五十倍。某些单细胞的变形虫则以百倍之差把我们比了下去。很显然,一个细胞里DNA的多少,并不是衡量这个生物有多精巧的尺度。

这种不匹配有个名字:C值悖论。C值不过是一个生物体一套染色体中所含DNA的量。所谓“悖论”,是指C值并不随复杂程度变化;更糟的是,两个看上去同样复杂的生物,其基因组大小可以相差几十倍。这件事曾长期令人困惑,因为生物学家半是预期着DNA的量总该说明点什么关于生物复杂性的事。它的解答——在我们真正能读取基因组之后才变得清晰——正是本篇的核心:一个大基因组的大部分并不是多出来的基因,而是非编码DNA,尤其是重复序列;它们之所以积累起来,原因往往与“让生物更精巧”毫无关系。

基因组内部:一点点编码,一大堆别的东西

打开人类基因组,按每一段“在做什么”来拆分它。最粗的一刀是切成基因和基因之间的DNA,但令人意外的是它们的比例。我们基因组中只有大约百分之一到百分之二直接编码蛋白质。其余都是非编码DNA:决定基因何时、何处被读取的调控开关;其产物是一段工作型RNA、却永远不会变成蛋白质的基因;大片大片的重复序列;以及很久以前把自己插入我们祖先DNA中的病毒所留下的石化残骸。光是重复序列就占了人类基因组的大约一半——既有串联堆叠的短模体拷贝,也有在演化时间里把自己撒遍全基因组的可移动元件。

Human genome (~3,000,000,000 bp per set), very roughly by category:

  protein-coding sequence (exons) ...... ~1-2%   <- spells out proteins
  regulatory + RNA genes + introns ..... varies  <- controls / non-protein RNA
  repetitive & transposon-derived DNA .. ~50%    <- repeats, mobile-element relics

  ~20,000 protein-coding genes total (about the same as a tiny worm)
人类基因组的粗略解剖——编码序列只是薄薄一片,重复序列却占了一大块。

几十年来,这一大堆非编码物质中的很大一部分被斥为“垃圾DNA”。这是个过早的标签,而把“为什么过早”说精确,是有意义的。我们如今知道,非编码基因组中相当多的部分在做着真实的工作——首先就体现在调控上:决定哪些基因在哪种细胞里、在什么时候被打开。但与此同时,相反方向的矫枉过正同样是错的:并非每一个碱基都有功能。确实有一些序列就是惰性的填充物,或是搭便车混进来的“自私”重复。诚实的表述应当谨慎:“非编码”意思是“不被翻译成蛋白质”,而非“无用”;有功能的那一部分,落在旧说法的“几乎没有”和夸张说法的“全部”之间的某处。

而基因的数目本身,是所有数字里最令人谦卑的一个。在基因组首次被读出之后,最终的清点结果只有大约两万个蛋白质编码基因——跟一条仅一毫米长的线虫差不多,比某些植物还少。当一个人,并不需要在零件清单上比一条蠕虫多出太多条目。真正不同的是这些零件如何被运用:被剪接成多种蛋白质、在不同细胞里被开或关、并被接入“基因彼此调控”的网络。复杂性栖身于编排之中,而不在零件清单的长度里。

铺排基因组的两种方式:细菌与我们

你已经认识了作为细胞生命最深一道分界的原核—真核之分。这道分界在两类细胞如何储存各自基因组上体现得淋漓尽致。细菌没有细胞核,因此它的基因组松散地待在细胞质里,是一条通常为环状的染色体,经过超螺旋盘绕,聚成一个被称为拟核的致密区域——那是一团DNA,而不是一个有膜壁的房间。细菌基因组紧凑而基因密集:基因之间间隔很小,基因内部很少被打断,重复填充物也极少。在主染色体之外,许多细菌还携带质粒——一些额外DNA的小环,可以在细胞之间传递,常常带着像抗生素抗性这样的实用性状。

真核细胞的做法恰恰相反。我们的基因组被封存在一个有膜包被的细胞核里,分成若干条线性染色体(人类是23对),并且——这一点至关重要——缠绕在蛋白质“线轴”上。这正是本阶其余篇章将要细讲的那个伟大的打包戏法:DNA缠绕在组蛋白上,形成一颗颗被称为核小体的“珠子”,珠子再盘绕、折叠成染色质,染色质又一次次折叠,直到两米长的DNA装进一个显微镜下才看得见的细胞核里。这种折叠不只是储存,也是一种控制:因为一个区域被打包得有多紧,会帮助决定其中的基因究竟能不能被读取。真核基因组也比细菌的宽松得多:摊得很开,满是调控DNA、被打断的基因和重复序列。

把这套解剖拼起来

把这些碎片拼成一幅完整的图:让我们从外向内,走一遍解剖一个基因组时会依次看到什么。

  1. 从整个基因组开始:一个生物体全部DNA的合集,从小细菌不到两百万个字母,到植物或动物的几十亿个不等——并且记住,这个大小既不预示基因的数目,也不预示复杂程度。
  2. 找到它栖居在哪里:在原核生物里,它松散地待在细胞质中,是一条环状染色体外加质粒;在真核生物里,它被封在细胞核内,分布于若干条线性染色体上。
  3. 放大看其内容:在我们体内,只有约百分之一到二编码蛋白质;其余是调控DNA、RNA基因,尤其是重复序列——人类基因组大约有一半是重复序列。
  4. 数一数基因:人类只有大约两万个蛋白质编码基因——并且要抵制住把这个数字当成复杂度评分来读的冲动,因为真正要紧的是编排,而非数目。

有了这套解剖在手,本阶其余的篇章就成了一次对你刚刚铺开的这些部件的巡游。接下来,你会放大到单个基因,近距离观察它的外显子、内含子和调控信号。然后,你会正面迎击“垃圾”DNA这个问题。最后,你会亲眼看到那个打包戏法的运作——DNA如何缠绕组蛋白、折叠成染色质,这正是“如何把这一切装进细胞核、又仍能随取随读”的答案。