基因、基因组，以及它们究竟装着什么

从四字母文本到一段有意义的文字

在上一篇里，你认识了双螺旋本身——两条核苷酸链彼此缠绕，从头到尾都是A 配 T、G 配 C。那给了你*载体*：一条长而稳定的线，用四个字母把东西拼写出来。但一串字母还不是一条信息。随手翻开一本书的某一页，在你找到一句话从哪里结束、下一句从哪里开始之前，那些字母毫无意义。本篇的任务，就是搞清楚细胞如何把它那条无尽的字母串切成有意义的片段——以及这些片段是做什么用的。

这里出现了贯穿整级的核心词：基因是一段指定某一产物的 DNA。把它想象成沿螺旋延伸的一段有意义的文字——它有开头、有一串字母、有结尾，而这串字母承载着细胞能造出的某样东西的配方。关键在于，基因是由它所做的事来定义的，而不是由它坐落在哪里或长什么样来定义的。它不是链上一颗特别上色的珠子；它是细胞懂得如何读取出来的一段区域，就像食谱集里的一道菜谱，不过是恰好拼出某一道菜的普通墨水。

基因组：整本书，藏在每个细胞里

如果说基因是一段文字，那么基因组就是整本书——你全部的 DNA，包括每一个基因和它们之间的一切。人类基因组约有三十亿个碱基对，而把这所有字母从头到尾首次读通，大约是在 2003 年。把单个细胞里的 DNA 拉直，长度大约有两米；整级导语里那本“两米长的说明书”，说的就是这条线，而后面有一篇专门讲述把它折叠进一个需要显微镜才看得见的细胞核里的那种工程艺术。

关于这本书，有两个事实值得细细体会。其一，你体内几乎每个细胞都带着*同一份*完整基因组——一个肌细胞和一个神经细胞持有完全相同的副本，区别只在于各自选择去读哪些段落。（同一本书如何生出上千种细胞类型，正是后面一级讲基因调控时的核心。）其二，在真核生物里，基因组并非一整条巨线，而是分成几个独立的片段，即染色体，每一条都是一个与蛋白质打包在一起的单一长 DNA 分子。这种打包你早先已认识，就是染色体结构；给这些染色体计数并配对，就是核型所做的事，人类带有 46 条染色体，组成 23 对相互匹配的染色体。

这本书里到底有多少段落？远比人们曾经猜测的要少。人类基因组只含有约两万个编码蛋白质的基因——与一条小小的线虫大致相当，甚至比某些植物还少。在基因组被读通之前，许多科学家押注于十万个甚至更多，他们的理由是：像人这么精巧的生物，必定需要一份庞大的零件清单。他们错了，而这个错误正是接下来一个深刻教训的第一条线索：复杂性并不存在于基因的纯粹数量之中。

编码与非编码：书的大部分并不是基因

接下来是几乎让所有人都吃惊的部分。如果编码蛋白质的基因就是故事的全部，它们本该填满整个基因组。可它们没有——差得远。真正拼写出蛋白质的那些 DNA 片段，仅占人类基因组的约 1% 到 2%。其余约 98% 都是非编码 DNA：不会被读出成蛋白质的 DNA。所以这本食谱集里，大部分*并不是*菜谱。把这一点想透，会彻底改变你对基因组的想象。

人们很容易把所有这些非编码 DNA 斥为无用的填充物——多年来它一直被戏称为“垃圾 DNA”。这里要小心：这个标签一部分公道，一部分却极具误导性。某些非编码 DNA 确实没什么我们能检测到的作为，包括古老病毒残破的遗迹和长长的重复片段。但其中相当大一部分在做着至关重要的工作。有些被读成有功能的 RNA 分子；更多的则是调控性的——决定哪些基因在哪种细胞里、在什么时候开启的开关与调光旋钮。诚实的总结是：非编码并不等于无功能，而“垃圾 DNA”这个说法，夸大了我们真正证明为无用的那一部分。

  the human genome, by what the DNA does (very roughly)

  protein-coding genes      ##                          ~1-2%
  regulatory / functional   #############                some
  repeats, viral remnants   #####################        much
  still poorly understood   ###############              lots

  most of the book is NOT recipes -- but "noncoding" =/= "useless"

一个粗略的比例感：蛋白质菜谱只是薄薄一条；其余的从至关重要的开关，到名副其实的遗留杂物，应有尽有——还有相当一部分我们至今无法有把握地归类。

C 值悖论：更大并不更高级

现在轮到那些线索所指向的教训了。你或许会以为：生物越复杂，基因组就越大——越精巧，字母就越多。可现实断然拒绝配合。一颗朴实的洋葱，基因组大约是你的五倍。某些蝾螈和肺鱼携带的 DNA，是人类的几十倍。与此同时，许多更简单的生物靠一个微小的基因组就活得好好的。生物学家发现，基因组大小压根就不随一个生物表面上的复杂程度而变化——这是一个由来已久的谜题，被戏称为 C 值悖论。

为什么？因为基因组的大小大多体现在那批占多数的非编码 DNA 上，而非基因数量上——一颗洋葱并不比你精巧五倍，它只是囤积了多得多的重复和非编码 DNA。一旦想通，这个真正的教训会让人豁然开朗：一个生物的精巧，并不写在它拥有*多少* DNA 上，甚至也不写在它有*多少个*基因上。它体现在这些基因如何彼此连线、如何被调控——每个基因在什么时候被读取、在哪种细胞里、以什么样的组合被读取。一份不大的零件清单，若被巧妙地使用，胜过一份庞大却平平无奇地使用的清单。

光储存还不够：密码必须被读取

退一步，看看我们已经拥有的，以及仍然缺少的。我们拥有一套精妙的储存介质——一条稳定的双螺旋，被整齐地切成染色体，把基因安置在一片调控性与非编码 DNA 的海洋之中。但一个被锁在细胞里的基因组，靠它自己什么也做不了，正如一本合着搁在书架上的食谱做不出一顿饭。信息是真实的，但没有行动的信息只是惰性的。一个基因只有在被*读取*、并被转化成可用的产物时，才真正有意义。

这种读取有一个名字，也有一个方向，它为后面各级铺好了一切。细胞并不直接拿它那份珍贵的 DNA 档案去开动造蛋白质的机器；它先把相关的基因抄录成一条短小、用完即弃的 RNA 工作便条——也就是信使 RNA——再把这份副本送出去构建成产物。那条宏大的单向流动，从 DNA 到 RNA 再到蛋白质，被称为分子生物学的中心法则。它的第一步，把一个基因抄录成 RNA，就是转录——而这恰恰是这道阶梯下一级的起点。