基因、基因组与遗传

基因：一个最终被证明是DNA的遗传单位

本阶第前几篇已经向你介绍了这套分子的角色：DNA是档案，RNA是工作副本，蛋白质是机器，而中心法则把它们串在一起。现在我们退后一步，问一个不同的问题——正是这个问题给了整个领域存在的理由：生物是怎样把自己的指令传给后代的？答案建立在一个观念之上：基因作为遗传的单位。早在任何人见到DNA之前，育种者就注意到性状是以一份份离散的“包裹”传递的，而不是取平滑的平均：一颗豌豆要么圆、要么皱，不会落在中间。每个包裹背后那个看不见的因子，在1909年被命名为“基因”，比人们弄清它的化学身份早了几十年。

随后分子生物学给了基因一个身躯。在经典图景里，一个基因是一段特定的DNA：它的序列拼写出某一种产物（通常是一个蛋白质）的配方，再加上附近那些指示“何时、何处去读它”的DNA信号。于是基因同时是两样东西：一个用于记账的遗传单位，以及染色体上一段你能指出来的实体片段。当我们说β-珠蛋白（血液里携氧蛋白的一部分）是“11号染色体上的一个基因”时，指的正是这样一段；其中仅一个字母的改变，就导致镰状细胞病。

基因组：从一道菜谱到整本食谱

如果说一个基因是一道菜谱，那么基因组就是整本食谱：一个生物体中全部的DNA，包括每一个基因以及夹在基因之间的所有DNA。对人类而言，这大约是三十亿个碱基对，被复制进身体几乎每一个细胞里。想象一下它的布局：在我们体内，基因组分布于细胞核中的23对染色体上，外加线粒体内一个微小而独立的基因组。基因组是那座母版档案库；而单个基因，是这片疆域上的一处地标。

这里有第一个意外。人类基因组中只有一小片——大约百分之一到百分之二——直接编码蛋白质。其余都是非编码DNA：决定基因何时被读取的调控开关、永远不会变成蛋白质的RNA基因、大段大段的重复序列，以及远古病毒石化般的残迹。几十年来，其中很大一部分被斥为“垃圾DNA”。这是一个过早的标签。我们如今知道，其中相当多的部分在做着真实的工作，尤其是在控制基因“何时、何处被打开”上——尽管确实也有一部分是真正惰性的填充物。诚实的立场是：“非编码”不等于“无用”，它的意思只是“不会被翻译成蛋白质”。

基因组这一概念重组了生物学：它邀请我们把一个生物体的指令当作一个完整、有限、可读的整体对象来研究，而不是一个基因一个基因地看。正是这一转变让人类基因组计划得以构想，并催生了基因组学：在人与人、物种与物种之间比较完整基因组，绘制调控的版图，追踪哪些变异与疾病相关。

基因型与表型：菜谱与菜

菜谱和它做出来的菜之间，有一个关键的区别，而生物学为它准备了两个词。你的基因型就是菜谱：你所携带的那一套特定的DNA序列。你的表型则是那道菜：你实际上长成什么样、做出什么事，从眼睛颜色、身高，到血型、患病风险、乃至行为。分子生物学几乎全部的戏剧，都发生在这两者之间的空隙里——一段被储存的序列是如何变成一个可观察到的性状的。把基因型与表型分开，能避免许多糊涂的想法。

基因型原则上是固定而离散的：在你DNA上某个特定位置，你携带着从父母那里继承来的特定字母。表型则是当这些指令被读出并运行时所浮现出来的东西，而它依赖的远不止序列本身。同一种基因型在不同环境中可以产生不同的表型，就像同样的种子在肥沃和贫瘠的土壤里长成不同的植株。同卵双胞胎起初拥有基本相同的基因型，最终却有着不同的指纹、体重和病史，因为环境与纯粹的运气在那份共享的DNA之上塑造了表型。基因型设定了各种可能；而表型，是这些可能性、环境与运气实际造出的结果。

基因如何“编码”某样东西——以及为什么它不是一张蓝图

把基因叫作蓝图很诱人，但这个词会误导人，值得花点时间诚实地说清为什么。蓝图是一张按比例绘制的图：图上的每一部分都对应着成品的某一部分。基因完全不是这样。它是一串一维的字母，被读出成一串RNA，再读出成一条氨基酸链，最后折叠成一个蛋白质。基因指定的是一段序列，而不是一个形状，更不是这个生物体的一幅图画。更贴切的词是菜谱：一套制作某物的指令，而你没法盯着菜谱就“看见”那块蛋糕。

gene (DNA)  -->  RNA copy  -->  protein chain  -->  folded protein  -->  some effect on a trait
  ATG...      transcription     translation         self-assembly        (one of MANY inputs)

NOT:  gene  ==  picture of the finished organism

基因指定的是一段线性序列；性状则在其下游、隔着许多步骤和许多基因之外。

还有两个事实彻底瓦解了蓝图这一比喻。第一，那句老口号“一个基因，一个蛋白质”已经过时。在复杂生物里，一个基因通常被切成一段段编码片段（外显子），中间夹着非编码片段（内含子）；通过可变剪接，细胞能以不同的组合把这些外显子拼接起来，于是单个基因能指定好几种不同的蛋白质。第二，大多数性状根本不是一个基因的事。身高、血压、常见疾病的风险，都是由成百上千个遗传变异共同塑造的，每一个都把结果朝某个方向轻轻推一点，并与环境协同作用。这些是多基因性状，对它们而言，“是哪个基因造成的？”这个问题根本没有单一答案。

基因更多，并不意味着更复杂

下面这个观念是生物学家花了最久才接受的，也最可能让你吃惊。当人类基因组计划完成时，许多人原以为人类会携带数十万个基因，才配得上我们这般精巧。真实的数字却令人谦卑：只有大约两万个蛋白质编码基因，跟一条小小的线虫差不多，比某些植物还少。当一个人，并不需要在零件清单上比一条蛔虫多出太多条目。真正不同的，是这些零件如何被部署、组合、剪接，以及在不同时间和不同位置如何被调控。

如果你看的是基因组的大小而非基因的数目，这个谜会变得更加尖锐。一个细胞中DNA的总量，叫作它的C值，其变化幅度极大，而且根本不随复杂程度变化：某些变形虫和许多植物携带的基因组远比我们的大，有时大上几十倍。这个由来已久的谜，就是C值悖论。它的解答恰恰是本篇的主旨：基因组的大部分是非编码的，编码所占的比例在物种之间相差巨大，而DNA总量是衡量一个生物有多复杂的很糟糕的代理指标。

那么，复杂性若不在基因的数目里，又在哪里？很大程度上在于调控与组合。当每个基因都能在不同的地点和时间被开或关、被剪接成多种蛋白质、并被接入“基因彼此控制”的网络时，一套并不庞大的基因就能造出极其丰富的多样性。这正是为什么两个拥有相同基因组的细胞（一个神经元和一个白细胞）在外形和行为上毫不相像：差异来自各自“读了什么”，而非“存了什么”。原来，复杂性是一个编排的问题，而不是一个零件数目的问题。