JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

基因、基因组与遗传

基因究竟是什么、它与整个基因组有何不同,以及为什么基因更多并不意味着生物更复杂。

基因:一个最终被证明是DNA的遗传单位

本阶第前几篇已经向你介绍了这套分子的角色:DNA是档案,RNA是工作副本,蛋白质是机器,而中心法则把它们串在一起。现在我们退后一步,问一个不同的问题——正是这个问题给了整个领域存在的理由:生物是怎样把自己的指令传给后代的?答案建立在一个观念之上:基因作为遗传的单位。早在任何人见到DNA之前,育种者就注意到性状是以一份份离散的“包裹”传递的,而不是取平滑的平均:一颗豌豆要么圆、要么皱,不会落在中间。每个包裹背后那个看不见的因子,在1909年被命名为“基因”,比人们弄清它的化学身份早了几十年。

随后分子生物学给了基因一个身躯。在经典图景里,一个基因是一段特定的DNA:它的序列拼写出某一种产物(通常是一个蛋白质)的配方,再加上附近那些指示“何时、何处去读它”的DNA信号。于是基因同时是两样东西:一个用于记账的遗传单位,以及染色体上一段你能指出来的实体片段。当我们说β-珠蛋白(血液里携氧蛋白的一部分)是“11号染色体上的一个基因”时,指的正是这样一段;其中仅一个字母的改变,就导致镰状细胞病。

基因组:从一道菜谱到整本食谱

如果说一个基因是一道菜谱,那么基因组就是整本食谱:一个生物体中全部的DNA,包括每一个基因以及夹在基因之间的所有DNA。对人类而言,这大约是三十亿个碱基对,被复制进身体几乎每一个细胞里。想象一下它的布局:在我们体内,基因组分布于细胞核中的23对染色体上,外加线粒体内一个微小而独立的基因组。基因组是那座母版档案库;而单个基因,是这片疆域上的一处地标。

这里有第一个意外。人类基因组中只有一小片——大约百分之一到百分之二——直接编码蛋白质。其余都是非编码DNA:决定基因何时被读取的调控开关、永远不会变成蛋白质的RNA基因、大段大段的重复序列,以及远古病毒石化般的残迹。几十年来,其中很大一部分被斥为“垃圾DNA”。这是一个过早的标签。我们如今知道,其中相当多的部分在做着真实的工作,尤其是在控制基因“何时、何处被打开”上——尽管确实也有一部分是真正惰性的填充物。诚实的立场是:“非编码”不等于“无用”,它的意思只是“不会被翻译成蛋白质”。

基因组这一概念重组了生物学:它邀请我们把一个生物体的指令当作一个完整、有限、可读的整体对象来研究,而不是一个基因一个基因地看。正是这一转变让人类基因组计划得以构想,并催生了基因组学:在人与人、物种与物种之间比较完整基因组,绘制调控的版图,追踪哪些变异与疾病相关。

基因型与表型:菜谱与菜

菜谱和它做出来的菜之间,有一个关键的区别,而生物学为它准备了两个词。你的基因型就是菜谱:你所携带的那一套特定的DNA序列。你的表型则是那道菜:你实际上长成什么样、做出什么事,从眼睛颜色、身高,到血型、患病风险、乃至行为。分子生物学几乎全部的戏剧,都发生在这两者之间的空隙里——一段被储存的序列是如何变成一个可观察到的性状的。把基因型与表型分开,能避免许多糊涂的想法。

基因型原则上是固定而离散的:在你DNA上某个特定位置,你携带着从父母那里继承来的特定字母。表型则是当这些指令被读出并运行时所浮现出来的东西,而它依赖的远不止序列本身。同一种基因型在不同环境中可以产生不同的表型,就像同样的种子在肥沃和贫瘠的土壤里长成不同的植株。同卵双胞胎起初拥有基本相同的基因型,最终却有着不同的指纹、体重和病史,因为环境与纯粹的运气在那份共享的DNA之上塑造了表型。基因型设定了各种可能;而表型,是这些可能性、环境与运气实际造出的结果。

基因如何“编码”某样东西——以及为什么它不是一张蓝图

把基因叫作蓝图很诱人,但这个词会误导人,值得花点时间诚实地说清为什么。蓝图是一张按比例绘制的图:图上的每一部分都对应着成品的某一部分。基因完全不是这样。它是一串一维的字母,被读出成一串RNA,再读出成一条氨基酸链,最后折叠成一个蛋白质。基因指定的是一段序列,而不是一个形状,更不是这个生物体的一幅图画。更贴切的词是菜谱:一套制作某物的指令,而你没法盯着菜谱就“看见”那块蛋糕。

gene (DNA)  -->  RNA copy  -->  protein chain  -->  folded protein  -->  some effect on a trait
  ATG...      transcription     translation         self-assembly        (one of MANY inputs)

NOT:  gene  ==  picture of the finished organism
基因指定的是一段线性序列;性状则在其下游、隔着许多步骤和许多基因之外。

还有两个事实彻底瓦解了蓝图这一比喻。第一,那句老口号“一个基因,一个蛋白质”已经过时。在复杂生物里,一个基因通常被切成一段段编码片段(外显子),中间夹着非编码片段(内含子);通过可变剪接,细胞能以不同的组合把这些外显子拼接起来,于是单个基因能指定好几种不同的蛋白质。第二,大多数性状根本不是一个基因的事。身高、血压、常见疾病的风险,都是由成百上千个遗传变异共同塑造的,每一个都把结果朝某个方向轻轻推一点,并与环境协同作用。这些是多基因性状,对它们而言,“是哪个基因造成的?”这个问题根本没有单一答案。

基因更多,并不意味着更复杂

下面这个观念是生物学家花了最久才接受的,也最可能让你吃惊。当人类基因组计划完成时,许多人原以为人类会携带数十万个基因,才配得上我们这般精巧。真实的数字却令人谦卑:只有大约两万个蛋白质编码基因,跟一条小小的线虫差不多,比某些植物还少。当一个人,并不需要在零件清单上比一条蛔虫多出太多条目。真正不同的,是这些零件如何被部署、组合、剪接,以及在不同时间和不同位置如何被调控。

如果你看的是基因组的大小而非基因的数目,这个谜会变得更加尖锐。一个细胞中DNA的总量,叫作它的C值,其变化幅度极大,而且根本不随复杂程度变化:某些变形虫和许多植物携带的基因组远比我们的大,有时大上几十倍。这个由来已久的谜,就是C值悖论。它的解答恰恰是本篇的主旨:基因组的大部分是非编码的,编码所占的比例在物种之间相差巨大,而DNA总量是衡量一个生物有多复杂的很糟糕的代理指标。

那么,复杂性若不在基因的数目里,又在哪里?很大程度上在于调控与组合。当每个基因都能在不同的地点和时间被开或关、被剪接成多种蛋白质、并被接入“基因彼此控制”的网络时,一套并不庞大的基因就能造出极其丰富的多样性。这正是为什么两个拥有相同基因组的细胞(一个神经元和一个白细胞)在外形和行为上毫不相像:差异来自各自“读了什么”,而非“存了什么”。原来,复杂性是一个编排的问题,而不是一个零件数目的问题。