突变是什么？

文本里的一处改变，仅此而已

你来到这一级阶梯时，已经从上一级带来了两件关键的事。你看到 DNA 的复制带有校对，却从不完美——偶尔会有一个错误的碱基存活下来——你也看到，这并非灾难，而是变异的安静源头。现在我们要给这种改变一个正式的名字。突变，说到最朴素处，就是 DNA 序列里任何一处永久的改变——当一条链被复制时所传下去的那串字母里出现的差异。这就是它的全部定义：突变在于*文本本身*，而不在于对细胞造成的某种含糊的“伤害”。

把基因组想象成一本用四个字母——A、T、G、C——写成的极长的书，书中连续的正文，通过遗传密码，拼写出一个细胞能造出的各种蛋白质。突变就是对这本书的一次编辑。你可以把一个字母换成另一个。你可以塞进一个多余的字母，或者删掉一个。你可以把整整一段抄两遍，或者删去一章。每一种编辑，对这本书*说了什么*都有不同的影响，而本篇余下的内容，其实就是带你逐一参观那些最基本的编辑，看看它们对信息做了什么。请记住这个画面：我们是在校读一段文本，并追问某个错字究竟把意思改变了多少。

换掉一个字母：点突变

可能存在的最小编辑，就是把单个碱基换成另一个——这就是点突变，一处单字母的错字。由于两条链遵守严格的碱基配对，在一条链上换掉一个碱基，会在 DNA 下一次被复制时，逼着另一条链做出相应的对换：比方说，一对 A-T 就变成了一对 G-C。一处点突变恰好只改变阶梯上的一根横档，而把整段序列的其余部分原封不动地留着。它是最温和的一种改变方式，而且我们将会看到，它在后果上往往也是最温和的。

并非所有的单碱基对换都一样，化学家把它们分成两类。回想一下，A 和 G 是两个更大的、双环的嘌呤，而 C 和 T 是更小的、单环的嘧啶。转换把一个碱基换成同样形状的——嘌呤换嘌呤（A 换成 G）或嘧啶换嘧啶（C 换成 T）。颠换则是跨形状地对换——嘌呤换成嘧啶，或反过来。这种命名并不只是记账：因为转换保持了同样的环形状，它更容易溜过复制机器，所以即便*可能*的颠换在数目上是转换的两倍，转换在现实中却大约比颠换多一倍。这种不对称，是化学在基因组上留下的一枚指纹。

PURINES  A  G   (large, double ring)
PYRIMIDINES  C  T   (small, single ring)

TRANSITION   same shape:   A <-> G    C <-> T   (4 kinds)
TRANSVERSION cross shape:  A <-> C    A <-> T
                           G <-> C    G <-> T   (8 kinds)

...so 2x as many transversions are POSSIBLE,
   yet transitions actually happen ~2x more often.

转换保持碱基的形状不变；颠换则在两种形状之间跨越。与直觉相反，按种类算更少的转换，在现实中反而更常见。

蛋白质会注意到吗？同义、错义、无义

一处点突变会落在基因组的某个地方，但要知道它*做了什么*，我们得问它落在哪里、密码又如何读它。在一段编码蛋白质的区域里，文本是三个字母一组地读的——每一个三联体就是一个密码子，代表一个氨基酸。于是单个碱基的对换，对蛋白质可能造成三种很不一样的结果，而这种差别正是关键所在。同义突变把密码子改成一个*同义词*：得益于密码的冗余，好几个密码子拼出同一个氨基酸，所以 GAA 和 GAG 都念“谷氨酸”，蛋白质造出来一模一样。错义突变把密码子改成代表*另一个*氨基酸的：蛋白质照样被造出，但有一个残基被换掉了，这可能关系重大，也可能几乎无关紧要，取决于那个残基是否处在一个要害位置。

第三种结果最为严厉。无义突变把一个氨基酸密码子改成三个终止密码子之一。沿途读取的核糖体，撞上一个提前出现的“到此为止”信号，便松手放开——于是蛋白质被截短，往往缺掉了那个真正干活的部分。仅仅一个字母，一整条蛋白质就被截断了。这就是为什么同一种编辑——一个碱基的对换——后果可以从完全不可察觉，一直跨到严重致残：全看这次对换是保住了意思、还是轻轻推了它一下、还是把句子从词的中间截断了。最经典的例子是镰状细胞病：β-球蛋白基因里一处单个的 A 换成 T 的颠换，把一个 GAG（谷氨酸）变成 GTG（缬氨酸）——一处错义改变，一个残基，红细胞便被深刻地改变了。

加进或丢掉字母：插入、缺失、移码

到目前为止，我们只是在对换字母。但你也可以*插入*一个或多个碱基，或者把它们*删去*——这些统称为插入缺失。一处小的插入缺失，如果增删的碱基数不能被三整除，造成的破坏会比任何单碱基对换都狠得多。回想一下，密码是从一个起点开始、以固定的三联体来读的；这就是阅读框。插入或删去一两个字母，那个位置*下游*的每一个密码子就都被重新分组——框架移位了。从那个碱基往后，核糖体读到的是一整套完全不同、乱七八糟的密码子，而且它几乎总会在不久之后撞上一个终止密码子。这就是移码突变，它通常是毁灭性的，因为它打乱了蛋白质余下的全部，而不只是一个位置。

把它比作按词阅读，危险就一目了然了。把“THE BIG RED DOG RAN”三个字母一组地读，是讲得通的。现在删掉第一个 E，再三个一组地重新分组：“THB IGR EDD OGR AN”——切口之后的每一个词都成了胡言乱语。相比之下，如果你删掉的是恰好三的整数倍个字母，框架就保住了：蛋白质少掉（或多出）几个氨基酸，但其余部分仍然读得正确，这就是为什么一处三碱基的插入缺失通常远比一两碱基的温和得多。这里的教训是：毁掉信息的并不是编辑的*大小*，而在于它是否保住了三联体的节奏。

大多数突变是中性的——而这正是要害

读过无义突变和移码突变之后，很容易把一切突变都想成损伤。这个画面坦白说是错的，而纠正它，是本篇最重要的一个观念。摊开在一个真实的基因组上，绝大多数突变是中性的——它们落在非编码的区段里，或者是同义的，或者改的是一个无关紧要的残基——对生物体根本没有任何可测量的影响。较小的一部分是有害的，就是我们在疾病中注意到的那些。而真正小、却至关重要的一小撮是*有益*的：它们恰好让某个蛋白质工作得好一点，或者契合了一种新的环境。这种三分的格局就是适合度谱，而中性的那一大块，是其中远为最宽的部分。

下面说说为什么这不是一条脚注，而是整个故事。变异是演化赖以运作的原材料。没有突变，就不会有基因的新版本供自然选择去青睐或淘汰——种群将被冻结，无法适应。罕见的有益改变可以扩散开来；有害的那个通常被淘汰；而数量庞大的中性多数，则安静地累积下来，在漫长的时间里，正是这种累积让我们得以从序列中读出演化的历史。那些偶尔致病的、同样的复制“错误”，放到整个物种、放到数百万年的尺度上去看，正是生命多样性的引擎。突变不是系统里的一个故障；它是选择所能挑选的一切的源头。

有两点诚实的限定，能让这个说法不至于滑向童话。“有益”从来不是绝对的——它指的是*在某一特定环境中*有益，而一旦条件改变，同样的这处改变就可能变成累赘。而“中性”是关于整个生物体适合度这一层面的陈述，并不是保证这处改变在化学上字面意义地什么都不做。带着这份谨慎，这个框架站得住脚：突变就是变异，变异就是机会，而只有其中的一部分机会，在事后、在某个特定情境里，才显出是好是坏。这也正是为什么后几篇要讲修复——细胞投入大量资源，把突变率维持得*低，却不为零*：修正掉大多数错误，又恰好留下足够的变异，让生命得以持续变化。