在序列里读历史

把基因组当作历史文献

你爬完了整座阶梯，看清了一个基因组如何被复制、转录、翻译和修复——一台把序列从亲代忠实传给子代的精巧机器。但正是这份忠实，带来了这一级赖以建立的一个副作用。由于 DNA 复制得如此精确、改变得如此缓慢，今天活着的每一个基因组同时也是一座档案：一份自生命破晓以来、每一处被传下来的改动的连续记录。那同一个分子，既携带着*建造*一个生物体的指令，也携带着*这个生物体从何而来*的故事。分子进化的核心思想，就是去读那第二条信息——把序列不当作蓝图，而当作一份手稿，在数十亿年里被一遍遍誊抄，只要你懂得怎么看，它依然可读。

让这份手稿可读的，正是你早已熟知、作为改变之引擎的那个过程：[[mutation-fitness-spectrum|突变]]。这里抄错一个碱基，那里换掉一个字母——这些就是沿着世代累积下来的修订。而那个关键事实，你在阶梯前面见过——大多数突变是中性的：它们既不帮忙也不添乱，于是顺势搭车、近乎像钟表一样地堆积起来。正是这份稳定，把突变从单纯的损伤变成了一件*测量工具*。两条谱系分开的时间越长，各自累积的独立修订就越多，它们的序列也就漂离得越远。换句话说，差异是流逝时间的替身——而这一个洞见，就是这一级里一切的根基。

比较两条序列，讲出一段承传的故事

取两个物种里的同一个蛋白质——比方说人和马那运送氧气的血红蛋白——把两条氨基酸序列一上一下地写出来，让对应的位置排齐。这就是一次比对，单单一次就已经在讲故事。大多数列完全相同；零星几列不同。相同并非巧合：两条毫不相干的序列，只会以随机概率所容许的频率相符，而这两条却几乎处处相符。那压倒性的相似，正是[[sequence-homology|同源]]的标志——这两个蛋白质相似，不是因为它们碰巧做着相似的工作，而是因为它们*字面意义上就是同一个祖先蛋白质*，自一个很久以前的生物那里，沿两条分岔的谱系继承而来。那些差异，则是此后每条谱系各自在自己那份拷贝上做下的修订。

现在去数这些差异，比对就变成了一座钟。如果中性修订以大致稳定的步调累积，那么两条序列之间差异的数目，就能估出它们的谱系在多久以前分开——也就是回溯到最近共同祖先的时间。这正是[[molecular-clock|分子钟]]的逻辑，也是序列比较给你买来的东西：不只是*知道*两个物种有亲缘，还有一个粗略的*何时*。人和黑猩猩的蛋白质差异极小，所以它们的分离是晚近的；人和酵母的蛋白质差异很大，所以那次分枝是古老的。不过要对这个假设诚实——这座钟并不是一只精准的秒表。不同的基因以不同的速率滴答，速率在谱系之间还会加快或放慢，所以一个分子年代永远是估计值，当它被一个独立的锚（比如一块年代确凿的化石）校准时，才最值得信赖。

保守 vs. 可变：选择在哪里留下印记

再仔细看那次比对，你会发现差异并非均匀铺开。有些列在你加进来的每一个物种里都*完全相同*——在数亿年间冻得结结实实——另一些却几乎在每一个分枝上都变。那些冻结的列是[[conserved-variable-sites|保守位点]]；翻腾不休的则是可变位点。差别从何而来？不是因为突变避开了保守的地方——突变是盲目地处处来袭。保守的列之所以维持原样，是因为落在那里的突变几乎个个都会弄坏某样要紧的东西，携带它的生物体留下的后代更少，于是这个改动被悄悄地从群体中清除。这种把有害变体滤除掉的过程，就是[[purifying-selection|纯化选择]]，而一个保守位点正是它的指纹：一个要紧到演化承受不起任其挪动的位置。

对蛋白质编码基因，还有一种更锋利的读法，它倚靠的是你早已熟悉的遗传密码的冗余。由于密码是简并的，有些 DNA 改动会换掉氨基酸（一次*非同义*改动，dN），另一些则让蛋白质毫发无损（一次*同义*改动，dS）。同义改动几乎感受不到选择，于是它们以接近中性的速率累积；非同义改动会改变蛋白质，因而被过滤。两者的比值——[[dn-ds-ratio|dN/dS 比值]]——就把选择变成了一个你能直接从比对上读出来的数字。

one protein, three species, aligned column by column:

  human   M  V  H  L  T  P  E  E  K  S  A  V
  horse   M  V  H  L  T  P  E  E  K  T  A  V
  yeast   M  V  H  L  S  G  Q  E  K  N  A  V
          |  |  |  |  ^  ^  ^  |  |  ^  |  |
        conserved sites      variable sites
        (purifying selection)  (drift tolerated)

  few differences  -> recent common ancestor
  many differences -> ancient split

  dN/dS < 1  purifying selection (site / gene matters)
  dN/dS ~ 1  drifting, little constraint
  dN/dS > 1  positive selection (change favoured)

单单一次比对身兼两职：差异的数目估出距共同祖先的时间，而哪些列保持冻结的模式，揭示出选择拒绝任其改变的是哪些残基。

为何分子常胜过化石

人们很容易以为骨头才是历史的金标准，而序列不过是个聪明的事后补充。常常恰恰相反。化石稀少、零散、又有偏倚——软体生物、微生物和深海生命几乎什么都没留下，生命之树整整几条枝杈*根本*没有化石记录。一个基因组则不同，它被每一个活着的后代携带着，所以一滴血、一片叶子，就藏着那条谱系历史的近乎完整的档案。一块化石只在某个冻结的瞬间给你寥寥几根骨头，一条序列却给你成百上千个独立的字符——每个碱基都是一个独立的小小见证——还让你去比较那些根本没有共同骨骼可比的生物，比如一个细菌和一棵红杉。正是这庞大的证据量，使得用分子建起来的系统发生树，通常比单凭解剖结构画出来的分辨得清楚得多。

一条序列能说什么、不能说什么

从序列里读历史威力强大，却带着实实在在的警告，一位称职的分子史家会把它们大声讲出来。相似必须是真正的同源，而非偶然的形似，也不是一个借来的基因：细菌和别的微生物会通过水平基因转移把 DNA 横向交换出去，所以单个基因的树可能与物种的树相左，你必须比较许多基因，才能信任一条分枝。当速率在谱系间漂移时，钟会把你带偏。而饱和最终会把最深的比较弄模糊——经过足够长的时间，一个位点可能突变、变回、再次突变，把改动藏起来，使得非常古老的距离被系统性地低估。这些都没有击垮这套方法；它们只是意味着，一条序列是要被掂量的证据，而非要被遵从的神谕。

退后一步，这一章的承诺便清晰起来。基因组是一份用四个字母写成的历史文献，由突变编辑，由选择校对，而且从未被彻底擦去。单单一次比对就足以讲出一段承传的故事：多少字母相异，量出两条谱系*何时*分手；哪些字母拒绝相异，揭示出它们之中*什么*最要紧。从这里起，这一级余下的内容铺展开来——接下来的几篇会拿起这个想法，把它向外建造：建到新基因如何被*孕育*出来、而不只是被保守，建到那组织起全部生命的宏大的树，建到那让单单一条序列就能认出它来自哪个物种的分子指纹。