把基因组当作历史文献
你爬完了整座阶梯,看清了一个基因组如何被复制、转录、翻译和修复——一台把序列从亲代忠实传给子代的精巧机器。但正是这份忠实,带来了这一级赖以建立的一个副作用。由于 DNA 复制得如此精确、改变得如此缓慢,今天活着的每一个基因组同时也是一座档案:一份自生命破晓以来、每一处被传下来的改动的连续记录。那同一个分子,既携带着*建造*一个生物体的指令,也携带着*这个生物体从何而来*的故事。分子进化的核心思想,就是去读那第二条信息——把序列不当作蓝图,而当作一份手稿,在数十亿年里被一遍遍誊抄,只要你懂得怎么看,它依然可读。
让这份手稿可读的,正是你早已熟知、作为改变之引擎的那个过程:[[mutation-fitness-spectrum|突变]]。这里抄错一个碱基,那里换掉一个字母——这些就是沿着世代累积下来的修订。而那个关键事实,你在阶梯前面见过——大多数突变是中性的:它们既不帮忙也不添乱,于是顺势搭车、近乎像钟表一样地堆积起来。正是这份稳定,把突变从单纯的损伤变成了一件*测量工具*。两条谱系分开的时间越长,各自累积的独立修订就越多,它们的序列也就漂离得越远。换句话说,差异是流逝时间的替身——而这一个洞见,就是这一级里一切的根基。
比较两条序列,讲出一段承传的故事
取两个物种里的同一个蛋白质——比方说人和马那运送氧气的血红蛋白——把两条氨基酸序列一上一下地写出来,让对应的位置排齐。这就是一次比对,单单一次就已经在讲故事。大多数列完全相同;零星几列不同。相同并非巧合:两条毫不相干的序列,只会以随机概率所容许的频率相符,而这两条却几乎处处相符。那压倒性的相似,正是[[sequence-homology|同源]]的标志——这两个蛋白质相似,不是因为它们碰巧做着相似的工作,而是因为它们*字面意义上就是同一个祖先蛋白质*,自一个很久以前的生物那里,沿两条分岔的谱系继承而来。那些差异,则是此后每条谱系各自在自己那份拷贝上做下的修订。
现在去数这些差异,比对就变成了一座钟。如果中性修订以大致稳定的步调累积,那么两条序列之间差异的数目,就能估出它们的谱系在多久以前分开——也就是回溯到最近共同祖先的时间。这正是[[molecular-clock|分子钟]]的逻辑,也是序列比较给你买来的东西:不只是*知道*两个物种有亲缘,还有一个粗略的*何时*。人和黑猩猩的蛋白质差异极小,所以它们的分离是晚近的;人和酵母的蛋白质差异很大,所以那次分枝是古老的。不过要对这个假设诚实——这座钟并不是一只精准的秒表。不同的基因以不同的速率滴答,速率在谱系之间还会加快或放慢,所以一个分子年代永远是估计值,当它被一个独立的锚(比如一块年代确凿的化石)校准时,才最值得信赖。
保守 vs. 可变:选择在哪里留下印记
再仔细看那次比对,你会发现差异并非均匀铺开。有些列在你加进来的每一个物种里都*完全相同*——在数亿年间冻得结结实实——另一些却几乎在每一个分枝上都变。那些冻结的列是[[conserved-variable-sites|保守位点]];翻腾不休的则是可变位点。差别从何而来?不是因为突变避开了保守的地方——突变是盲目地处处来袭。保守的列之所以维持原样,是因为落在那里的突变几乎个个都会弄坏某样要紧的东西,携带它的生物体留下的后代更少,于是这个改动被悄悄地从群体中清除。这种把有害变体滤除掉的过程,就是[[purifying-selection|纯化选择]],而一个保守位点正是它的指纹:一个要紧到演化承受不起任其挪动的位置。
对蛋白质编码基因,还有一种更锋利的读法,它倚靠的是你早已熟悉的遗传密码的冗余。由于密码是简并的,有些 DNA 改动会换掉氨基酸(一次*非同义*改动,dN),另一些则让蛋白质毫发无损(一次*同义*改动,dS)。同义改动几乎感受不到选择,于是它们以接近中性的速率累积;非同义改动会改变蛋白质,因而被过滤。两者的比值——[[dn-ds-ratio|dN/dS 比值]]——就把选择变成了一个你能直接从比对上读出来的数字。
one protein, three species, aligned column by column:
human M V H L T P E E K S A V
horse M V H L T P E E K T A V
yeast M V H L S G Q E K N A V
| | | | ^ ^ ^ | | ^ | |
conserved sites variable sites
(purifying selection) (drift tolerated)
few differences -> recent common ancestor
many differences -> ancient split
dN/dS < 1 purifying selection (site / gene matters)
dN/dS ~ 1 drifting, little constraint
dN/dS > 1 positive selection (change favoured)为何分子常胜过化石
人们很容易以为骨头才是历史的金标准,而序列不过是个聪明的事后补充。常常恰恰相反。化石稀少、零散、又有偏倚——软体生物、微生物和深海生命几乎什么都没留下,生命之树整整几条枝杈*根本*没有化石记录。一个基因组则不同,它被每一个活着的后代携带着,所以一滴血、一片叶子,就藏着那条谱系历史的近乎完整的档案。一块化石只在某个冻结的瞬间给你寥寥几根骨头,一条序列却给你成百上千个独立的字符——每个碱基都是一个独立的小小见证——还让你去比较那些根本没有共同骨骼可比的生物,比如一个细菌和一棵红杉。正是这庞大的证据量,使得用分子建起来的系统发生树,通常比单凭解剖结构画出来的分辨得清楚得多。
一条序列能说什么、不能说什么
从序列里读历史威力强大,却带着实实在在的警告,一位称职的分子史家会把它们大声讲出来。相似必须是真正的同源,而非偶然的形似,也不是一个借来的基因:细菌和别的微生物会通过水平基因转移把 DNA 横向交换出去,所以单个基因的树可能与物种的树相左,你必须比较许多基因,才能信任一条分枝。当速率在谱系间漂移时,钟会把你带偏。而饱和最终会把最深的比较弄模糊——经过足够长的时间,一个位点可能突变、变回、再次突变,把改动藏起来,使得非常古老的距离被系统性地低估。这些都没有击垮这套方法;它们只是意味着,一条序列是要被掂量的证据,而非要被遵从的神谕。
退后一步,这一章的承诺便清晰起来。基因组是一份用四个字母写成的历史文献,由突变编辑,由选择校对,而且从未被彻底擦去。单单一次比对就足以讲出一段承传的故事:多少字母相异,量出两条谱系*何时*分手;哪些字母拒绝相异,揭示出它们之中*什么*最要紧。从这里起,这一级余下的内容铺展开来——接下来的几篇会拿起这个想法,把它向外建造:建到新基因如何被*孕育*出来、而不只是被保守,建到那组织起全部生命的宏大的树,建到那让单单一条序列就能认出它来自哪个物种的分子指纹。