JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

系统发育树与生命之树

每一段序列都带着祖先的记忆。这篇带你把一叠对齐的 DNA 变成一棵生命之树——它如何被建起、如何诚实地去读,以及它已经为我们揭示的深远历史。

从一份比对,到一段分叉的历史

在这一级稍早,你学会了把两条序列排齐、把它们的差异读作演化距离:替换越多,分开越久。一棵[[phylogenetic-tree|系统发育树]]不过是把这个想法一次性铺到许多物种身上。想象同一个基因的十几个版本叠成一份序列比对——每个物种一行,字母排成整齐的列。两个物种的行若只在寥寥几列上不同,便是近亲;两个行已漂离得很远的,则是远亲。这棵树,就是能把*这整张相似与相异的图样一次性解释清楚*的那段家史——一张分叉的图,其中每一次分裂,都是一支祖先世系变成两支的那一刻。

建树有好几种办法,但它们共享同一套逻辑。最简单的*距离法*,把每一对序列归结为一个数——它们有多不同,并校正「同一个位点可能突变两次、从而把改动藏起来」这件事——然后一步步把最接近的对聚到一起。更强大的*基于特征的方法*则保留每一列,去搜寻能最好地拟合所有列的那棵树:最大简约法偏爱所需突变总数最少的树,而最大似然法贝叶斯方法则采用一个关于字母如何随时间变化的明确模型,问哪棵树让观察到的数据最可能出现。它们更慢,却对真实序列变化的杂乱诚实得多,也是今天这门领域的主力。

怎样读一棵树(以及它没在说什么)

一棵树要从它的末端和它的关节去读。末端(叶)是你手里真正有的物种或序列;内部节点是你从未见过、推断出来的共同祖先;而由一个祖先*加上它的全部后代*组成的一群——你能整段剪下来的一根枝——就是一个分支群(clade)。分支群正是一棵树真正在主张的东西:「这些生物共有一个、群外任何东西都不共有的共同祖先」。要紧的是,一棵光秃秃的分叉树是无根的——它显示谁与谁有亲缘,却不显示时间往哪个方向流。要给它一个方向,你得加上一个外群,一个你已知比其余一切都更早分出去的物种;它接上来的那一点便成了,是最深的祖先,于是整棵树就读作一条从根流向末端的时间之流。

因为一棵树是从有限数据里*推断*出来的,每一根枝都该配一个置信分数,而最标准的那个就是[[bootstrap-support|自举支持率(bootstrap)]]。这招妙在极其简单:把你比对里的列拿来随机重抽——有放回地抽,于是有些列出现两次、有些则掉出去——拼出一份略被打乱的假数据集,再重建一次树。这样做上一千遍,然后对原树里的每一根枝问:*在这一千次重复里,这个一模一样的分组重现了几成?* 一根在 98% 里都出现的枝是稳健的;一根只在 55% 里出现的,则是一耸肩——数据几乎并不比别的选项更偏爱它。所以一棵不带支持值的已发表树,只是半个结果。诚实的树,会把自己的不确定大声穿在身上。

an unrooted tree shows relationship; an outgroup adds time:

   unrooted (who is related to whom)        rooted with an outgroup

     human   chimp                                  +-- human
        \    /                                 +----+
         \  /                                  |    +-- chimp
   mouse--*--* --frog          ROOT --- frog --+
         /                                     |    +-- mouse
        /                                      +----+
      dog                                           +-- dog

   clade = a node + ALL of its descendants (one branch you can snip off whole)
   bootstrap: resample columns 1000x, count how often each branch reappears
无根树陈述亲缘关系;加上一个已知较早分出的外群便给它定根,并设定时间的方向。分支群是任何你能整段剪下的枝,而自举值是该枝在重抽数据集中重现的比例。

生命的三域之树

有史以来最举足轻重的那棵树,来自一个被巧妙选中的分子。要比较*所有*生命——一个细菌、一朵蘑菇、一个人、一株池塘里的藻——你需要一个地球上每个细胞都携带、做着一件极其关键、几十亿年来几乎没变、却又变化得恰好够记录最深分裂的基因。卡尔·乌斯(Carl Woese)意识到,小亚基核糖体 RNA(就是你学翻译时见过的、位于核糖体核心的那段 RNA)正是这把普世的标尺:所有生物都造蛋白质,所以所有生物都有它。当他在 1970 年代把它在整个生命世界里测了序,结果推翻了一条教科书上的定论。

一个世纪以来,生命按外表被一分为二:有细胞核的,和没有的。核糖体 RNA 之树却揭示出[[molbio-three-domains-of-life|三个主要的域]]。那些「简单的细菌」其实落进了两个深刻分离的群——真正的细菌(Bacteria),以及第二支被称作古菌(Archaea)的微生物世系;它们在显微镜下看着和细菌一模一样,运转分子机器的方式却不同,而且——令人惊讶地——是我们*更近*的亲戚。第三个域,真核生物(Eukarya)——我们、植物、真菌、变形虫——在古菌附近分出。这个教训令人谦卑:植物与动物那看得见的多样性只是一根细枝,而生命历史真正的浩荡,活在我们看不见的微生物世界里。这棵[[three-domain-tree|三域之树]]是分子系统发育学的奠基之胜——一桩关于深远历史、任何化石或显微镜都给不出、却被直接从一段序列里读出来的事实。

树在干活:病原体、人群与条形码

系统发育学不只关乎十亿年的深远时间;它在以「周」为单位的尺度上一样管用。当一种新病原体扩散时,从许多病人身上测出它的基因组、再建一棵树,就把这场疫情变成一段可读的历史。由于病毒每复制一次都会攒下几个突变,树上彼此靠近的样本,是从一个晚近的共同来源染上的,而相距遥远的样本则早已分道扬镳。这种*分子流行病学*——快进版的系统发育学——能显示两个医院病例出自同一条传播链、估算一种病毒大致何时首次跳进人类、并追踪是哪个变体播下了哪一波疫情。它倚靠的,正是你早先见过的[[molecular-clock|分子钟]]那同一套逻辑:数替换,把它们读作流逝的时间。

同一套机器也在重建*我们自己*的故事。用人类 DNA 建树——尤其是用线粒体 DNA 和 Y 染色体,它们分别只随母亲或只随父亲传下,因而不会每代被重新洗牌——会显示人类最深的那几根枝全在非洲,而非洲以外的人群坐在后来才分出去的更年轻的细枝上。这种分叉图样,正是「走出非洲」扩张的分子签名:一棵人类迁徙之树,从血液和口腔拭子、而非从骨头里读出。把同样的树思维,跑在人与人之间个体层面的 DNA 差异上,正是在我们这个物种内部追溯血缘与亲缘关系的根基。

系统发育学还给生物学配了一把条形码扫描枪。[[molecular-barcoding|DNA 条形码]]挑出一段简短、标准的基因——动物用一段线粒体基因、植物用一段叶绿体基因、真菌用一段核糖体区域——它变化得恰好够在物种之间相异、又在同一物种内部几乎恒定。从一个未知样本里测出这一段,拿去和参考库比对,你就能给物种命名:一块贴错标签的鱼柳里那条鱼、一只太幼小、肉眼认不出的昆虫幼虫、一勺海水或一抹泥土里混杂的各种生物。它快而有力,却对自身的局限诚实——条形码的好用程度,仅取决于背后那个参考数据库;它可能在刚刚分化的物种上栽跟头;它是一件用于*鉴定*的工具,而非用来解出深远演化树的工具。

读一桩深远的事件:线粒体如何加入细胞

一棵树能做的最壮观的事,是为一桩无人目睹、也无化石记载的事件作证。你的细胞靠线粒体运转——那是燃烧食物以产能的小小隔间。它们以一种意味深长的方式显得古怪:一个线粒体携带着*自己*的一份小小的环状基因组,与细胞核里的 DNA 分开,而且它自造核糖体。那个激进的解释——[[molecular-evidence-endosymbiosis|内共生学说]]——说线粒体是一个自由生活的细菌被驯化后的后代:十多亿年前,它被一个祖先宿主细胞吞下却没被消化掉——两个生物融成了一个。很长一段时间里,这只是个大胆的故事。系统发育学把它变成了近乎确凿的事实。

  1. 取出线粒体那份小基因组里自带的核糖体 RNA 基因,把它放到那棵普世的生命之树上——就用乌斯用过的那把标尺。
  2. 它并没有落在你或许预期的、宿主细胞核基因附近。它落进了细菌内部深处——具体说,落在一群自由生活的细菌当中,一个被自举强力支持的分支群里。
  3. 再用更多基因交叉核对:线粒体那套读基因的机器、以及它那份微型基因组的布局,看上去也是细菌式的、而非真核式的——多条彼此独立的序列证据,全指向同一个细菌祖源。
  4. 结论:线粒体是一个昔日的细菌,如今成了永久住客。它原有的大多数基因随时间迁进了细胞核,只留下它至今仍保有的那份小小的残余基因组。植物的叶绿体讲着一模一样的故事,可一直追溯到一个被俘获的光合细菌。

停下来体会一下刚刚发生的事。一张仅凭序列建起的图,回探了十多亿年,并指认出了此刻正在你每一个细胞里嗡嗡运转的那座发电厂、其失散已久的自由生活的表亲。没有化石能做到这件事;那桩事件没留下骨头,只留下一串用 DNA 写就的文字记录。这正是把整整这一级的深远主张活生生地呈现出来——*每一个基因组都是一份历史文献*——而系统发育树,就是那件学会去读它的工具。从这里起,阶梯将从历史转向当下与临床,在那里,这些同样的序列会成为理解、诊断与治疗疾病的一条途径。