相似,并不等于同源
在上一篇里,你学会了把两条序列并排摆开、量出它们有多像。可单凭「像」,不过是个数字——而且是个粗心的数字。这门领域真正在意的那个词,是[[sequence-homology|同源性]],它带着一种精确、近乎法律的含义:两个基因若*源自同一个祖先基因*,便是同源的。同源是关于历史的断言,而非关于外貌的断言。两条序列看上去有 35% 相像,可能是因为它们真的共享一个祖先,也可能只是因为,在仅有四个字母可选的情况下,偶然给了它们一抹擦肩而过的相似。所以谨慎的生物学家从不说两个基因「70% 同源」——同源是非此即彼的,那段祖先要么共享、要么不共享。你*测量*的是相似性;从足够多的相似性里*推断*出来的,才是同源性。
为什么非要死守这个区分?因为同源性,是整个比较生物学得以跨越的那座桥。如果一个人类基因和一个酵母基因是同源的,那么关于酵母那一版所辛苦学到的一切——它的结构、它的搭档、它在细胞里干的活——就都成了对人类那一版极有力的第一猜测。那座桥之所以立得住,全因这两个基因*是同一个基因*:它们继承自一个或许生活在十亿年前的共同祖先,从那以后,在两条谱系里都一直干着可辨认地相同的工作。仅仅长得像,给不了你这样一座桥。所以同源性不是咬文嚼字;它是那张许可证,让知识根本得以在物种之间穿行。
基因分岔的两种方式:物种分化与基因复制
同源基因是亲戚,而像任何家族一样,亲缘关系取决于这个家族*是怎么*分枝的。能把一个基因变成两份相关拷贝的事件,恰好只有两种,而这篇全部的词汇,都系在分清这两者之上。第一种是物种分化:一个祖先种群一分为二、成为两个物种,它当初携带的那个单一基因,便沿两条谱系各自遗传下来。一个基因、两个物种——这一对,就是一组[[ortholog-paralog|直系同源基因]](希腊语 *orthos*,「笔直」)。第二种是[[gene-duplication-divergence|基因复制]]:在单一基因组内部,一段 DNA 被意外地复制,于是*同一个*生物体里就有了并排的两版。一个基因组、两份拷贝——这一对,就是一组旁系同源基因(*para*,「在旁边」)。
要真切体会其中的差别,最干净的办法是画出这个基因的家谱。设想一个祖先基因 G。很久以前,它在某一个基因组内部复制成 G-α 和 G-β——如今是同一生物体里的两个旁系同源基因。*后来*,那条谱系因物种分化裂成比方说人和小鼠,两份拷贝都各自遗传了下去。结果就是四个当今的基因:人-G-α、鼠-G-α、人-G-β、鼠-G-β。人-G-α 与鼠-G-α 是直系同源(它们的线在人鼠物种分化处分开)。但人-G-α 与人-G-β 是旁系同源(它们的线在远古那次复制处就分开了,那时物种尚不存在)。同样的四个基因,两种截然不同的表亲——而只有那棵树,才告诉你谁是谁。
ancestral gene G
|
DUPLICATION (one genome)
/ \
G-alpha G-beta
| |
SPECIATION SPECIATION
/ \ / \
human mouse human mouse
G-alpha G-alpha G-beta G-beta
human G-alpha vs mouse G-alpha -> ORTHOLOGS (split by speciation)
human G-alpha vs human G-beta -> PARALOGS (split by duplication)为什么这个区分能左右功能与历史
这不只是记账——弄错了,会把你引向错误的结论。直系同源与旁系同源在分开之后,往往行为大不相同,而原因在于选择。当一个基因因物种分化裂成直系同源时,*两条*子谱系都依旧需要这个基因去干它那一份活;从前保守了它的那同一种纯化选择,会在每个物种里继续保守它。所以直系同源通常保持相同的功能。可当一个基因因复制裂成旁系同源时,这个生物体突然多了一份备份。一份拷贝可以继续担起原来的职责,另一份则从约束中被解放,得以自由漂变、去尝试那些若只有单份拷贝时必定致命的事。因此旁系同源*常常在功能上分道扬镳*。这被生物学家凝练成一条工作法则,称为直系同源猜想:在一个基因所有的亲戚里,它的直系同源是共享其功能最稳妥的赌注——在工作上,通常比它自家基因组里的旁系同源还要更近。
现在想象那个实际的陷阱。你测了人类一个新的致病基因的序列,想在某种模式动物里研究它。你把它拿去 BLAST 比对果蝇基因组、抓下排名最高的那条命中——可单看原始相似性的最高命中,也许是你这个基因的一个*旁系同源*:它早已漂向了另一种角色,而非它真正的*直系同源*。把实验建在这桩错配上,你就会去研究错的那个蛋白质,然后「发现」一个传不回去的功能。同样的失误也会扭曲演化历史:把一对旁系同源当成一对直系同源来数,你就会在物种树上把一条分枝放错位置——把一次远古的基因复制读成一次物种分化,把那次分岔定到完全错误的纪元去。亲缘关系的类型是承重的;认错了它,建在其上的生物学与历史便一同坍塌。
旁系同源:演化如何起草新基因
旁系同源值得细看,因为它们不折不扣就是演化创造新意的主要作坊。一个新基因几乎从不凭空从一段空白 DNA 里冒出来;远更常见的是,它是一个旧基因的拷贝,被改作他用。这个经典故事分三幕上演。第一幕,复制给基因组递上一份多余的备份。第二幕,这份备份摆脱了选择——而多数时候,这份自由是致命的:突变无人约束地累积,直到这份拷贝再也造不出能用的蛋白质,于是它衰败成一个[[gene-families-and-pseudogenes|假基因]]——一具沉默的化石,序列里仍可辨读,却不再被表达。第三幕——罕有而珍贵地——一份被解放的拷贝在死去之前撞上一个有用的新花样,选择一把抓住这项改进,于是一个真正崭新的基因,便在旧基因身旁诞生。
把这个循环在漫长岁月里重复,一个祖先基因便绽放成一个基因家族——一整支源自同一个原型的旁系同源戏班。教科书式的例子是珠蛋白。一个孤独的祖先携氧基因一次又一次地复制,它的旁系同源各自专门化:一种胚胎型,一种为隔着胎盘拉氧而调校的胎儿型,一种成人型,还有把氧藏在肌肉里的肌红蛋白。它们显然是亲族——把它们的序列排齐,共同的祖先一望即明——可每一个都干着微妙不同的活,每一个都是一份曾经得以自由试验的备份拷贝的产物。读懂一个基因家族内部的相似性模式,你几乎就是在直接读出它那些复制发生的先后次序:最深的分岔分开分化最远的成员,最浅的分岔分开最年轻的孪生。
从酵母到人:把同源性当作工作的工具
现在轮到那个让这套词汇配得上其分量的回报了。回想这条阶梯很早处讲过的、我们为何倚重[[molbio-model-organism|模式生物]]——酵母、果蝇、线虫、小鼠——而不直接在人身上研究一切:它们便宜、快速,伦理上也简单得多。同源性,正是这套策略根本行得通的原因。一个细胞的核心机器——DNA 如何被复制、细胞周期如何计时、蛋白质如何被折叠和运送——大体上是在我们共同的祖先里就已敲定,并从那以后一直保守至今。所以在酵母里运行这些过程的基因,在人类身上有着干着一模一样工作的直系同源。在酵母里研究那个基因——在那里你可以随意突变它、看着细胞如何回应——你便拥有了它那个人类直系同源的一份详尽工作模型,那是你在人类细胞里永远建不起来的。
这座桥有多牢靠?有时牢靠得惊人。研究者曾把人类的基因放进那些自身直系同源已被删除的酵母细胞里——在数以百计的案例中,那个人类基因顶了上来、救活了酵母,把活干得足够好,跨越约十亿年的分隔仍让细胞存活。这就是被坐实了的同源性:不是一抹淡淡的家族相像,而是一个仍能在生命之树上互换的零件。癌症生物学正是这样从酵母的细胞周期基因里生长出来的,无数人类疾病的机器,也正是这样最先在那些本身并无这些疾病的生物里被剖解开来的。
两句诚实的告诫,使这件工具不致被滥用。其一,*序列*的保守只是从概率上、而非从法则上,意味着*功能*的保守——直系同源偶尔也会捡起新角色,而一次只在某个物种里留下旁系同源的复制,就能悄悄打乱原本整齐的一一对应。其二,这幅简单图景假定基因是严格地由亲代传给子代的。在细菌和古菌里,这个假定会破裂:通过[[molbio-horizontal-gene-transfer|水平基因转移]],基因会在毫不相关的微生物之间横向跳跃,于是一个基因的历史,可能与它宿主的历史急剧分岔。所以同源性是一个有力、且有充分理据的第一猜测——是一项实验的发射台,而绝非它的替代品。这样来对待,那个简单的举动——认出两个基因共享一个祖先——便仍是整个生物学里最不动声色却最有力的观念之一,是把每一个基因组串成一个连绵故事的那根线。