JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

新基因从何而来

基因组不是一段固定的文本,而是一间不停发明的作坊。来看看进化的新意在分子层面究竟从何而来——复制一个基因、让其中一份去游荡,把蛋白质模块拼接起来,甚至整段地从毫不相干的生物那里引进基因。

刻在 DNA 里的「创新者困境」

走到阶梯的这一步,你已能把基因组当作一份历史文献来读,并能通过比较物种,辨认出进化拒绝改动的是哪些字母。但这引出一个更尖锐的问题:如果每一个要紧的字母都被选择守护着、悄悄移除一切有害的改动,那么任何*新*东西又是怎么被造出来的?基因组面对的,是一个货真价实的「创新者困境」。已经在工作的那个基因弥足珍贵——若你给自己唯一一份关键酶的基因来个突变,最后很可能落得一点酶都没有。所以进化不能简单地把一个能用的基因改写成一个新基因;那些中间步骤往往是坏掉的、致命的。真正的新意,需要一条能让你*放心*试验、却不必押上唯一那份能用拷贝的路。

进化逃出这个陷阱的办法,妙就妙在毫无想象力:备一份、把现成的零件拼一拼,或者向邻居借一段。这里没有什么总设计师在运筹——只有几桩马虎的复制与重组事故,在漫长岁月与一整个供筛选的群体之下,偶尔撞上了有用的东西。本篇就来走一遍主要的路径。新基因主要通过三条途径产生:复制一个现成的基因、让其中一份漂变去做新工作;通过外显子混编,把现成的蛋白质模块拼成全新的组合;以及通过[[molbio-horizontal-gene-transfer|水平基因转移]],在毫不相干的生物之间整段地搬运基因。而贯穿这一切之下的,是那些能移动的 DNA 片段——[[transposable-element|转座元件]]——它们既搅乱基因组,又时不时地给基因组捐献原料。它们没有一个是设计师;每一个都是事故,只不过被选择偶尔留了下来。

备一份:复制与分化

新基因最重要的一台引擎,是[[gene-duplication-divergence|基因复制,继之以分化]]。第一步是个老实的错误:在复制或重组时哪里一打滑,一段 DNA 被抄了两遍,于是原本一份的基因,变成了并排的两份拷贝。在那一刻,两份拷贝完全相同、彼此冗余——生物体扛着一份它并不需要的备份。而冗余,恰恰就是先前缺失的那份自由。原版还在干着活,那份备用拷贝便不再受选择守护:若只有单份拷贝时必定致命的突变,如今在它身上无害地累积起来,因为原版顶着这班。备份得以自由游荡。

接下来会发生什么,常见的有三种结局,而对它们各自的概率诚实以对很要紧:大多数备份是输家,不是赢家。最最常见的命运是衰败——那份被解放的拷贝捡到一个致命的终止密码子或一次移码,烂成一个[[gene-families-and-pseudogenes|假基因]],一具有基因形状、却不制造任何蛋白质的化石。稍少见的是,两份拷贝靠着把原版的职责*分摊*而双双存活,各自留住旧工作的一部分(亚功能化)。而极罕见地——人人都记得的那个幸运例外——被解放的拷贝漂变出一项真正*崭新*的功能,随后被选择青睐并固定下来(新功能化)。把这个过程在数亿年里重复下去,一个祖先基因就长成一整个由亲缘拷贝组成的基因家族。运送氧气的珠蛋白基因、支撑色觉的视蛋白、那一大片片的嗅觉受体——全是由复制与分化、从单一祖先铸造出来的家族。

one ancestral gene  -->  accidental duplication  -->  two identical copies

   [GENE]                                          [GENE][GENE]
                                                       |     |
                                          original kept |     | spare now free to mutate
                                                        v     v
  three common fates of the spare copy:

   1.  most often  ->  STOP / frameshift  ->  pseudogene   (dead relic, no protein)
   2.  sometimes   ->  duties split        ->  two genes share the old job
   3.  rarely      ->  drifts to new role  ->  NEW GENE  (kept by selection)

  repeat over deep time  ->  a gene family of related paralogs
一份被复制基因的命运图。冗余把备用拷贝从选择中解放出来;它通常衰败成假基因,偶尔职责一分为二,极少数情况下撞上一项全新的功能——成为一个基因家族的种子。

拼零件:外显子混编

复制是把现成的抄下来再微调;第二台引擎则做*重组*。要看清它,先回想前面几级里的两件事。其一,大多数真核基因是被切开的:叫做外显子的编码段,被一段段长长的非编码内含子打断,而内含子会从 RNA 里被剪掉。其二,蛋白质很少是一整坨——它由半独立的模块搭成,就是那些[[protein-domain|蛋白质结构域]],每一个都是一个做一件事的紧凑折叠,好比瑞士军刀上的刀片、螺丝刀和剪刀。妙就妙在一个巧合:外显子常常大致对应着这些结构域——一个外显子可能编码一段会结合钙的部分,另一个则编码一段锚定到膜上的部分。

把这两件事凑到一起,一条通往新意的捷径就现身了。由于外显子*之间*的内含子又长、又容得下改动,DNA 可以在一个内含子内部断开、再重新接上,而丝毫不惊动外显子的编码部分。于是当重组偶然把一个外显子——或一整块外显子——从一个基因搬进另一个基因,接收方的蛋白质就*一步之间*获得了一整个、已经过验证的功能结构域,比一个字母一个字母地把那个结构域进化出来快得多。这就是[[exon-shuffling|外显子混编]]:靠把验证过的模块以新组合拼接到一起来造新蛋白质,活脱脱就像你从别的设备上拆下一台马达、一个夹钳和一个传感器,拼出一台新机器。

外显子混编有助于解释,复杂的多结构域蛋白质为何在动物历史上来得如此突然。血液凝固的蛋白质和免疫系统的蛋白质都是教科书式的镶嵌体——由基因组各处借来的、反复出现的结构域拼缀而成,同一批模块被混编进许多不同的蛋白质里,仿佛同一份零件目录里的条目。它与复制配合得恰到好处:复制是把一整个基因抄下来再打磨,混编则是*跨着*基因把碎片重组起来。不过有个老实的提醒——混编是通往新结构域组合的一条重要路径,却不是唯一一条,而它究竟造就了蛋白质中多大的比例,仍有争议,且因谱系而异。

向邻居借:水平基因转移

复制与混编,都是在一个谱系*内部*重新加工已有的材料。第三台引擎则彻底打破了这道界线。在[[molbio-horizontal-gene-transfer|水平(或称侧向)基因转移]]里,一个基因在并非亲子关系的生物之间*横向*移动——有时甚至在亲缘关系远到分处生命之树不同枝杈上的物种之间移动。你不是从祖先那里纵向继承一个基因,而是干脆从一个同时代的生物那里弄来一个,现成的、而且已经在工作了。对微生物而言,这不是什么罕见的稀奇事,而是一种生活方式,也正是抗生素耐药性能在几个月、而非几千年里传遍一个细菌群体的主因:一个耐药基因,打包在一小圈 DNA 上,从一个细胞跳到下一个细胞。

  1. 供体细胞释放出 DNA——它可能从一个死细胞里渗出,可能搭乘在细胞间传递的一小圈 DNA(质粒)里,也可能由一种感染细菌的病毒载着走。
  2. 一个受体细胞把这段外来 DNA 接纳进去,越过了我们通常想象中那道牢固的物种边界。
  3. 这段新 DNA 若要长存,就必须整合或被维持——靠重组嵌入染色体,或作为一个能自我复制的质粒保留下来,在每一次分裂时一同搭车。
  4. 随后由选择来评判这位新来者:若它的蛋白质有用——抵抗一种药物、消化一种新食物——这个基因就会横扫整个群体;若没用,便会丢失。

水平转移,对「生命只有一棵树」这幅简单图景也构成了真正的挑战。前几篇的整套逻辑都假定基因是纵向传承的,于是一个基因的历史*就是*生物的历史——把同源序列排齐,读出一棵分叉的树。可如果基因会横向跳跃,那么同一个微生物里的不同基因,就能讲出*不同*的祖先故事,根本没有哪一棵树是它们全都认账的。这正是为什么由缓慢变化的核糖体 RNA 搭建起来的[[three-domain-tree|三域树]],越靠近树根越模糊:早期微生物之间的交换实在太多,最深处的亲缘关系看上去不像一道干净的分叉,倒更像一丛缠绕的灌木。对转移罕见的动物和植物来说,这棵树仍是个极好的模型——可对细菌和古菌,老实说,它是铺在一张网上的一个近似。

跳跃基因,与基因组如何长大

在这一切之下涌动的,是一类躁动不安、能自行移动的 DNA。[[transposable-element|转座元件]]——芭芭拉·麦克林托克所说的「跳跃基因」,早在人们相信基因组能自我重排之前数十年,就在玉米里被她发现了——是一段段携带着指令、能把自己复制出来或剪下来、再插到别处去的 DNA。有些靠剪切—粘贴移动:它们编码的一种酶把元件切出,再粘进一个新位点。另一些则经由一个 RNA 中间体、靠复制—粘贴移动:元件先被转录成 RNA,再由[[molbio-reverse-transcriptase|逆转录酶]]把那段 RNA 在一个新位置抄回 DNA——原件留在原地,于是数目只增不减。(那一步 RNA 到 DNA 的转换,正是 HIV 这类逆转录病毒所用的招数,也利落地提醒我们:中心法则从未禁止信息从 RNA 倒流回 DNA。)

这些元件可不是什么罕见的怪胎——它们占了人类基因组的大约*一半*,是基因组如此庞大的头号原因。而它们也重塑了我们对「基因组如何长大、如何创新」的理解。多数时候,它们复制—粘贴的习性只是用重复序列把基因组撑大,偶尔某次跳跃落进一个基因里、把它弄坏,引发疾病。但恰恰是同一种活动,也是新意的一眼静水之泉:一个转座子能把宿主的一个外显子带到一个新基因里(外显子混编的一门近亲),而在进化的长河里,它的序列一次又一次被*驯化*成有用的新调控开关——甚至被驯化成名正言顺的宿主基因。比方说,把我们抗体基因缝合到一起的那些蛋白质,就源自一个被驯服的转座子。跳跃基因最好别被读作纯粹的寄生者、也别读作纯粹的工具,而应读作一股威力强大的双刃之力:它既威胁着基因组的稳定,又充当着基因组进化的一台主引擎。

从序列里读出新意

退后一步,这四种机制便排成了同一个主题的几个变奏——在不押上唯一能用拷贝的前提下创新。复制是备一份、放它去游荡。外显子混编是跨着基因把验证过的模块重组。水平转移是从邻居那里借来一个成品基因。而转座元件则四处撒下可供驯化的原料。每一种情形里,基因组都是在边缘处、低成本地试验,而那些能用的原版照旧亮着灯——再由选择这位耐心的编辑,留下罕见的成功、丢弃常见的失败。这里没有发明家;只有复制、重组,以及一个在漫长岁月里筛选结果的群体。

之所以说这是进化这一级一个合宜的收尾,是因为上述每一桩事件,都在序列里留下了一道可读的疤痕。一簇旁系同源基因,是一次被当场逮住的复制;一个由熟面孔结构域拼缀而成的蛋白质,泄露了它混编而来的出身;一个其祖先与宿主之树意见相左的基因,标记着一次水平跳跃;而一个转座子那些泄底的重复序列,则标出了 DNA 曾经落脚之处。比对 DNA 与蛋白质序列——也就是这一整级的手艺——不只揭示亲缘、为远古事件标定年代。它还让你亲眼看着新基因诞生,被一桩事故一桩事故地写进基因组自己的历史档案,并由选择留存下来。