一个安分不下来的基因组
在这一级里,你一直看着 DNA 受损、再被修好:这里换掉一个碱基,那里清掉一个胸腺嘧啶二聚体,那边用一份匹配的模板把一个双链断裂焊合起来。所有这些背后都有一个不动声色的假设:存在一个*正确*的排列方式——一份细胞竭力要保住的固定文本。这最后一篇要把这个假设从你脚下抽走。基因组里有相当一部分根本就待不住。其中一些片段携带着自己的指令,要离开一个地址、抵达另一个地址,把自己复制或剪切下来,再落到某个新地方。原来,基因组与其说是一本印好的书,不如说是一副偶尔会自我洗牌的纸牌。
这些可移动的片段叫作[[transposable-element|转座因子]],或者更生动地说,叫*跳跃基因*。它们的发现者芭芭拉·麦克林托克在 1940 年代于玉米中发现了它们——她注意到玉米籽粒上的颜色斑纹,而这些斑纹只有在某种遗传元件不断跳进跳出色素基因时才说得通。在当时,“基因组能自我重排”这个想法离经叛道到她的工作被大体忽视了几十年。她最终凭此在 1983 年获得诺贝尔奖,那时分子生物学已经赶了上来、证明她是对的。请记住她:早在任何人能测序之前,她就从一根玉米棒子的斑点里读出了关于 DNA 的一条深刻真相。
两种跳法:剪切—粘贴与复制—粘贴
跳跃基因大体有两种风格,区别归结为一个问题:这个元件是以 DNA 的形式移动,还是中途绕道经过一份 RNA 拷贝?第一种风格是 DNA 转座子,它以*剪切—粘贴*的方式移动。该元件编码自己的酶——一种转座酶,能识别该元件自身的两端,把它干净利落地从当前位置剪下来,再粘到一个新位置。想象用剪刀把一页上的一句话剪下来、贴到别处:这句话身后不留拷贝,所以总数不会增加。麦克林托克的玉米元件用的本质上就是这种机制。
第二种风格是反转录转座子,它经由一份 RNA 中间体、以*复制—粘贴*的方式移动——而正是在这里,最开头那一级埋下的一条线索得到了回报。回想中心法则,以及那个常见的误解:信息只能沿 DNA -> RNA -> 蛋白质单向流动,从不倒流。反转录转座子恰恰把这支箭头倒着跑。该元件先被转录成 RNA;接着一种叫[[molbio-reverse-transcriptase|反转录酶]]的酶把那份 RNA*反过来*拷贝成 DNA;这份崭新的 DNA 拷贝被插入一个新位点,而原件原地不动。由于什么也没被移走,每跳一次都可能多留下一个拷贝——天生就带着一种自我增殖的倾向。
DNA transposon (cut-and-paste, count stays the same):
...===[ELEMENT]===... --transposase--> ...======... (gone here)
...[ELEMENT]... (now here)
Retrotransposon (copy-and-paste via RNA, count grows):
...[ELEMENT]... --transcribe--> RNA copy
--reverse transcriptase--> new DNA copy
...[ELEMENT]... (original stays) + ...[ELEMENT]... (new insertion)
the RNA -> DNA step is the SAME trick a retrovirus (e.g. HIV) uses那个 RNA 到 DNA 的步骤,除了让你想到中心法则,还应该敲响另一记钟。它正是像 HIV 这样的反转录病毒把自己的基因组拼接进宿主细胞所用的招数——而这绝非巧合。反转录转座子与反转录病毒是进化上的表亲,是同一支古老遗传元件谱系的两个分支,它们都学会了以 RNA 为模板把自己写进 DNA。说句实在话,“一个会整合进去的病毒”和“一个有时会离开的已整合元件”之间的界线,比那些整齐的分类所暗示的要模糊得多;我们基因组中相当一部分,正是侵袭过我们祖先、从此再没离开的病毒感染留下的化石残骸。
既破坏基因,也创造基因
跳跃基因落点多少是随机的,而它落在哪里关系极大。把一个转座子塞进一个正常工作的基因当中,你就得到了一个全新的突变——回想这一级前面讲过的,所谓[[mutation-definition|突变]]不过就是 DNA 序列发生的任何改变。一个插入进去的元件可以打碎基因的阅读框、卡住它的剪接,或把它的启动子与其余部分割断,像撕掉一页一样把基因猝然关掉。真实的人类疾病就是这样产生的:例如某些血友病病例,可以追溯到一个落进凝血因子基因里的反转录转座子拷贝。麦克林托克那些带斑点的籽粒正是如此——色素基因随着元件跳进跳出而忽明忽暗。
但那份打碎东西的不安分,同样也在建造东西,而这恰是推翻旧偏见的一环。转座子并非空手而来——它带着自己的启动子、剪接信号和编码蛋白的片段。把这些“货物”在千百万年里撒遍一个基因组,你就为进化的修补埋下了原料。转座子提供新的调控序列,重新布线现有基因开启的时机与部位;它们能把邻近的一个外显子拖到新位置,这正是通往外显子重排的一条路径,让细胞用拼凑的零件组装出全新的蛋白。最戏剧性的是,让我们免疫系统得以拼接出数十亿种不同抗体的那些基因,据信正是源自一个远古被驯化的转座子,它的剪切—粘贴机器被改造成了脊椎动物免疫的一件工具。
你身上有多少是跳跃基因?
现在来看那个让大多数人震惊的数字。人类基因组里大约*一半*由转座因子及其降解残骸构成——这些序列可追溯到跳跃基因。相比之下,真正编码蛋白质的那些片段加起来才只占大约 1% 到 2%。请细想这个对比:你的染色体里,远古转座子的残片远多于编码蛋白的指令。最丰富的单一元件,是一种叫 Alu 的反转录转座子,光它自己就出现了一百多万个拷贝,每个几百个碱基,撒得到处都是——这正是我们巡览基因组结构时你见过的[[repetitive-dna|重复 DNA]]的教科书式例子。
这意味着一个老污名的悄然死去。几十年来,基因组里那些非编码的大块——其中很多来自转座子——曾被一挥手打发为[[junk-dna-retirement|垃圾 DNA]],被当作自私元件遗留下来的无用填充物。这个标签下得太早了。其中有些确实是惰性的衰朽残余,对此我们应当老实承认,而不是假装每个碱基都有什么崇高用途。但其中很大一部分已经被招募去干活了:充当调控开关、充当染色体结构的骨架、充当新基因的原材料。“垃圾”二字把*我们还不知道这有什么用*和*这什么用都没有*混为一谈了——而这是两个非常不同的说法。这个词的退场,是分子生物学关于谦逊的一堂相当干净利落的课。
值得把这件事和你也许早已抱有的一个误解联系起来:以为基因组越大、生物就越复杂。并非如此。有些洋葱和蝾螈所携带的基因组比我们的大上好多倍,而这差别压倒性地取决于积累了多少重复的、来自转座子的 DNA——而不是有多少基因在干有意义的活。人类只有大约两万个编码蛋白的基因,比有些植物还少。基因组的*大小*所追踪的,远更多是转座子的历史,而不是精巧程度——这又是一个理由,说明为什么 DNA 是一份精简、目的明确的蓝图这幅旧画面必须被抛弃。
精确的重排:位点特异性重组
转座子把基因组重排得乱七八糟,落在哪儿全凭它高兴。但细胞还有一种*外科手术式*的洗牌办法,在精神气质上恰恰相反。这一级前面讲过的同源重组需要长段匹配的序列,且几乎在它们排齐的任何地方都能动作。[[site-specific-recombination|位点特异性重组]]两样都不需要:一种专门的酶——重组酶,会识别一个短而明确的序列——它的识别位点,无论这个确切地址出现在哪里,都在两个这样的位点之间执行一次干净的切割—重接,既不多一个碱基、也不少一个碱基。与其把它看作一个修复过程,不如把它看作基因组中两个指定门牌地址之间的一次可编程拼接。
妙处在于,结果完全由那两个识别位点彼此的朝向所决定。这个酶做的化学反应永远一样——结合、切割、交换、重新封合——但几何朝向决定了它会产生什么:
- 同一条 DNA 分子上、朝向相同的两个位点:它们之间的那段被环出并删除——这是切除某一选定片段的办法。
- 朝向相反的两个位点:它们之间的那段被首尾翻转(倒位)——这是切换一段 DNA 朝向的办法。
- 分处两条独立 DNA 分子上的两个位点:这两条分子被融合成一条——这是把一段 DNA 整合进另一段的办法。
细胞和病毒把它用在要求精确无误的工作上。λ 噬菌体就是以这种方式把自己整个基因组整合进宿主染色体上某一选定的点;有些细菌则把一段序列来回翻转,以开关某个基因。同样这套机器也成了实验室的主力:Cre-lox 与 FLP-FRT 系统让研究者能在某一选定的组织、某一选定的时间删除、倒转或激活某个基因。这是一种连CRISPR这样强大的工具,在干净无痕的重排上也比不过的精细功夫——也提醒我们,细胞自身那套历经几十亿年演化出来、用来编辑自己的方法,至今仍在教我们新招。
基因组:一份活的、不断重排的文本
退一步,让整整一级的内容收束成一幅画面。你一开始抱着一个令人安心的想法:有一份 DNA 的母本,细胞守护它、修复它。这是真的,那些修复途径也真实而至关重要。但这只是故事的一半。在进化的时间尺度上,基因组*同时*是一个动态、不断重排的东西:跳跃基因四处散布、自我增殖,远古的病毒化石不断堆积,片段被删除、倒转、融合、重复。这些改变大多是中性的——既不帮忙也不添乱——而你与身边那个人之间的大量差异,恰恰就是这种不安分的洗牌被定格在不同状态。变异不是叠加在信号之上的噪声;从长远看,它*就是*进化赖以工作的原材料。
所以要把两条真相同时握住,别让其中任何一条把另一条抹掉。在*你自己细胞*的时间尺度上,基因组被严防死守——校对、错配修复、切除修复和重组全都在卖力工作,让你的序列从一次细胞分裂到下一次都保持稳定,因为体内一个不稳定的基因组正是癌症的温床。而在*物种与漫长岁月*的时间尺度上,同一个基因组又是流动的,被转座和重组搅动成无穷无尽的新排列。基因组既不是一份冻结的文本,也不是纯粹的混沌。它是一份被守护着的文件,却又在缓慢而不停地被改写。