CRISPR 登场时面对的难题
上一篇导览介绍了可编程基因组编辑的梦想——以及最早追逐这个梦想的两台精巧机器。锌指核酸酶和 TALEN 都能用,也都证明了那个核心思想:把一个能抓住某段选定 DNA 序列的蛋白质,拴在一把能切割的核酸酶上,你就能在恰好一个位点处切断螺旋。但两者都有同一个令人精疲力竭的毛病。要把它们瞄准一个新靶点,你得重新设计、重新搭建那个*蛋白质*——重新改造一串手指或重复单元,让它识别一段新的碱基,这活儿要花上数周琐碎的工夫,还常常失败。瞄准是可能的,但每一次都是一项蛋白质工程。
这正是 CRISPR 击碎的瓶颈。它的瞄准单元根本不是蛋白质,而是一小段 RNA——你只需敲入一段新序列、订购对应的 RNA,就能指定一个新靶点,这是一个下午的活儿,而非一个月。要弄清这一处替换何以改变了一切,我们得回到 CRISPR 真正的来处:它从来不是作为编辑工具被发明出来的,而是作为一套免疫系统被发现的——它在细菌体内默默运转了数十亿年,远在任何人意识到它能被改造成什么之前。
一个会记住病毒的细菌
细菌长期遭受一类叫噬菌体的病毒的猛攻,这些病毒注入自己的 DNA 来劫持细胞。在漫长的进化中,一些细菌演化出了一种了不起的防御:一套*适应性免疫系统*,能记住过去的攻击者,并在它们再来时认出它们。这份记忆储存在基因组本身里,存放在一段名叫 CRISPR 的序列中——成簇规律间隔短回文重复序列。这一长串拗口名字背后是一幅简单的图景:一连串相同的短重复序列,被一个个独特的间隔序列隔开。每一段间隔序列,都是从细胞(或其祖先)所幸存下来的某个病毒那里截获的一小段 DNA——一张存档以备下次之需的分子大头照。
当那个病毒再次来袭,细胞便把对应的间隔序列转录成一小段 RNA,交给一个负责切割的蛋白质——在我们关心的这套系统里,就是 Cas9 核酸酶。接下来便是整个诀窍的核心,它应当让你觉得似曾相识,因为这一级阶梯上此前的一切都指向它。那段 RNA 携带着所记住病毒的*序列*,而一条单链 RNA 识别一条匹配的 DNA,靠的正是核酸之间唯一的相认方式:碱基配对,A 伸过去对 T、G 对 C。于是装载了 RNA 的 Cas9 沿着入侵的 DNA 滑行,直到那段 RNA 找到它的互补对象,牢牢锁住,Cas9 随即下刀。病毒在一处细胞预先选定的序列上被摧毁。
Cas9 究竟如何找到并切开靶点
为把大自然的防御变成实验室工具,生物学家做了两处简化。第一,在天然系统里,瞄准其实要用两段小 RNA 协同完成;研究者把它们融合成了一个易于制造的分子,即单导向 RNA,简称导向 RNA。第二,他们只保留所需的部件:Cas9 蛋白和导向 RNA。这一对,就是编辑器的全部。导向 RNA 是地址标签,携带着一段约 20 个碱基、由你选定的序列;Cas9 则是剪刀,负责抓握与切割。换掉那 20 个碱基,你便重新瞄准了整台机器,全程不需要任何蛋白质工程。
但单靠碱基配对会引出一个实实在在的难题。基因组是三十亿个碱基的双螺旋;倘若 Cas9 得把每一个位置都解开、再拿导向 RNA 去比对,它永远也比对不完。解决的捷径是一处叫 PAM 的小地标——前间隔序列邻近基序——这是一小段序列(对常见的 Cas9 来说,就是 5'-NGG-3' 三个字母,意思是任意一个碱基后面跟着两个 G),它必须紧挨在靶点旁边。Cas9 并不通读整个基因组;它沿着 DNA 一路碰撞,只检查有没有 PAM,而 PAM 每隔几百个碱基就有一处。只有当它落在一处 PAM 上,才会把螺旋撬开,让导向 RNA 去检验旁边的碱基是否匹配。没有 PAM,就不切——哪怕导向 RNA 本可以完美配对。
PAM 还顺带解开了细菌自己面对的一道难题:它如何避免攻击自己存档的那份记忆?CRISPR 阵列里储存的间隔序列与病毒相匹配,那 Cas9 为何不去攻击细胞自己的基因组?因为那段间隔序列旁边*没有* PAM,而真正的病毒才带着 PAM。隔壁没有 PAM,细胞就把它读作「自己」,放它一马。这是一道小巧而优雅的保险——也再一次提醒我们,整套系统早在我们借用它之前,就已被进化调校得能分清敌我。
切割,一步一步来
- 装载。Cas9 包裹住导向 RNA,让它那约 20 个碱基的瞄准段像探针一样伸到蛋白质前方。
- 扫描。复合物沿着双螺旋一路碰撞,只在遇到 PAM(对常见 Cas9 而言即 5'-NGG-3' 三个字母)的地方才停下。
- 试探。在 PAM 处,Cas9 把两条链撬开,让导向 RNA 去和旁边的 DNA 试着碱基配对。
- 确认。若配对良好,RNA-DNA 的配对便牢牢拉合、把 Cas9 锁定在原位;若配对很差,复合物便松手离开,继续前行。
- 切割。Cas9 的两个切割结构域各切一条链,在 PAM 内侧几个碱基处留下一道整齐的双链断裂。
- 交棒。Cas9 的活儿在断裂处就结束了;接手的是细胞自己的修复机器,而你得到什么,完全取决于细胞怎样把它补好。
guide RNA (20 nt, chosen by you)
| | | | | | | | | | | | | | | | | | | | PAM
5'-...A C G T A C C G G T A A C T G A T C C A G | N G G ...-3' <- target strand
3'-...T G C A T G G C C A T T G A C T A G G T C | N C C ...-5'
^ Cas9 cuts both strands ~3 bp inside the PAM
No NGG next door -> no cut, even with a perfect guide match.最后这一步值得停一停,因为初学者的脑中模型往往就在这里出错。Cas9 并不*改写* DNA。它所做的全部,就是制造一道双链断裂——把螺旋的两条车道整齐地切断。此后发生的一切、真正的编辑,是细胞自己的修复反应,而它选择哪条途径,正是决定你结果的关键:那条迅速却易出错的途径往往把几个碱基搅乱、把基因弄坏,而另一条较慢、由模板引导的途径则能精确地改写序列。下一篇导览专门讲这处岔路。眼下,请记住这个诚实的版本:CRISPR 是一把精准的*切割器*,而细胞才是*编辑者*。
它为何变革了整个领域——又在哪里力有不逮
现在你能掂量出这一跃有多大了。用锌指和 TALEN,换靶点意味着花数周搭建一个新蛋白质。用 CRISPR,换靶点意味着在电脑上选定一段新的 20 碱基序列,再邮购对应的导向 RNA——这是一项几乎瞬时、几乎免费的改动,任何具备基本实验技能的人都能做到。Cas9 蛋白始终不变;变的只是那段便宜、可随意替换的 RNA。这一处转变几乎在一夜之间让基因组编辑变得人人可及:那些从前绝无可能造出一个 TALEN 的实验室,几个月内就在编辑基因了。这是生物学有史以来最快、最广的方法变革之一,也在关键演示之后不到十年便摘得了诺贝尔奖。
但在这件事上,诚实比炒作更要紧,因为 CRISPR 常被吹嘘成一把完美无瑕、能对 DNA「查找—替换」的工具。它既不完美,也不是替换。它最大的可靠性隐忧是脱靶效应:一段在你预定位点完美配对的导向 RNA,也可能在基因组里另一些仅差一两个碱基的位点上配得*几乎*够好,而 Cas9 同样会在那里下刀。一道落在错误基因里的偏刀可能悄无声息——也可能让一个抑癌基因失灵,酿成伤害。更糟的是,即便在对的位点,结果也不完全由你掌控,因为正如我们所见,你并不能选择修复方式:细胞才说了算,而它那条又快又糙的途径,往往留下一小段未经预谋的碱基乱码。