向细菌借来的系统
CRISPR 最初并不是一种工具,而是许多细菌用来对抗病毒的防御系统。当病毒入侵时,细菌会把病毒 DNA 的一小段存进自己的基因组——就像一座“通缉照片库”。如果这种病毒再次出现,细菌就把这段片段抄成 RNA,交给一个切割蛋白,后者凭这段片段找到并切断匹配的病毒 DNA。科学家意识到,这台天然的“搜索并切割”机器可以被重新瞄准我们选定的任何序列。
最广为人知的版本用到一种叫 Cas9 的蛋白。可以把 Cas9 看作第 1 篇里说的那把剪刀,而 RNA 片段就是导航。两者合在一起,构成一枚微型的制导导弹:RNA 负责读取目标,蛋白负责切割。关键在于,这段 RNA 是*我们*来写的——所以目标由我们选定。
向导 RNA 就是地址
负责定位的部分是向导 RNA。在现代编辑中,它通常被融合成一个分子,即单向导 RNA,同时承担两项任务:抓住 Cas9,并携带约 20 个字母的序列来标明目标。这 20 个字母靠普通的碱基配对找到匹配——A 配 U、G 配 C——这正是维系 DNA 双螺旋的同一条规则。当向导的字母与 DNA 的某条链配上对,Cas9 就知道自己到了。
这正是精妙之处。要把整台机器重新瞄准一个新基因,你完全不必重新设计蛋白——只需输入一段新的 20 字母向导序列。正是这种便利,让 CRISPR 在各实验室之间迅速普及:换目标就像换一个搜索关键词一样简单。
PAM:切割所依赖的标签
还有最后一条规则,很容易被忽略:仅仅向导 RNA 匹配上还不够。在目标紧挨着的位置,DNA 上还必须带有一个极小的地标,叫前间区序列邻近基序,简称 PAM。对常用的 Cas9 来说,PAM 只有三个字母,通常写作“NGG”——意思是任意一个字母,再加两个 G。旁边若没有 PAM,即便向导完全匹配,也不会切割。
这为什么重要?有两个原因。第一,PAM 是 Cas9 避免切割细菌*自身* CRISPR 库的办法——库里存的片段没有 PAM,因此得以幸免。第二,对我们而言它是一种限制:你只能在存在 PAM 的位点附近进行编辑。通常这没问题——短的 PAM 很常见——但它也解释了为什么基础工具并不能触及基因组里每一个字母,以及为什么研究者不断寻找具有不同 PAM 规则的 Cas 蛋白,以扩大可触及的范围。
Target DNA (top strand): 5'-...AGGTCATCGGACTTGCAATGCA TGG ...-3'
|-- 20-letter target --| |PAM|
Guide RNA (matches target): 3'- UCCAGUAGCCUGAACGUUACGU -5'
Cas9 checks two things, in order:
1. Is there a PAM (NGG) next to the site? -> TGG yes
2. Does the 20-letter guide base-pair the target? -> yes
Both true -> Cas9 cuts ~3 letters upstream of the PAM:
...AGGTCATCGGACTTGCAA | TGCA TGG...
^ double-strand break here