向細菌借來的系統
CRISPR 最初並不是一種工具,而是許多細菌用來對抗病毒的防禦系統。當病毒入侵時,細菌會把病毒 DNA 的一小段存進自己的基因組——就像一座「通緝照片庫」。如果這種病毒再次出現,細菌就把這段片段抄成 RNA,交給一個切割蛋白,後者憑這段片段找到並切斷匹配的病毒 DNA。科學家意識到,這台天然的「搜索並切割」機器可以被重新瞄準我們選定的任何序列。
最廣為人知的版本用到一種叫 Cas9 的蛋白。可以把 Cas9 看作第 1 篇裡說的那把剪刀,而 RNA 片段就是導航。兩者合在一起,構成一枚微型的制導導彈:RNA 負責讀取目標,蛋白負責切割。關鍵在於,這段 RNA 是*我們*來寫的——所以目標由我們選定。
嚮導 RNA 就是地址
負責定位的部分是嚮導 RNA。在現代編輯中,它通常被融合成一個分子,即單嚮導 RNA,同時承擔兩項任務:抓住 Cas9,並攜帶約 20 個字母的序列來標明目標。這 20 個字母靠普通的鹼基配對找到匹配——A 配 U、G 配 C——這正是維繫 DNA 雙螺旋的同一條規則。當嚮導的字母與 DNA 的某條鏈配上對,Cas9 就知道自己到了。
這正是精妙之處。要把整台機器重新瞄準一個新基因,你完全不必重新設計蛋白——只需輸入一段新的 20 字母嚮導序列。正是這種便利,讓 CRISPR 在各實驗室之間迅速普及:換目標就像換一個搜尋關鍵詞一樣簡單。
PAM:切割所依賴的標籤
還有最後一條規則,很容易被忽略:僅僅嚮導 RNA 匹配上還不夠。在目標緊挨著的位置,DNA 上還必須帶有一個極小的地標,叫前間區序列鄰近基序,簡稱 PAM。對常用的 Cas9 來說,PAM 只有三個字母,通常寫作「NGG」——意思是任意一個字母,再加兩個 G。旁邊若沒有 PAM,即便嚮導完全匹配,也不會切割。
這為什麼重要?有兩個原因。第一,PAM 是 Cas9 避免切割細菌*自身* CRISPR 庫的辦法——庫裡存的片段沒有 PAM,因此得以倖免。第二,對我們而言它是一種限制:你只能在存在 PAM 的位點附近進行編輯。通常這沒問題——短的 PAM 很常見——但它也解釋了為什麼基礎工具並不能觸及基因組裡每一個字母,以及為什麼研究者不斷尋找具有不同 PAM 規則的 Cas 蛋白,以擴大可觸及的範圍。
Target DNA (top strand): 5'-...AGGTCATCGGACTTGCAATGCA TGG ...-3'
|-- 20-letter target --| |PAM|
Guide RNA (matches target): 3'- UCCAGUAGCCUGAACGUUACGU -5'
Cas9 checks two things, in order:
1. Is there a PAM (NGG) next to the site? -> TGG yes
2. Does the 20-letter guide base-pair the target? -> yes
Both true -> Cas9 cuts ~3 letters upstream of the PAM:
...AGGTCATCGGACTTGCAA | TGCA TGG...
^ double-strand break here