扰动并观察:如何读出一个基因的职责
在本级阶梯前面的几篇里,你学会了在指定位点*改写* DNA——CRISPR-Cas9 如何在一条向导 RNA 指示的地方切割,以及随后细胞的修复要么留下疤痕、要么留下一处预定的编辑。这份能力回答了一个更古老、更深刻的问题:不是如何*改变*一个基因,而是如何弄清一个基因*管什么*。基因组是一份没有标签的零件清单。读序列能告诉你某基因存在、大致多长,但一串 A、T、G、C 并不会自报职责——基因型与表型之间的关系,正是我们要去发现的东西。
整套策略可以浓缩成两个字:扰动与观察。你拿一个运转正常的细胞或生物体,只扰乱其中一个基因——把它关掉、调低、或在某些实验里把它开大——然后看会有什么改变。如果弄坏基因 X 使眼睛失去颜色、使细胞无法分裂、或使胚胎在第三天夭折,你就当场抓住了基因 X 在做某件眼睛、分裂或胚胎所需要的事。这是用破坏来做的逆向工程:从一台正常运转的机器里拔出一根线,看哪盏灯灭了,你就明白了那根线是干什么的。你的破坏越干净、越专一,结论就越可信。
敲除与敲入:删除与替换整个基因
[[gene-knockout-knockin|基因敲除]]永久废除一个基因的功能,而你前面学过的编辑技术让这几乎变得轻而易举。用一条向导 RNA 把 Cas9 瞄准该基因,让它切断双链,然后依靠细胞那种迅速而粗糙的修复——把断端重新粘起、过程中往往丢掉或加上几个碱基的末端连接途径。错位几个碱基便使阅读框移位,于是下游每一个密码子都被读错,蛋白成了一堆乱码。基因在物理上依然在那里,却再也造不出有功能的产物——功能性死亡。在 CRISPR 之前,这需要在小鼠干细胞里做几个月费力的靶向;如今一条向导 RNA 几天就能办到。
它的镜像是敲入:不是毁掉一个基因,而是把一段选定的 DNA 嵌进一个精确的位置。这用到细胞那种谨慎、以模板为导引的修复——就是你前面学过的同源导向途径——你提供一段两侧带有与切口匹配序列的供体 DNA,细胞在愈合时便把你的插入片段抄进基因组。敲入能把一个致病突变改回正常、把一个人类基因换进小鼠,或者——对弄清功能最有用——把一个发光标签融到一个基因上,好让你看清它的蛋白何时何地出现。编辑那几篇里的一条诚实告诫在此依然适用:它强大,却并非毫无瑕疵。Cas9 可能在基因组别处的相似位点切割——即脱靶效应——所以严谨的实验会确认得到了预期的编辑,并核查没有误伤别处。
只在一处关、只在一时关:条件性等位基因
全身敲除有个残酷的局限。许多基因是必需的——从受精起就在每个细胞里把一个敲掉,胚胎干脆就死了,而一个死掉的胚胎几乎不能告诉你这个基因在比如说成年大脑里管什么。解决办法是*条件性*敲除:造一个动物,它的这个基因在各处都完好无损,唯独在你选定的地点或时间被关掉。经典的招数是在目标基因两侧各放一段短的标签序列(叫 loxP 位点),它们像一对书签。一种剪刀酶——Cre——能识别这些书签,把它们之间的一切剪掉——于是只在含有 Cre 的细胞里删除该基因。
门道在于控制 Cre 在哪里出现。把 Cre 基因放在一个只在肝细胞里启动的启动子之下,基因就只在肝脏、别处不会被删除——这是组织特异性敲除。把 Cre 放在一个只有当你给动物喂一种小药物时才打开的开关之下,基因就一直完好无损,直到你决定拨动它的那一天——这是时间可控的敲除。两者结合,你就能提出一个极其锐利的问题:这个基因在*这个*组织里、从*这个*时刻起,究竟管什么,而动物其余部分则作为未被触碰的对照。生物学家正是这样去研究那些一旦从一开始就在各处去除便会致命的基因。
gene with two bookmarks: --[loxP]== target gene ==[loxP]-- no Cre present --> gene stays intact, normal function Cre present (liver, --[loxP]-- (everything between or after drug given) --> ^cut the bookmarks deleted) result: gene OFF only in cells / at times where Cre switched on
把基因调低:RNAi 与 CRISPR 敲低
有时你并不想让一个基因消失——你想把它*调低*,可逆地、还根本不碰 DNA。做这件事的第一种工具,来自你早先在 RNA 阶梯上遇到的细胞自带机械。给细胞喂一条匹配你基因信息的短双链 RNA,细胞的 Dicer-RISC 装置便会在序列吻合处把那条信息绞碎——压低蛋白,却不改动基因组里的任何一个碱基。当作一种刻意的研究方法这样使用时,这就是[[molbio-rna-interference|作为敲低手段的 RNA 干扰]]:便宜、快速、可逆、可调,但天生是部分性的——通常还会剩下一些信息,而且偶尔也可能沉默掉无意中相似的信息。
CRISPR 提供了第二种、更巧妙的调暗基因而不切它的办法。取一个被刻意*钝化*的 Cas9——它切 DNA 的颚被废掉,于是它仍会按向导 RNA 所指认的位点归位,却再也无法造成断裂。把这个失活的 Cas9 停在一个基因的启动子上,它就在物理上挡住转录机械启动,好比给一辆停着的车上了轮锁:基因被读取的次数大减,而它的 DNA 毫发无伤。这就是[[crispr-interference-activation|CRISPR 干扰]],即 CRISPRi。改把同一个失活的 Cas9 融到一个激活辅助因子上,逻辑就翻转——招募机械去*更使劲地*读取这个基因(CRISPR 激活,CRISPRa)。于是同一副可复用的底盘,只靠更换向导 RNA,就能给出敲低、过表达,或者——配上完整的 Cas9——一次敲除。
读出结果,并一次检验每个基因
扰动一个基因只是实验的一半;另一半是*读出有什么改变*——这就是表型分析。有时表型一眼可见:一朵花变白、一条线虫不再动、一个菌落长不起来。但常常你需要一个内建的读数盘。[[reporter-gene|报告基因]]就是这个诀窍:你把一个易于观察的基因——会发绿光、或把培养皿染蓝的那种——融到你关心的基因的控制区上,于是每当你的基因本该开启时,报告基因便同步亮起。这样一个看不见的事件(这个基因此刻在这个细胞里活跃吗?)就变成一种你能拍照、能测量的亮度。报告基因把“基因开着吗?”这个抽象问题变成了一个数字。
现在把整个想法放大。与其扰动一个基因、观察一个细胞,不如设想:你能否把基因组里的每个基因都弄坏——各在一个不同的细胞里——并在一次实验中找出,一个细胞离不开哪些基因,或一个肿瘤要继续生长需要哪些基因?这就是[[molbio-crispr-screen|全基因组功能丧失筛选]],是现代生物学最强大的想法之一。你建一个庞大的向导 RNA 文库——数以万计,每个基因配一条或多条——把它送进一大池细胞,使每个细胞只摄入一条向导、只敲除一个基因。这一池细胞就成了一个活生生的问题,两万个答案同时并行运行。
- 建文库:合成数以万计的向导 RNA,每个基因配一条或多条,装进递送载体里。
- 以低剂量感染一大池细胞,使平均每个细胞恰好得到一条向导、因而敲除一个基因——每个细胞里是不同的基因。
- 施加选择:让这池细胞生长,或让它经受一种药物或胁迫,于是那些缺失基因要紧的细胞会繁盛或灭亡。
- 靠测序读出:每条向导本身就是一个条形码,于是统计哪些向导变稀少、哪些变常见,便精确告诉你哪些基因是需要的、哪些是有害的。
读出是其中精妙的部分,而它把测序阶梯里学的一切都用上了。每条向导 RNA 兼作一个独一无二的条形码,于是你根本不必一个一个地盯着细胞。如果在你选定的压力下敲除基因 Y 是致命的,携带那条向导的细胞便死去,它的条形码从池中消失;如果敲除基因 Z 帮助细胞在某种药物下存活,它的条形码便增多。把整池细胞在前后各测一次序,统计每个条形码的丰度如何变化,要紧的基因便从噪声中浮现出来。这样的筛选已绘出每一种癌细胞类型依赖哪些基因——给猎药者递上一份靶点清单——并把几十年里一个基因一个基因做的慢工,化为一次合并的实验。序列,就这样在全基因组的尺度上变成了功能。