从「有没有」到「有多少」
你在上一篇里见到的普通 PCR,本质上是一项*有无*检测。你跑三十来个循环,然后在凝胶上看最终那管:有一条带,说明你的目标序列当初在场、可供复制;没有带,则说明它不在。这极其有用——它回答了「这个基因、这种病原体、这个突变在不在?」——但它丢掉了生物学家时刻都在问的一个问题:当初究竟*有多少*?一个含十份信使的细胞和一个含一万份信使的细胞,跑完同一轮 PCR 可能看起来几乎一模一样,因为扩增会一直跑到原料耗尽,然后无论起点为何,都在大致相同的最终量上*进入平台*。
这之所以要紧,是因为生物学里有太多问题问的是*量*,而不仅仅是身份。一个基因在肿瘤里相比健康组织被开到多强——它的表达水平如何?一滴血里有多少份病毒拷贝——那个能告诉医生治疗是否奏效的病毒载量?两项改良把 PCR 从一个开关变成了一台测量仪器。第一项让它能读取 RNA 而非 DNA,于是你才有可能去问基因的活动情况。第二项实时盯着复制发生,于是你能反推出起始的量。本篇讲的就是这两件事。
RT-PCR:把 RNA 倒转成 DNA,好让 PCR 读它
PCR 的 DNA 聚合酶只复制 *DNA* 模板——递给它 RNA,则什么也不会发生。所以要测量 RNA——而基因活动恰恰显现于此——你需要一个转换步骤,它不是核糖体那种「翻译」,而是一次介质的改换:先把 RNA 抄成 DNA。做这件事的酶是逆转录酶,你此前已经见过它——正是逆转录病毒和逆转录转座子用来把自己的 RNA 基因组倒写回 DNA 的那同一种逆转录酶。它读取一条 RNA 链,铺下一条互补的 DNA 链,造出所谓的 cDNA(互补 DNA),即原始 RNA 信息的一份忠实的 DNA 抄本。
所以 RT-PCR 只是把两种酶串联着跑:先由逆转录酶把你的 RNA 变成 cDNA,再用普通 PCR 以通常的解链、退火、延伸循环去扩增这份 cDNA。在你如何为逆转录这一步设引物上,藏着一个虽小却好用的窍门。如果你只想要完工的、成熟的信使 RNA,可以用一小段 T 来引发——一种 oligo-dT 引物——它与成熟 mRNA 所带的多聚 A 尾配对,于是逆转录只在带尾的信息上起步。如果你想要样品中的每一条 RNA,则用落点遍布各处的随机引物。这个选择悄悄地决定了你接下来要测量的是*哪些* RNA。
得说一句名称的事,因为它常把人绊住。「RT-PCR」指的是*逆转录* PCR——那个把 RNA 转成 cDNA 的前端。「qPCR」(或「实时 PCR」)指的是*定量* PCR——也就是下一节那个实时监测的后端。它们是两个本可各自独立、却时常被合在一起的想法:当你测量血液里某种 RNA 病毒有多少时,你跑的是 RT-qPCR,二者同时进行。共用的「RT」二字确是一个货真价实的混淆来源,所以即便实验通常把两者熔在一起,也请在脑中把这两层含义分开。
qPCR:实时盯着拷贝堆叠起来
定量 PCR 的诀窍,是不再只读*最终*那管,而是在反应仍在进行时,*每跑完一个循环就测一次*产物。为此你加入一种荧光报告分子,它的发光与在场的双链 DNA 的多少成正比。最简单的是一种染料,常用 SYBR Green,它只在嵌入双链 DNA 的沟槽时才发亮;产物少时它是暗的,随着拷贝累积,整管会越来越亮。一台仪器在每个循环结束时读取这亮度,于是你得到的不再是一个终点,而是一整条扩增曲线——荧光逐循环攀升。
一种与*任何*双链 DNA 都结合的染料便宜却不挑剔——它也会为错误的产物、或为彼此粘连的引物而发光。要得到序列特异的读数,你可以改用一种探针:一小段与你确切目标互补、带着荧光标记的 DNA,它只在找到并结合上匹配序列时才发亮。一种巧妙的设计是分子信标——一种折成发夹的探针,在它顺着目标展直之前一直把自己的光关着。无论哪种方式,原理都成立:这一循环复制出的目标越多,这一循环放出的光就越多,而仪器正盯着看。
fluorescence
^
| _____________ <- plateau (reagents used up)
| ___/
| ___/ <- exponential rise (doubling each cycle)
| ___/
|- - - - - - - - -____/ - - - - - - - - - - - - <- THRESHOLD line
|________________/
| (background, target too rare to detect yet)
+----------------|----------------------------> cycle number
Cq
MORE starting target -> curve crosses threshold EARLIER -> SMALLER Cq
LESS starting target -> curve crosses threshold LATER -> LARGER Cq现在是关键的想法。一开始,目标太稀少,它的光升不出背景噪声之上;最终它变得足够丰盛,曲线便抬头、陡峭攀升,每循环翻一倍。那个决定性的数字就是阈值循环——荧光首次越过一条设定线的那个循环,记作 Cq(有时写 Ct)。它为何能测出起始量,原因在此:一管*起始*目标很多的样品只需翻几番就越线,于是它*早*越线、Cq 小。一管起始目标很少的样品则要多翻许多番,于是它*晚*越线、Cq 大。因为每个循环都让产物翻倍,Cq 每下降一个单位,就大致对应起始材料多了一倍——这是一把干净的指数尺,从「光何时出现」一路倒着读回去。
诚实地读 Cq:相对、绝对与数字
一个孤立的 Cq 只是个数字;把它变成一个*量*,需要一个参照。做这件事有两条诚实的路。相对定量把你感兴趣的基因,与同一样品中测得的一个稳定表达的「管家」基因相比,再把这个比值在不同条件之间相比——回答「这个基因在肿瘤里是否比在正常组织里活跃一倍?」,却始终不去声称一个绝对的计数。绝对定量则跑一条标准曲线:扩增一系列已知量的目标,把 Cq 映射到真实的拷贝数上,于是一个未知样品的 Cq 就能被读成「每毫升多少份拷贝」——一项基因表达变化或一个病毒载量,正是这样拿到一个硬数字的。
还有第三种计数的办法,它干脆绕开了曲线:数字 PCR。它不是在一管里跑一个反应,而是把样品分散到成千上万个微小的液滴或微孔里——每滴里分子如此之少,以致大多数要么拿到零份拷贝、要么一份。你把它们全部扩增,然后只需*数*有多少液滴发了阳性的光、有多少仍是暗的。有了足够多的液滴,再加上一点泊松统计(一种用来核算偶尔有液滴抓到两份分子的办法),这个计数就是对起始分子数的一次直接、绝对的清点——不用标准曲线,不用对扩增效率做任何假设。数字 PCR 用诚实的算术换下了 Cq 那把模拟尺,这使它在你需要从巨大背景中检出一个极其稀有的变体时成为首选——比如血液里漂着的寥寥几段肿瘤 DNA 碎片。
这为何把生物学变成一门测量的科学
退后一步,看看这些改良买到了什么。普通 PCR 给了生物学一台*探测器*;RT-PCR 与 qPCR 给了它一台*仪表*。一下子,你能从一撮样品、在一个下午里提出定量的问题、得到定量的答案:一个细胞受压时这个基因升高多少倍;一位患者的病毒载量在用药后如何逐日下降;这条微弱的带是真信号还是污染。世界之所以能以工业规模检测一种呼吸道病毒,靠的正是 RT-qPCR——把病毒 RNA 逆转录,再凭阈值循环把它数出来,每天数百万次。
把它的局限和它的威力同样看清。qPCR 测量的是一个或少数几个你*已经知道*要找的目标——你必须针对一段你叫得出名字的序列去设计引物,所以它无法发现意料之外的东西。要一次性普查一个细胞里的*全部* RNA、且不带一份预先的名单,你需要这一级里接下来的那些测序方法,它们以成千上万计地读取信息,而不是去数其中某一个。而处在 RT-PCR 核心的那一步 cDNA,与一座cDNA 文库、与 RNA-seq 背后的第一招是同一个:把脆弱的 RNA 抄成稳定的 DNA,好让工具箱里其余的家伙能读它。qPCR 是精确、靶向的*测量*;而接下来的几篇,讲的是你如何在基因组的尺度上*读出那些字母本身*。