读取与复制 DNA：PCR、凝胶电泳与测序

从看见细胞，到读取它们的密码

本级前面的几篇给了你“眼睛”。显微镜、荧光标记，以及把细胞养在培养皿里的能力，让我们得以*观看*生命——但光看，能走的路是有限的。两个细胞在最好的显微镜下也可能看起来一模一样，却携带着完全不同的 DNA、运行着不同的基因，或制造着数量不同的同一种蛋白质。要回答“是*哪个*基因”“序列*是什么*”“蛋白质*有多少*”这类问题，你就得停下观看，转而去读取分子本身。正是这一转变——从看见到读取——筑起了现代分子生物学，而它所依靠的技术，数量少得令人意外。

本篇四件工具中有三件，都建立在你早在基因组各级就见过的一个想法上：碱基配对。因为 A 总是与 T 配对、G 总是与 C 配对，一条单链 DNA 就携带了足以找到、复制或读出它搭档的全部信息。复制 DNA（PCR）、读取 DNA（测序），乃至下一篇里基因编辑器所用的那个碱基配对“地址标签”，靠的都是同一条规则。第四件工具——蛋白质印迹——则横跨一步，转而追问蛋白质。它们合在一起，让我们得以复制、分选、读取与检测——这正是分子手艺的四个动词。

PCR：一台分子复印机

第一个难题是赤裸裸的“稀少”。一滴血、一根发根、从你脸颊上刮下的一点黏膜——每一份里，任何一段特定 DNA 的含量都微乎其微，少到根本无法读取或检测。PCR，即聚合酶链式反应，正是用反复复制某一选定区段的办法来化解这一点：一个起始分子，最终被复制成上亿个。可以把它想成一台复印机，它不复印整本书，只复印你指给它看的那一段。PCR是让本篇几乎其余一切都得以成立的技术，因为在分选或读取 DNA 之前，你通常得先有*足量*的 DNA。

妙就妙在这里：PCR 其实就是把 DNA 复制从细胞里搬出来、放进试管里跑一遍。回想复制那一级：复制需要把两条链拉开、用短引物标出起点，再由 DNA 聚合酶去延长它们。而 PCR 仅凭温度变化就把这三件事全做了。加热到接近沸腾，把双螺旋撬成两条单链。降温，让两段量身设计的短引物——你的目标区段两端各一段——精确地黏到你希望复制开始和结束的位置。随后一个升温步骤，让聚合酶在两段引物之间填出崭新的链。有一个细节让它真正变得实用：普通聚合酶会被接近沸腾的那一步破坏掉，所以 PCR 用的是一种耐热聚合酶，借自生活在温泉里的微生物。

变性：把样品加热到接近沸腾，使每条双螺旋裂成两条单链。
退火：降温，使两段短引物黏附到你目标序列的精确两端。
延伸：略微升温，使耐热聚合酶从每段引物开始合成一条新链。
循环：每一轮使拷贝数翻倍，所以约 30 个循环就能把一个分子变成上亿个。

凝胶电泳：按大小分选

现在你有了一管 DNA——可你怎么知道这次 PCR 真的复制了对的东西，而不是某些更短的垃圾？办法是把这些片段按大小分选。凝胶电泳会浇出一块布满微孔、果冻一般的凝胶板，把你的 DNA 装进一端的小加样孔里，再在两端加上电流。在这里，DNA 的化学性质替你干了活：它的骨架带着均匀的负电，所以每个片段都被拖向正极。小片段在网眼里蠕动得快、跑得远；大片段则被卡住、落在后面。凝胶电泳把一份看不见的混合物，变成一道道带状的“阶梯”，每一条带都是一堆大小完全相同的片段堆在一起。

  wells (load here)               negative electrode (-)
   |   |   |   |
  [===][===][===][===]   <- DNA starts here, runs DOWN
   :    =    :    =          big fragments: slow, near top
   =    :    =    :
   :    =    :              small fragments: fast, near bottom
   =         =
   v   v   v   v                positive electrode (+)
  lane1 marker  sampleA sampleB   (compare to known sizes)

装在加样孔里的 DNA 朝正极迁移；小片段跑得最远。把样品泳道和一条已知大小的“标志物”泳道对照，就能读出每条带的大小。

对凝胶能告诉你什么、不能告诉你什么，要诚实。在样品旁边跑一条已知大小的标志物泳道，你就能大致读出每条带有多大——所以凝胶能确认*存在一个大小正确的分子*。但仅此而已。凝胶无法告诉你这条带真正的序列、它是哪个基因、它有什么功能；两个毫不相干、却长度相同的片段，会落在完全相同的位置。凝胶电泳是一件分离与定大小的工具，而非鉴定的工具——这恰恰是为什么它常常充当*第一步*，把样品送进测序或蛋白质印迹，真正的鉴定在那里才发生。

测序：读出字母

复制并定好大小，仍然没有回答那个最根本的问题：它到底*在说什么*？DNA 把意义储存在它四个字母——A、T、G、C——的精确排列顺序里，而一摊 DNA，无论多么充足，在你读出这个顺序之前都什么也告诉不了你。DNA 测序就是逐个字母把它读出来的技术，它把一个物理分子变成可以储存、检索，并与地球上任何其他基因组相比对的文本。正是这一步，把生物学转化成了信息。

大多数现代测序，又一次倚靠复制——只不过是被放慢了来观看的复制。机器在被读取的 DNA 对面合成一条新链，并安排每一个字母在被加上去的同时“自报家门”：在一种被广泛采用的方法里，每个被掺入的碱基都会闪出一小束光，光的颜色说明它是四个字母中的哪一个。一台相机按顺序记录这些颜色，于是把序列拼写了出来。让DNA 测序变得廉价的诀窍，是不止对一个分子、而是同时对上百万个分子并行地这样做，于是一个三十亿字母的人类基因组如今一两天就能读完——而这件事，第一个人类基因组计划花了十多年、耗资数十亿美元。

然而，序列并不等于理解。测序告诉你这份食谱*怎么写*——字母的顺序——但它本身并不告诉你在某个特定细胞里哪些基因被开启了、细胞究竟如何使用它们，或者某一段陌生序列有什么作用。知道存在一个突变，本身并不能告诉你它是否致病；那仍然需要做实验，就是你两篇前在培养皿里做的那种实验，而且常常要在模式生物里做。而且这些读取本身也会带有偶发的错误，所以任何重要的发现，都要靠把同一区域反复读取许多遍来确认。测序揭示了文本；而文本的含义，是另一个更难的问题。

蛋白质印迹：抓住一种蛋白质

DNA 告诉你食谱；蛋白质则是真正被烹出来的那道菜。一个细胞可以携带某个基因，却一点都不制造它的蛋白质，也可以倾倒出极大量的蛋白质——而真正干活的，只有蛋白质。蛋白质印迹回答关于某一选定蛋白质的两个朴素问题：它在不在，以及大约有多少？它正是从凝胶停下的地方接着开始：先用凝胶电泳把细胞的蛋白质按大小分开（蛋白质和 DNA 一样，可以被诱导着按大小在凝胶里行进），再把它们转移——*印*——到一张薄膜上，薄膜把它们钉在原位以供探测。

接下来是巧妙之处，你在荧光那一篇里已经见过：用一种抗体作为量身定形的探针。一种针对你目标蛋白质制备的抗体被淋在薄膜上，它只黏住那一种蛋白质，无视其余成千上万种。随后第二种带标记的抗体扣到第一种上，产生可见的信号——一条深色的带，或一团亮光——恰好落在目标所在之处。这条带在凝胶上的*位置*揭示了蛋白质的大小；它的*深浅*则大致反映出含量多少。这和免疫染色里“抗体即探针”的逻辑完全相同，只不过结果是读成薄膜上的一条带，而非细胞内的一团亮光。

四个动词，一套流程

这些工具组合起来最为耀眼，一件接一件地往下传。典型的一天可能是这样：从样品里提取一点点 DNA，用 PCR 把目标基因*复制*到足量；跑一块凝胶把产物*分选*出来、确认大小正确；把那条带送去*读取*它的序列；如果你在意这个基因是否真的被造成了蛋白质，就再跑一次蛋白质印迹去*检测*并大致测量那种蛋白质。复制、分选、读取、检测——四个动词，环环相扣，串成分子实验室日常的工作流程。

请留意贯穿这一切的那条共同主线。PCR 复制 DNA，测序读取 DNA，而最后一篇里等着的那台基因编辑器也把自己瞄准 DNA——这三件事之所以行得通，全都因为 A 与 T、G 与 C 配对，正是这同一条把双螺旋维系在一起的碱基配对规则。我们如今已经学会了*看见*细胞、*培养*并*分选*它们，以及*读取和复制*它们的密码。只剩下最后一个动词，也是最大胆的一个：*改写*它。这正是下一篇为整条阶梯收尾之处——CRISPR，那件把“读取密码”变成“编辑密码”的工具。