从看见细胞,到读取它们的密码
本级前面的几篇给了你“眼睛”。显微镜、荧光标记,以及把细胞养在培养皿里的能力,让我们得以*观看*生命——但光看,能走的路是有限的。两个细胞在最好的显微镜下也可能看起来一模一样,却携带着完全不同的 DNA、运行着不同的基因,或制造着数量不同的同一种蛋白质。要回答“是*哪个*基因”“序列*是什么*”“蛋白质*有多少*”这类问题,你就得停下观看,转而去读取分子本身。正是这一转变——从看见到读取——筑起了现代分子生物学,而它所依靠的技术,数量少得令人意外。
本篇四件工具中有三件,都建立在你早在基因组各级就见过的一个想法上:碱基配对。因为 A 总是与 T 配对、G 总是与 C 配对,一条单链 DNA 就携带了足以找到、复制或读出它搭档的全部信息。复制 DNA(PCR)、读取 DNA(测序),乃至下一篇里基因编辑器所用的那个碱基配对“地址标签”,靠的都是同一条规则。第四件工具——蛋白质印迹——则横跨一步,转而追问蛋白质。它们合在一起,让我们得以复制、分选、读取与检测——这正是分子手艺的四个动词。
PCR:一台分子复印机
第一个难题是赤裸裸的“稀少”。一滴血、一根发根、从你脸颊上刮下的一点黏膜——每一份里,任何一段特定 DNA 的含量都微乎其微,少到根本无法读取或检测。PCR,即聚合酶链式反应,正是用反复复制某一选定区段的办法来化解这一点:一个起始分子,最终被复制成上亿个。可以把它想成一台复印机,它不复印整本书,只复印你指给它看的那一段。PCR是让本篇几乎其余一切都得以成立的技术,因为在分选或读取 DNA 之前,你通常得先有*足量*的 DNA。
妙就妙在这里:PCR 其实就是把 DNA 复制从细胞里搬出来、放进试管里跑一遍。回想复制那一级:复制需要把两条链拉开、用短引物标出起点,再由 DNA 聚合酶去延长它们。而 PCR 仅凭温度变化就把这三件事全做了。加热到接近沸腾,把双螺旋撬成两条单链。降温,让两段量身设计的短引物——你的目标区段两端各一段——精确地黏到你希望复制开始和结束的位置。随后一个升温步骤,让聚合酶在两段引物之间填出崭新的链。有一个细节让它真正变得实用:普通聚合酶会被接近沸腾的那一步破坏掉,所以 PCR 用的是一种耐热聚合酶,借自生活在温泉里的微生物。
- 变性:把样品加热到接近沸腾,使每条双螺旋裂成两条单链。
- 退火:降温,使两段短引物黏附到你目标序列的精确两端。
- 延伸:略微升温,使耐热聚合酶从每段引物开始合成一条新链。
- 循环:每一轮使拷贝数翻倍,所以约 30 个循环就能把一个分子变成上亿个。
凝胶电泳:按大小分选
现在你有了一管 DNA——可你怎么知道这次 PCR 真的复制了对的东西,而不是某些更短的垃圾?办法是把这些片段按大小分选。凝胶电泳会浇出一块布满微孔、果冻一般的凝胶板,把你的 DNA 装进一端的小加样孔里,再在两端加上电流。在这里,DNA 的化学性质替你干了活:它的骨架带着均匀的负电,所以每个片段都被拖向正极。小片段在网眼里蠕动得快、跑得远;大片段则被卡住、落在后面。凝胶电泳把一份看不见的混合物,变成一道道带状的“阶梯”,每一条带都是一堆大小完全相同的片段堆在一起。
wells (load here) negative electrode (-) | | | | [===][===][===][===] <- DNA starts here, runs DOWN : = : = big fragments: slow, near top = : = : : = : small fragments: fast, near bottom = = v v v v positive electrode (+) lane1 marker sampleA sampleB (compare to known sizes)
对凝胶能告诉你什么、不能告诉你什么,要诚实。在样品旁边跑一条已知大小的标志物泳道,你就能大致读出每条带有多大——所以凝胶能确认*存在一个大小正确的分子*。但仅此而已。凝胶无法告诉你这条带真正的序列、它是哪个基因、它有什么功能;两个毫不相干、却长度相同的片段,会落在完全相同的位置。凝胶电泳是一件分离与定大小的工具,而非鉴定的工具——这恰恰是为什么它常常充当*第一步*,把样品送进测序或蛋白质印迹,真正的鉴定在那里才发生。
测序:读出字母
复制并定好大小,仍然没有回答那个最根本的问题:它到底*在说什么*?DNA 把意义储存在它四个字母——A、T、G、C——的精确排列顺序里,而一摊 DNA,无论多么充足,在你读出这个顺序之前都什么也告诉不了你。DNA 测序就是逐个字母把它读出来的技术,它把一个物理分子变成可以储存、检索,并与地球上任何其他基因组相比对的文本。正是这一步,把生物学转化成了信息。
大多数现代测序,又一次倚靠复制——只不过是被放慢了来观看的复制。机器在被读取的 DNA 对面合成一条新链,并安排每一个字母在被加上去的同时“自报家门”:在一种被广泛采用的方法里,每个被掺入的碱基都会闪出一小束光,光的颜色说明它是四个字母中的哪一个。一台相机按顺序记录这些颜色,于是把序列拼写了出来。让DNA 测序变得廉价的诀窍,是不止对一个分子、而是同时对上百万个分子并行地这样做,于是一个三十亿字母的人类基因组如今一两天就能读完——而这件事,第一个人类基因组计划花了十多年、耗资数十亿美元。
然而,序列并不等于理解。测序告诉你这份食谱*怎么写*——字母的顺序——但它本身并不告诉你在某个特定细胞里哪些基因被开启了、细胞究竟如何使用它们,或者某一段陌生序列有什么作用。知道存在一个突变,本身并不能告诉你它是否致病;那仍然需要做实验,就是你两篇前在培养皿里做的那种实验,而且常常要在模式生物里做。而且这些读取本身也会带有偶发的错误,所以任何重要的发现,都要靠把同一区域反复读取许多遍来确认。测序揭示了文本;而文本的含义,是另一个更难的问题。
蛋白质印迹:抓住一种蛋白质
DNA 告诉你食谱;蛋白质则是真正被烹出来的那道菜。一个细胞可以携带某个基因,却一点都不制造它的蛋白质,也可以倾倒出极大量的蛋白质——而真正干活的,只有蛋白质。蛋白质印迹回答关于某一选定蛋白质的两个朴素问题:它在不在,以及大约有多少?它正是从凝胶停下的地方接着开始:先用凝胶电泳把细胞的蛋白质按大小分开(蛋白质和 DNA 一样,可以被诱导着按大小在凝胶里行进),再把它们转移——*印*——到一张薄膜上,薄膜把它们钉在原位以供探测。
接下来是巧妙之处,你在荧光那一篇里已经见过:用一种抗体作为量身定形的探针。一种针对你目标蛋白质制备的抗体被淋在薄膜上,它只黏住那一种蛋白质,无视其余成千上万种。随后第二种带标记的抗体扣到第一种上,产生可见的信号——一条深色的带,或一团亮光——恰好落在目标所在之处。这条带在凝胶上的*位置*揭示了蛋白质的大小;它的*深浅*则大致反映出含量多少。这和免疫染色里“抗体即探针”的逻辑完全相同,只不过结果是读成薄膜上的一条带,而非细胞内的一团亮光。
四个动词,一套流程
这些工具组合起来最为耀眼,一件接一件地往下传。典型的一天可能是这样:从样品里提取一点点 DNA,用 PCR 把目标基因*复制*到足量;跑一块凝胶把产物*分选*出来、确认大小正确;把那条带送去*读取*它的序列;如果你在意这个基因是否真的被造成了蛋白质,就再跑一次蛋白质印迹去*检测*并大致测量那种蛋白质。复制、分选、读取、检测——四个动词,环环相扣,串成分子实验室日常的工作流程。
请留意贯穿这一切的那条共同主线。PCR 复制 DNA,测序读取 DNA,而最后一篇里等着的那台基因编辑器也把自己瞄准 DNA——这三件事之所以行得通,全都因为 A 与 T、G 与 C 配对,正是这同一条把双螺旋维系在一起的碱基配对规则。我们如今已经学会了*看见*细胞、*培养*并*分选*它们,以及*读取和复制*它们的密码。只剩下最后一个动词,也是最大胆的一个:*改写*它。这正是下一篇为整条阶梯收尾之处——CRISPR,那件把“读取密码”变成“编辑密码”的工具。