下一代测序

桑格法无法突破的瓶颈

在上一篇导览里你见过了桑格测序，它真的很优美：一种聚合酶复制你的链，每隔一阵就有一个能终止链延伸的双脱氧核苷酸给正在增长的拷贝封顶，于是你得到一组层层嵌套、各种长度俱全的片段梯，每一段都由它最后一个字母来标记。把这架梯子跑开、读出颜色，你就拿到了序列。问题就出在「一个」这个词上。一次反应只读一个片段——几百到约一千个碱基——跑在单独一条泳道里。要用这种办法读完一个三十亿碱基的人类基因组，你得把它克隆成数百万小块，跑数百万次各自独立的反应，再把答案拼接起来。人类基因组计划正是这么干的，前后花了大约十年，耗资数十亿美元。

所以瓶颈从来都不在准确度上——桑格法的读取质量极佳。瓶颈在于通量：你每花一块钱、每过一天能读出多少个字母。桑格法是一道手艺活，一管、一根毛细管地来，而你没法把一门手艺切实地放大到几十亿个碱基。那个显而易见的梦想，就是别再一个接一个地读片段，而是让海量的片段*同时*被读取，肩并肩，挤在同一小块空间里。这个梦想，正是下一代测序——也叫*大规模并行测序*——最终实现的东西，也正是为什么一个曾经要花掉一国科研预算的基因组，如今只值一部智能手机的价钱。

边合成边读，百万个点同时进行

下一代测序中占主导的那一种，靠的是一招叫边合成边测序的把戏，其核心思路你其实已经半懂了：盯着一种聚合酶搭建一条互补链，并在每个字母*被加上的那一刻*把它记下来。首先把基因组打碎成短小的片段，把数百万个这样的片段撒开、固定在一张玻璃片上，每一个各占一个微小的点位。接着每一个孤零零的片段都被就地复制——被扩增，很像一场微型的局部PCR——变成一簇一千来个一模一样分子的密集团块，于是单个分子发出什么信号，整簇就把它放大一千倍发出来，你这才真正看得见。如今你手里这张片子载着*数百万个簇*，每一簇都是某一个片段的纯净菌落，全都准备好被同时读取。

把四种碱基一次全加进去，但每一种都带着一个有颜色的标签，以及一个能挡住下一个碱基接上来的化学「封帽」。聚合酶在每一簇上恰好接上一个正确的碱基，然后停住。
给整张片子拍一张照。每一簇都以四种颜色之一发亮，告诉你刚刚在那里接上的是哪一个字母——一张快照读出几百万个字母。
用化学方法剪掉颜色标签和封帽，让每一条链都能接受它的下一个碱基。
把「加—拍—剪」这一循环重复几百次。按顺序把这些照片叠起来，每一簇就一个字母一个字母地拼出了它那个片段。

读长、覆盖度，以及把拼图复原

从机器里滚出来的不是一个基因组，而是一大片短片段。你读到的每一个片段给出一条读长（read）——一串字母，对边合成法而言通常只有 100 到 300 个碱基长。一次人类基因组的运行会产出几亿、甚至几十亿条这样的读长。关键在于，基因组当初是被*随机*打碎的，所以这些读长彼此随机地交叠，就像把同一本书的许多份撕成纸屑，再全倒进一堆。片段之间彼此交叠这一点，正是把它们重新拼起来的全部要害，也正是为什么你要刻意读出远多于基因组实际所含的字母总数。

这种刻意的过量有个名字：覆盖度，或称*深度*。如果你读了足够多的片段，使得基因组上平均每一个位置都被 30 条不同的、彼此交叠的读长覆盖到，你就拥有了*30 倍覆盖度*。深度是你的安全网。每一条单独的读长都带有一些误差，任何一个碱基都可能恰好落在一条把它读错了的读长里；但当 30 条读长各自独立地一致认为某个位点是 G，你就可以信它，而当它们 15 条说是 A、15 条说是 G 平分时，你就逮到了一个真正的变异——这条染色体的一份拷贝与另一份不同。低覆盖度便宜，却会留下空缺和不确定的判读；高覆盖度更费钱，但买来了把握。选定一个深度，就是测序实验里天天要算的经济账。

GENOME:    ...A C G T T A G C C A T G A C ...   (the truth we want)

Reads (short, overlapping, error-prone):
           A C G T T A G
               G T T A G C C A
                     A G C C A T G
                         C A T G A C
           --------------------------------
ALIGN +    A C G T T A G C C A T G A C   <- overlaps let us
VOTE       every column read many times      rebuild the sequence

Coverage 4x here: each base sits under ~4 reads, so a single misread loses the vote.

许多短读长靠机遇彼此交叠；把它们对齐、在每个位置上少数服从多数，既重建了序列，又纠正了随机误差。交叠越多，意味着覆盖度越高、把握越大。

把那一堆交叠的读长重新变回一条连续的序列，就是基因组组装，一道由计算机来解的巨型拼图。当你手头已有该物种一份已知的参考基因组时，活儿就轻松些：你只需找出每条读长与参考序列最匹配的位置、把它铺在那儿，就像对着盒盖上画好的成图来归整纸屑。而*从零开始*——没有参考——去构建一个基因组就难多了，因为你必须纯靠读长与读长的相互匹配来找出交叠，而那些到处看起来都一样的重复片段会让拼图卡壳。正是在这一刻，生物学变成了计算：湿实验把接力棒交给软件与统计，读一个基因组就成了一道生物信息学的难题。

长读长：让一条链穿过纳米孔

边合成法有一个顽固的弱点：它的读长*太短*。几百个碱基对于在参考序列上找出单个字母的差异绰绰有余，但要跨越一段很长的重复区域就毫无指望了，因为一条落在一长串相同重复里的 150 碱基读长，可能来自那串重复里的任何地方——这副拼图有许多块长得一模一样。解决之道是一种截然不同的*第三代*路子：纳米孔测序，它直接读取单个 DNA 分子，完全不复制、也完全不合成。

想象一张膜，上面嵌着单独一个蛋白质孔，刚好宽到能让一条 DNA 单链穿过去，再有一个微小的电压推动着离子流过那个孔、形成一股稳定的电流。现在让一个 DNA 分子穿过这个孔。当每个碱基经过最窄处时，它各自的形状和大小会把电流掐住一个特定的幅度——四种字母对电流的挤压各不相同——于是这条链就把自己写成了一道起伏的电信号轨迹，软件再把这道轨迹解码回 A、T、G、C。因为你只是不停地把同一个分子往里穿，读取不会停在几百个碱基处：纳米孔读长动辄长达数万个碱基，有时超过一百万个，长到足以一步跨过那些击败短读长的重复区。

廉价的测序为何改变了生物学

一旦你能廉价地以十亿碱基计读取 DNA，同一台机器就远不只能读基因组。把一个细胞的 RNA 反转录回 DNA——用的是你在中心法则那一级见过的那同一种反转录酶——再去测它，你做的就是RNA 测序：你不再问*这个细胞里有哪些基因*，而是问*这个细胞把哪些基因开了、开得多响*，办法是数有多少条读长落在每个基因上。把同样的思路一直推到一次只测一个细胞，你就得到了单细胞测序，它揭示出我们曾当作均一一片的组织，实则是由各不相同的细胞状态拼成的马赛克。这台读字母的机器，成了一把衡量细胞正在做什么的通用量尺。

它也走进了临床。给一个肿瘤测序，能精确揭示是哪些突变在驱动它，从而指向一种针对那个特定改变的药物。孕者的血液里带着胎儿 DNA 的踪迹，测序能据此筛查染色体异常，而无需把针扎到子宫附近。在大流行期间，从成千上万份样本里读出流行病毒的基因组，正是在几天之内发现并追踪新变异株的办法。这一切若按桑格法的通量都将贵到负担不起；正是那「一次几百万个」的并行，才让测序成为一项常规的诊断手段，而非一桩英雄主义的一次性工程。

最后一句诚实的提醒，好让你带着一幅真切的图景往上爬。那句著名的「千元基因组」，指的是产出原始读长的成本——它并不包含组装、生物信息学分析、数据存储，也不包含解读一个变异对一个人究竟*意味着什么*的艰苦工作。廉价的读取并没有让生物学变简单；它只是把瓶颈往下游挪了，从实验台挪到了数据上。我们如今读基因组的速度，已经快过我们理解它们的速度，而把字母的洪流变成知识的这门学问，从许多意义上说，正是当今分子生物学最忙碌的地方。