桑格测序 — JOVANA Education

复制不难，难的是读出来

到了这一级阶梯，你对 DNA 已经能做出不少了不起的事。你能切它、粘它、把它送进细菌；靠PCR，你能拿一段微弱的序列，在一个下午里复制上十亿倍。但复制不等于读取。一管装着十亿份某基因拷贝的试管，仍然不会*告诉*你它的序列——也就是字母的真实排列，A-T-G-C-C-A 这样一路顺着链排下去。这个排列才是关键所在：它正是细胞按 DNA -> RNA -> 蛋白质读出的信息，是突变所改动的东西，是你最终想要的那条讯息。所以，定义这篇指南的那个问题，提出来很简单，却在很长一段时间里难得令人发指：给你一条 DNA，你怎么弄清它碱基的确切顺序？

麻烦在于，单个碱基小得无法想象，而那四个字母在化学上几乎一模一样——A、T、G、C 之间只差一两个原子环。你没法把一条链放到显微镜下、眯着眼去看字母；没有任何东西能清晰到那个地步。弗雷德里克·桑格在 1977 年发明的突破，则干脆绕开了这个难题。它不去试着*看见*碱基，而是把「下一个字母是什么？」这个看不见的问题，转化成一个看得见的问题：「这个片段有多长？」长度，你是能量出来的。其中的精妙，正是连接两者的那座桥——一种让链恰好在某个特定字母被加上时停止生长的办法，于是停下来的片段的长度，就告诉了你那个字母所在的位置。

那个让链停下来的「破损」构件

要看懂这个把戏，你需要早先那一级阶梯上的一个事实。当DNA 聚合酶复制一条链时，它每次都把新的核苷酸加在同一个位置上：前一个糖上一个叫 3'-羟基（3'-OH）的化学挂钩。下一个核苷酸正是要键合到那个挂钩上。没有 3'-OH，就没有可供连接的地方——链根本无法再长出一个字母。这正是为什么链是沿 5'-到-3' 方向延伸的——你已经知道的那条规则。记住这一点：3'-OH 就是生长的末端，是下一个碱基挂上去的地方。

现在来看这个方法的核心。在正常构件之外，桑格测序还掺进了极小一部分被「做了手脚」的构件，叫做双脱氧核苷酸（ddNTP）。一个双脱氧核苷酸几乎是一件完美的赝品：它和真碱基太像了，聚合酶会高高兴兴地把它捡起来、接到链上。但它恰好少了一样东西——那个 3'-OH 挂钩。名字就说明了：「双脱氧」意思是少了*两个*氧，而非通常的一个。于是 ddNTP 一旦被加上，链就在末端被「毒住」了。下一个核苷酸无处可接，那条链上的合成戛然而止，被冻结在那个字母处。一个缺失的氧原子，就是读取 DNA 的全部基础。

一架片段的梯子，从小到大

想象一下那堆片段长什么样。从同一个起点出发——一段短短的引物，正如在 PCR 里一样，给聚合酶提供一个起步的地方——链向外生长，又在零零散散的位点停下。某个分子的链碰巧在第 1 个碱基后停住，另一个在第 2 个后，又一个在第 3 个后，如此一直往上。因为终止在某个分子里命中了每一个位置，你最后手里握着的，是长度为 1、2、3、4、5……的片段，一道连续的台阶，每一级都恰好比下一级高出一个碱基。还有一个关键的额外事实：你知道每个片段是以*哪个字母*结尾的，因为让它停下的那个终止子，正是它携带的最后一个碱基。

当相邻片段在几百个碱基里只差一个碱基时，你要怎么把数百万个这样的片段按长度排好？靠凝胶电泳，一件你以前见过的工具。DNA 沿它的糖—磷酸骨架带着均匀的负电，所以电场会把每一个片段都拽向正极那一端；凝胶则是一张分子筛，它拦住长片段比拦住短片段更厉害。较短的片段穿得更快、跑得更远。现代的机器把这套过程放到超细的毛细管里跑，分辨率精细到能把一个 200 碱基的片段与一个 201 碱基的片段分开——单碱基分辨率，这正是一次读一个字母所要求的。

Template being copied (5'->3'):  T A C G G T C ...
Complement built by polymerase:  A T G C C A G ...

Each fragment STOPS at its terminator (shown lowercase):

  a                <- stops at base 1, ends in A
  a t              <- stops at base 2, ends in T
  a t g            <- stops at base 3, ends in G
  a t g c          <- stops at base 4, ends in C
  a t g c c        <- stops at base 5, ends in C
  a t g c c a      <- stops at base 6, ends in A
  a t g c c a g    <- stops at base 7, ends in G

Sort by length (short -> long) and read the END letter of each rung:

  A  T  G  C  C  A  G  ...   <- the sequence, read straight off

每一个被终止的片段都是梯子上的一级；把它们从短到长排好，每一级的末尾字母依次读出，就拼出了序列。

从一架彩色梯子到一条读长

现代的自动化版本，加上了一笔优雅的设计，让整件事能被机器读出。四种终止子各自带着一种*不同的荧光染料*：比方说 ddA 发绿光、ddT 发红光、ddG 发黄光、ddC 发蓝光（具体颜色各家不一）。如今每个片段不只是某个特定长度，还在末端带着它最后那个碱基的颜色。当毛细管按长度把片段分开、它们一个接一个地从激光前列队走过——最短的先走——一个检测器便依次读出每一个的颜色。这串从短到长的颜色，*就是*序列：绿—红—黄—蓝—蓝—绿拼出 A-T-G-C-C-A。那一串彩色峰在屏幕上鱼贯而行的图，就是著名的色谱图，桑格数据的原始面貌。

配一个反应。把单链模板、一段引物、DNA 聚合酶、四种正常核苷酸，以及一小份四种带染料的双脱氧终止子混到一起。
复制并终止。聚合酶延伸引物；在每个碱基处它通常加一个正常核苷酸，但有时加一个终止子，让那条链停下，并给它末端染上一种颜色。
按长度排序。让混合物穿过毛细管凝胶；较短的片段先出来，于是片段按长度顺序排成一队，相邻的相差一个碱基。
读出颜色。激光和检测器在每个片段经过时记下它的颜色；从短到长，这串颜色拼出序列——那串字母就是你的读长。

最后出来的那串被解码的字母，叫做读长（read）——每一种测序技术的基本单元，你在更新的方法里还会再遇到同一个词。一条好的桑格读长大约能跑 500 到 1000 个碱基，再往后片段就长得让凝胶难以干净地分辨，颜色也开始模糊。这个长度是一项实打实的优势：单条桑格读长足以一口气覆盖一个小基因，或确认一个克隆片段，而且每个碱基通常都附带一个质量分数，说明这次判读有多大把握。

至今仍是黄金标准——以及它诚实的局限

桑格测序是当年人类基因组计划的引擎，那是人类头一回读出一个人类基因组的国际性努力。一次大约只读一千个碱基去读完三十亿个，意味着数百万条读长、十多年时间和数十亿美元——可歌可泣，但显然太慢、太贵，无法对每个病人、每个物种都重做一遍。正是这股压力，催生了你接下来会遇到的下一代测序方法，它把桑格那种一次一条的细致读法，换成了并行读取数百万条短片段，并把成本压低了上百万倍。

但这里有一个诚实的转折，也是一个值得纠正的常见误解：「被取代」并不等于「被淘汰」。桑格测序至今仍是短而准确的读取的日常黄金标准。当你需要对某一段*确有把握*时——要确认一个单基因、核对一个克隆是否做对了，或复核一个下一代测序标记出来的可疑变异——桑格正是各实验室信赖、用来一锤定音的方法。它的读长是那个一丝不苟、一锤定音的，而非批量生产的。一个下一代测序的结果，往往要等被桑格重读一遍之后，才被认为得到了确认。