JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

桑格测序

第一个能逐个字母清晰读出 DNA 的方法:复制一条链,但让少数被「做了手脚」的构件在随机位点叫停复制,再按长度把片段排好,依次读出颜色。这就是第一个人类基因组背后那个一丝不苟、堪称黄金标准的读法。

复制不难,难的是读出来

到了这一级阶梯,你对 DNA 已经能做出不少了不起的事。你能切它、粘它、把它送进细菌;靠PCR,你能拿一段微弱的序列,在一个下午里复制上十亿倍。但复制不等于读取。一管装着十亿份某基因拷贝的试管,仍然不会*告诉*你它的序列——也就是字母的真实排列,A-T-G-C-C-A 这样一路顺着链排下去。这个排列才是关键所在:它正是细胞按 DNA -> RNA -> 蛋白质读出的信息,是突变所改动的东西,是你最终想要的那条讯息。所以,定义这篇指南的那个问题,提出来很简单,却在很长一段时间里难得令人发指:给你一条 DNA,你怎么弄清它碱基的确切顺序?

麻烦在于,单个碱基小得无法想象,而那四个字母在化学上几乎一模一样——A、T、G、C 之间只差一两个原子环。你没法把一条链放到显微镜下、眯着眼去看字母;没有任何东西能清晰到那个地步。弗雷德里克·桑格在 1977 年发明的突破,则干脆绕开了这个难题。它不去试着*看见*碱基,而是把「下一个字母是什么?」这个看不见的问题,转化成一个看得见的问题:「这个片段有多长?」长度,你是能量出来的。其中的精妙,正是连接两者的那座桥——一种让链恰好在某个特定字母被加上时停止生长的办法,于是停下来的片段的长度,就告诉了你那个字母所在的位置。

那个让链停下来的「破损」构件

要看懂这个把戏,你需要早先那一级阶梯上的一个事实。当DNA 聚合酶复制一条链时,它每次都把新的核苷酸加在同一个位置上:前一个糖上一个叫 3'-羟基(3'-OH)的化学挂钩。下一个核苷酸正是要键合到那个挂钩上。没有 3'-OH,就没有可供连接的地方——链根本无法再长出一个字母。这正是为什么链是沿 5'-到-3' 方向延伸的——你已经知道的那条规则。记住这一点:3'-OH 就是生长的末端,是下一个碱基挂上去的地方。

现在来看这个方法的核心。在正常构件之外,桑格测序还掺进了极小一部分被「做了手脚」的构件,叫做双脱氧核苷酸(ddNTP)。一个双脱氧核苷酸几乎是一件完美的赝品:它和真碱基太像了,聚合酶会高高兴兴地把它捡起来、接到链上。但它恰好少了一样东西——那个 3'-OH 挂钩。名字就说明了:「双脱氧」意思是少了*两个*氧,而非通常的一个。于是 ddNTP 一旦被加上,链就在末端被「毒住」了。下一个核苷酸无处可接,那条链上的合成戛然而止,被冻结在那个字母处。一个缺失的氧原子,就是读取 DNA 的全部基础。

一架片段的梯子,从小到大

想象一下那堆片段长什么样。从同一个起点出发——一段短短的引物,正如在 PCR 里一样,给聚合酶提供一个起步的地方——链向外生长,又在零零散散的位点停下。某个分子的链碰巧在第 1 个碱基后停住,另一个在第 2 个后,又一个在第 3 个后,如此一直往上。因为终止在某个分子里命中了每一个位置,你最后手里握着的,是长度为 1、2、3、4、5……的片段,一道连续的台阶,每一级都恰好比下一级高出一个碱基。还有一个关键的额外事实:你知道每个片段是以*哪个字母*结尾的,因为让它停下的那个终止子,正是它携带的最后一个碱基。

当相邻片段在几百个碱基里只差一个碱基时,你要怎么把数百万个这样的片段按长度排好?靠凝胶电泳,一件你以前见过的工具。DNA 沿它的糖—磷酸骨架带着均匀的负电,所以电场会把每一个片段都拽向正极那一端;凝胶则是一张分子筛,它拦住长片段比拦住短片段更厉害。较短的片段穿得更快、跑得更远。现代的机器把这套过程放到超细的毛细管里跑,分辨率精细到能把一个 200 碱基的片段与一个 201 碱基的片段分开——单碱基分辨率,这正是一次读一个字母所要求的。

Template being copied (5'->3'):  T A C G G T C ...
Complement built by polymerase:  A T G C C A G ...

Each fragment STOPS at its terminator (shown lowercase):

  a                <- stops at base 1, ends in A
  a t              <- stops at base 2, ends in T
  a t g            <- stops at base 3, ends in G
  a t g c          <- stops at base 4, ends in C
  a t g c c        <- stops at base 5, ends in C
  a t g c c a      <- stops at base 6, ends in A
  a t g c c a g    <- stops at base 7, ends in G

Sort by length (short -> long) and read the END letter of each rung:

  A  T  G  C  C  A  G  ...   <- the sequence, read straight off
每一个被终止的片段都是梯子上的一级;把它们从短到长排好,每一级的末尾字母依次读出,就拼出了序列。

从一架彩色梯子到一条读长

现代的自动化版本,加上了一笔优雅的设计,让整件事能被机器读出。四种终止子各自带着一种*不同的荧光染料*:比方说 ddA 发绿光、ddT 发红光、ddG 发黄光、ddC 发蓝光(具体颜色各家不一)。如今每个片段不只是某个特定长度,还在末端带着它最后那个碱基的颜色。当毛细管按长度把片段分开、它们一个接一个地从激光前列队走过——最短的先走——一个检测器便依次读出每一个的颜色。这串从短到长的颜色,*就是*序列:绿—红—黄—蓝—蓝—绿 拼出 A-T-G-C-C-A。那一串彩色峰在屏幕上鱼贯而行的图,就是著名的色谱图,桑格数据的原始面貌。

  1. 配一个反应。把单链模板、一段引物、DNA 聚合酶、四种正常核苷酸,以及一小份四种带染料的双脱氧终止子混到一起。
  2. 复制并终止。聚合酶延伸引物;在每个碱基处它通常加一个正常核苷酸,但有时加一个终止子,让那条链停下,并给它末端染上一种颜色。
  3. 按长度排序。让混合物穿过毛细管凝胶;较短的片段先出来,于是片段按长度顺序排成一队,相邻的相差一个碱基。
  4. 读出颜色。激光和检测器在每个片段经过时记下它的颜色;从短到长,这串颜色拼出序列——那串字母就是你的读长。

最后出来的那串被解码的字母,叫做读长(read)——每一种测序技术的基本单元,你在更新的方法里还会再遇到同一个词。一条好的桑格读长大约能跑 500 到 1000 个碱基,再往后片段就长得让凝胶难以干净地分辨,颜色也开始模糊。这个长度是一项实打实的优势:单条桑格读长足以一口气覆盖一个小基因,或确认一个克隆片段,而且每个碱基通常都附带一个质量分数,说明这次判读有多大把握。

至今仍是黄金标准——以及它诚实的局限

桑格测序是当年人类基因组计划的引擎,那是人类头一回读出一个人类基因组的国际性努力。一次大约只读一千个碱基去读完三十亿个,意味着数百万条读长、十多年时间和数十亿美元——可歌可泣,但显然太慢、太贵,无法对每个病人、每个物种都重做一遍。正是这股压力,催生了你接下来会遇到的下一代测序方法,它把桑格那种一次一条的细致读法,换成了并行读取数百万条短片段,并把成本压低了上百万倍。

但这里有一个诚实的转折,也是一个值得纠正的常见误解:「被取代」并不等于「被淘汰」。桑格测序至今仍是短而准确的读取的日常黄金标准。当你需要对某一段*确有把握*时——要确认一个单基因、核对一个克隆是否做对了,或复核一个下一代测序标记出来的可疑变异——桑格正是各实验室信赖、用来一锤定音的方法。它的读长是那个一丝不苟、一锤定音的,而非批量生产的。一个下一代测序的结果,往往要等被桑格重读一遍之后,才被认为得到了确认。