我们如何读出 DNA：桑格法与人类基因组计划

桑格测序：靠故意“停下”来读取

DNA 测序的意思是确定一条链上核苷酸——A、C、G、T——的确切排列顺序。第一种能可靠做到这一点的方法由弗雷德里克·桑格于 1970 年代发明，至今仍在使用。其巧妙之处在于：用DNA 聚合酶复制 DNA，但偶尔掺入一种特殊的“链终止”字母，使复制停下来。重复几十亿次，你就会得到一批在每一个可能位置都有停止的拷贝。

先准备好许多份你想读取的 DNA 拷贝，再加上一段短引物，给聚合酶一个起始的落脚点。
让聚合酶用正常字母合成新链，其中混入少量终止字母，一旦掺入就会让链停止延伸。
每个终止字母都带有对应 A、C、G 或 T 的颜色标记，于是每个片段都被它的最后一个字母所标记。
用凝胶电泳按长度把所有片段排序；从最短到最长依次读出颜色，就拼出了整条序列。

Template strand:   3'- T A C G G A T C ...
New strands stop at each position:
  A                 (length 1)
  A T               (length 2)
  A T G             (length 3)
  A T G C           (length 4)
  ...
Sort by length, read the last letter of each:
  A, T, G, C, C, T, A, G ...  ->  the sequence

桑格的妙招：一架在每个位置都有停顿的片段“阶梯”，一级一级地把序列拼出来。

人类基因组计划：长达 13 年的马拉松

桑格测序一次只能读出几百个字母。为了读出 32 亿个字母，人类基因组计划（1990–2003 年）协调了六个国家的数千名科学家，把基因组拆成可处理的片段，逐一测序，再依据重叠处把它们重新拼接起来。这项公共计划与 Celera 公司主导的私营竞赛并行展开，最终产出了首份基本完整的人类基因组序列。

这项计划最深远的遗产，并不是某一个人的 DNA，而是一份人人都可以在其上继续构建的共享地图。它的数据一经产生便免费公开，这一政策塑造了基因组学至今的运作方式。它拼接而成的那份合成序列，成了参考基因组的第一个版本——也就是第四篇指南的主题。