桑格测序:靠故意“停下”来读取
DNA 测序的意思是确定一条链上核苷酸——A、C、G、T——的确切排列顺序。第一种能可靠做到这一点的方法由弗雷德里克·桑格于 1970 年代发明,至今仍在使用。其巧妙之处在于:用DNA 聚合酶复制 DNA,但偶尔掺入一种特殊的“链终止”字母,使复制停下来。重复几十亿次,你就会得到一批在每一个可能位置都有停止的拷贝。
- 先准备好许多份你想读取的 DNA 拷贝,再加上一段短引物,给聚合酶一个起始的落脚点。
- 让聚合酶用正常字母合成新链,其中混入少量终止字母,一旦掺入就会让链停止延伸。
- 每个终止字母都带有对应 A、C、G 或 T 的颜色标记,于是每个片段都被它的最后一个字母所标记。
- 用凝胶电泳按长度把所有片段排序;从最短到最长依次读出颜色,就拼出了整条序列。
Template strand: 3'- T A C G G A T C ... New strands stop at each position: A (length 1) A T (length 2) A T G (length 3) A T G C (length 4) ... Sort by length, read the last letter of each: A, T, G, C, C, T, A, G ... -> the sequence
人类基因组计划:长达 13 年的马拉松
桑格测序一次只能读出几百个字母。为了读出 32 亿个字母,人类基因组计划(1990–2003 年)协调了六个国家的数千名科学家,把基因组拆成可处理的片段,逐一测序,再依据重叠处把它们重新拼接起来。这项公共计划与 Celera 公司主导的私营竞赛并行展开,最终产出了首份基本完整的人类基因组序列。
这项计划最深远的遗产,并不是某一个人的 DNA,而是一份人人都可以在其上继续构建的共享地图。它的数据一经产生便免费公开,这一政策塑造了基因组学至今的运作方式。它拼接而成的那份合成序列,成了参考基因组的第一个版本——也就是第四篇指南的主题。