桑格定序:靠故意「停下」來讀取
DNA 定序的意思是確定一條鏈上核苷酸——A、C、G、T——的確切排列順序。第一種能可靠做到這一點的方法由弗雷德里克·桑格於 1970 年代發明,至今仍在使用。其巧妙之處在於:用DNA 聚合酶複製 DNA,但偶爾摻入一種特殊的「鏈終止」字母,使複製停下來。重複幾十億次,你就會得到一批在每一個可能位置都有停止的拷貝。
- 先準備好許多份你想讀取的 DNA 拷貝,再加上一段短引子,給聚合酶一個起始的落腳點。
- 讓聚合酶用正常字母合成新鏈,其中混入少量終止字母,一旦摻入就會讓鏈停止延伸。
- 每個終止字母都帶有對應 A、C、G 或 T 的顏色標記,於是每個片段都被它的最後一個字母所標記。
- 用凝膠電泳按長度把所有片段排序;從最短到最長依次讀出顏色,就拼出了整條序列。
Template strand: 3'- T A C G G A T C ... New strands stop at each position: A (length 1) A T (length 2) A T G (length 3) A T G C (length 4) ... Sort by length, read the last letter of each: A, T, G, C, C, T, A, G ... -> the sequence
人類基因體計畫:長達 13 年的馬拉松
桑格定序一次只能讀出幾百個字母。為了讀出 32 億個字母,人類基因體計畫(1990–2003 年)協調了六個國家的數千名科學家,把基因體拆成可處理的片段,逐一定序,再依據重疊處把它們重新拼接起來。這項公共計畫與 Celera 公司主導的私營競賽並行展開,最終產出了首份基本完整的人類基因體序列。
這項計畫最深遠的遺產,並不是某一個人的 DNA,而是一份人人都可以在其上繼續構建的共享地圖。它的資料一經產生便免費公開,這一政策塑造了基因體學至今的運作方式。它拼接而成的那份合成序列,成了參考基因體的第一個版本——也就是第四篇指南的主題。