桑格定序 — JOVANA Education

複製不難，難的是讀出來

到了這一級階梯，你對 DNA 已經能做出不少了不起的事。你能切它、黏它、把它送進細菌；靠PCR，你能拿一段微弱的序列，在一個下午裡複製上十億倍。但複製不等於讀取。一管裝著十億份某基因拷貝的試管，仍然不會*告訴*你它的序列——也就是字母的真實排列，A-T-G-C-C-A 這樣一路順著鏈排下去。這個排列才是關鍵所在：它正是細胞按 DNA -> RNA -> 蛋白質讀出的資訊，是突變所改動的東西，是你最終想要的那條訊息。所以，定義這篇指南的那個問題，提出來很簡單，卻在很長一段時間裡難得令人髮指：給你一條 DNA，你怎麼弄清它鹼基的確切順序？

麻煩在於，單個鹼基小得無法想像，而那四個字母在化學上幾乎一模一樣——A、T、G、C 之間只差一兩個原子環。你沒法把一條鏈放到顯微鏡下、瞇著眼去看字母；沒有任何東西能清晰到那個地步。弗雷德里克·桑格在 1977 年發明的突破，則乾脆繞開了這個難題。它不去試著*看見*鹼基，而是把「下一個字母是什麼？」這個看不見的問題，轉化成一個看得見的問題：「這個片段有多長？」長度，你是能量出來的。其中的精妙，正是連接兩者的那座橋——一種讓鏈恰好在某個特定字母被加上時停止生長的辦法，於是停下來的片段的長度，就告訴了你那個字母所在的位置。

那個讓鏈停下來的「破損」構件

要看懂這個把戲，你需要早先那一級階梯上的一個事實。當DNA 聚合酶複製一條鏈時，它每次都把新的核苷酸加在同一個位置上：前一個糖上一個叫 3'-羥基（3'-OH）的化學掛鉤。下一個核苷酸正是要鍵合到那個掛鉤上。沒有 3'-OH，就沒有可供連接的地方——鏈根本無法再長出一個字母。這正是為什麼鏈是沿 5'-到-3' 方向延伸的——你已經知道的那條規則。記住這一點：3'-OH 就是生長的末端，是下一個鹼基掛上去的地方。

現在來看這個方法的核心。在正常構件之外，桑格定序還摻進了極小一部分被「做了手腳」的構件，叫做雙脫氧核苷酸（ddNTP）。一個雙脫氧核苷酸幾乎是一件完美的贗品：它和真鹼基太像了，聚合酶會高高興興地把它撿起來、接到鏈上。但它恰好少了一樣東西——那個 3'-OH 掛鉤。名字就說明了：「雙脫氧」意思是少了*兩個*氧，而非通常的一個。於是 ddNTP 一旦被加上，鏈就在末端被「毒住」了。下一個核苷酸無處可接，那條鏈上的合成戛然而止，被凍結在那個字母處。一個缺失的氧原子，就是讀取 DNA 的全部基礎。

一架片段的梯子，從小到大

想像一下那堆片段長什麼樣。從同一個起點出發——一段短短的引子，正如在 PCR 裡一樣，給聚合酶提供一個起步的地方——鏈向外生長，又在零零散散的位點停下。某個分子的鏈碰巧在第 1 個鹼基後停住，另一個在第 2 個後，又一個在第 3 個後，如此一直往上。因為終止在某個分子裡命中了每一個位置，你最後手裡握著的，是長度為 1、2、3、4、5……的片段，一道連續的台階，每一級都恰好比下一級高出一個鹼基。還有一個關鍵的額外事實：你知道每個片段是以*哪個字母*結尾的，因為讓它停下的那個終止子，正是它攜帶的最後一個鹼基。

當相鄰片段在幾百個鹼基裡只差一個鹼基時，你要怎麼把數百萬個這樣的片段按長度排好？靠凝膠電泳，一件你以前見過的工具。DNA 沿它的糖—磷酸骨架帶著均勻的負電，所以電場會把每一個片段都拽向正極那一端；凝膠則是一張分子篩，它攔住長片段比攔住短片段更厲害。較短的片段穿得更快、跑得更遠。現代的機器把這套過程放到超細的毛細管裡跑，解析度精細到能把一個 200 鹼基的片段與一個 201 鹼基的片段分開——單鹼基解析度，這正是一次讀一個字母所要求的。

Template being copied (5'->3'):  T A C G G T C ...
Complement built by polymerase:  A T G C C A G ...

Each fragment STOPS at its terminator (shown lowercase):

  a                <- stops at base 1, ends in A
  a t              <- stops at base 2, ends in T
  a t g            <- stops at base 3, ends in G
  a t g c          <- stops at base 4, ends in C
  a t g c c        <- stops at base 5, ends in C
  a t g c c a      <- stops at base 6, ends in A
  a t g c c a g    <- stops at base 7, ends in G

Sort by length (short -> long) and read the END letter of each rung:

  A  T  G  C  C  A  G  ...   <- the sequence, read straight off

每一個被終止的片段都是梯子上的一級；把它們從短到長排好，每一級的末尾字母依次讀出，就拼出了序列。

從一架彩色梯子到一條讀長

現代的自動化版本，加上了一筆優雅的設計，讓整件事能被機器讀出。四種終止子各自帶著一種*不同的螢光染料*：比方說 ddA 發綠光、ddT 發紅光、ddG 發黃光、ddC 發藍光（具體顏色各家不一）。如今每個片段不只是某個特定長度，還在末端帶著它最後那個鹼基的顏色。當毛細管按長度把片段分開、它們一個接一個地從雷射前列隊走過——最短的先走——一個偵測器便依次讀出每一個的顏色。這串從短到長的顏色，*就是*序列：綠—紅—黃—藍—藍—綠拼出 A-T-G-C-C-A。那一串彩色峰在螢幕上魚貫而行的圖，就是著名的層析圖，桑格資料的原始面貌。

配一個反應。把單鏈模板、一段引子、DNA 聚合酶、四種正常核苷酸，以及一小份四種帶染料的雙脫氧終止子混到一起。
複製並終止。聚合酶延伸引子；在每個鹼基處它通常加一個正常核苷酸，但有時加一個終止子，讓那條鏈停下，並給它末端染上一種顏色。
按長度排序。讓混合物穿過毛細管凝膠；較短的片段先出來，於是片段按長度順序排成一隊，相鄰的相差一個鹼基。
讀出顏色。雷射和偵測器在每個片段經過時記下它的顏色；從短到長，這串顏色拼出序列——那串字母就是你的讀長。

最後出來的那串被解碼的字母，叫做讀長（read）——每一種定序技術的基本單元，你在更新的方法裡還會再遇到同一個詞。一條好的桑格讀長大約能跑 500 到 1000 個鹼基，再往後片段就長得讓凝膠難以乾淨地分辨，顏色也開始模糊。這個長度是一項實打實的優勢：單條桑格讀長足以一口氣覆蓋一個小基因，或確認一個克隆片段，而且每個鹼基通常都附帶一個品質分數，說明這次判讀有多大把握。

至今仍是黃金標準——以及它誠實的侷限

桑格定序是當年人類基因組計畫的引擎，那是人類頭一回讀出一個人類基因組的國際性努力。一次大約只讀一千個鹼基去讀完三十億個，意味著數百萬條讀長、十多年時間和數十億美元——可歌可泣，但顯然太慢、太貴，無法對每個病人、每個物種都重做一遍。正是這股壓力，催生了你接下來會遇到的次世代定序方法，它把桑格那種一次一條的細緻讀法，換成了並行讀取數百萬條短片段，並把成本壓低了上百萬倍。

但這裡有一個誠實的轉折，也是一個值得糾正的常見誤解：「被取代」並不等於「被淘汰」。桑格定序至今仍是短而準確的讀取的日常黃金標準。當你需要對某一段*確有把握*時——要確認一個單基因、核對一個克隆是否做對了，或複核一個次世代定序標記出來的可疑變異——桑格正是各實驗室信賴、用來一錘定音的方法。它的讀長是那個一絲不苟、一錘定音的，而非批量生產的。一個次世代定序的結果，往往要等被桑格重讀一遍之後，才被認為得到了確認。