JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

桑格定序

第一個能逐個字母清晰讀出 DNA 的方法:複製一條鏈,但讓少數被「做了手腳」的構件在隨機位點叫停複製,再按長度把片段排好,依次讀出顏色。這就是第一個人類基因組背後那個一絲不苟、堪稱黃金標準的讀法。

複製不難,難的是讀出來

到了這一級階梯,你對 DNA 已經能做出不少了不起的事。你能切它、黏它、把它送進細菌;靠PCR,你能拿一段微弱的序列,在一個下午裡複製上十億倍。但複製不等於讀取。一管裝著十億份某基因拷貝的試管,仍然不會*告訴*你它的序列——也就是字母的真實排列,A-T-G-C-C-A 這樣一路順著鏈排下去。這個排列才是關鍵所在:它正是細胞按 DNA -> RNA -> 蛋白質讀出的資訊,是突變所改動的東西,是你最終想要的那條訊息。所以,定義這篇指南的那個問題,提出來很簡單,卻在很長一段時間裡難得令人髮指:給你一條 DNA,你怎麼弄清它鹼基的確切順序?

麻煩在於,單個鹼基小得無法想像,而那四個字母在化學上幾乎一模一樣——A、T、G、C 之間只差一兩個原子環。你沒法把一條鏈放到顯微鏡下、瞇著眼去看字母;沒有任何東西能清晰到那個地步。弗雷德里克·桑格在 1977 年發明的突破,則乾脆繞開了這個難題。它不去試著*看見*鹼基,而是把「下一個字母是什麼?」這個看不見的問題,轉化成一個看得見的問題:「這個片段有多長?」長度,你是能量出來的。其中的精妙,正是連接兩者的那座橋——一種讓鏈恰好在某個特定字母被加上時停止生長的辦法,於是停下來的片段的長度,就告訴了你那個字母所在的位置。

那個讓鏈停下來的「破損」構件

要看懂這個把戲,你需要早先那一級階梯上的一個事實。當DNA 聚合酶複製一條鏈時,它每次都把新的核苷酸加在同一個位置上:前一個糖上一個叫 3'-羥基(3'-OH)的化學掛鉤。下一個核苷酸正是要鍵合到那個掛鉤上。沒有 3'-OH,就沒有可供連接的地方——鏈根本無法再長出一個字母。這正是為什麼鏈是沿 5'-到-3' 方向延伸的——你已經知道的那條規則。記住這一點:3'-OH 就是生長的末端,是下一個鹼基掛上去的地方。

現在來看這個方法的核心。在正常構件之外,桑格定序還摻進了極小一部分被「做了手腳」的構件,叫做雙脫氧核苷酸(ddNTP)。一個雙脫氧核苷酸幾乎是一件完美的贗品:它和真鹼基太像了,聚合酶會高高興興地把它撿起來、接到鏈上。但它恰好少了一樣東西——那個 3'-OH 掛鉤。名字就說明了:「雙脫氧」意思是少了*兩個*氧,而非通常的一個。於是 ddNTP 一旦被加上,鏈就在末端被「毒住」了。下一個核苷酸無處可接,那條鏈上的合成戛然而止,被凍結在那個字母處。一個缺失的氧原子,就是讀取 DNA 的全部基礎。

一架片段的梯子,從小到大

想像一下那堆片段長什麼樣。從同一個起點出發——一段短短的引子,正如在 PCR 裡一樣,給聚合酶提供一個起步的地方——鏈向外生長,又在零零散散的位點停下。某個分子的鏈碰巧在第 1 個鹼基後停住,另一個在第 2 個後,又一個在第 3 個後,如此一直往上。因為終止在某個分子裡命中了每一個位置,你最後手裡握著的,是長度為 1、2、3、4、5……的片段,一道連續的台階,每一級都恰好比下一級高出一個鹼基。還有一個關鍵的額外事實:你知道每個片段是以*哪個字母*結尾的,因為讓它停下的那個終止子,正是它攜帶的最後一個鹼基。

當相鄰片段在幾百個鹼基裡只差一個鹼基時,你要怎麼把數百萬個這樣的片段按長度排好?靠凝膠電泳,一件你以前見過的工具。DNA 沿它的糖—磷酸骨架帶著均勻的負電,所以電場會把每一個片段都拽向正極那一端;凝膠則是一張分子篩,它攔住長片段比攔住短片段更厲害。較短的片段穿得更快、跑得更遠。現代的機器把這套過程放到超細的毛細管裡跑,解析度精細到能把一個 200 鹼基的片段與一個 201 鹼基的片段分開——單鹼基解析度,這正是一次讀一個字母所要求的。

Template being copied (5'->3'):  T A C G G T C ...
Complement built by polymerase:  A T G C C A G ...

Each fragment STOPS at its terminator (shown lowercase):

  a                <- stops at base 1, ends in A
  a t              <- stops at base 2, ends in T
  a t g            <- stops at base 3, ends in G
  a t g c          <- stops at base 4, ends in C
  a t g c c        <- stops at base 5, ends in C
  a t g c c a      <- stops at base 6, ends in A
  a t g c c a g    <- stops at base 7, ends in G

Sort by length (short -> long) and read the END letter of each rung:

  A  T  G  C  C  A  G  ...   <- the sequence, read straight off
每一個被終止的片段都是梯子上的一級;把它們從短到長排好,每一級的末尾字母依次讀出,就拼出了序列。

從一架彩色梯子到一條讀長

現代的自動化版本,加上了一筆優雅的設計,讓整件事能被機器讀出。四種終止子各自帶著一種*不同的螢光染料*:比方說 ddA 發綠光、ddT 發紅光、ddG 發黃光、ddC 發藍光(具體顏色各家不一)。如今每個片段不只是某個特定長度,還在末端帶著它最後那個鹼基的顏色。當毛細管按長度把片段分開、它們一個接一個地從雷射前列隊走過——最短的先走——一個偵測器便依次讀出每一個的顏色。這串從短到長的顏色,*就是*序列:綠—紅—黃—藍—藍—綠 拼出 A-T-G-C-C-A。那一串彩色峰在螢幕上魚貫而行的圖,就是著名的層析圖,桑格資料的原始面貌。

  1. 配一個反應。把單鏈模板、一段引子、DNA 聚合酶、四種正常核苷酸,以及一小份四種帶染料的雙脫氧終止子混到一起。
  2. 複製並終止。聚合酶延伸引子;在每個鹼基處它通常加一個正常核苷酸,但有時加一個終止子,讓那條鏈停下,並給它末端染上一種顏色。
  3. 按長度排序。讓混合物穿過毛細管凝膠;較短的片段先出來,於是片段按長度順序排成一隊,相鄰的相差一個鹼基。
  4. 讀出顏色。雷射和偵測器在每個片段經過時記下它的顏色;從短到長,這串顏色拼出序列——那串字母就是你的讀長。

最後出來的那串被解碼的字母,叫做讀長(read)——每一種定序技術的基本單元,你在更新的方法裡還會再遇到同一個詞。一條好的桑格讀長大約能跑 500 到 1000 個鹼基,再往後片段就長得讓凝膠難以乾淨地分辨,顏色也開始模糊。這個長度是一項實打實的優勢:單條桑格讀長足以一口氣覆蓋一個小基因,或確認一個克隆片段,而且每個鹼基通常都附帶一個品質分數,說明這次判讀有多大把握。

至今仍是黃金標準——以及它誠實的侷限

桑格定序是當年人類基因組計畫的引擎,那是人類頭一回讀出一個人類基因組的國際性努力。一次大約只讀一千個鹼基去讀完三十億個,意味著數百萬條讀長、十多年時間和數十億美元——可歌可泣,但顯然太慢、太貴,無法對每個病人、每個物種都重做一遍。正是這股壓力,催生了你接下來會遇到的次世代定序方法,它把桑格那種一次一條的細緻讀法,換成了並行讀取數百萬條短片段,並把成本壓低了上百萬倍。

但這裡有一個誠實的轉折,也是一個值得糾正的常見誤解:「被取代」並不等於「被淘汰」。桑格定序至今仍是短而準確的讀取的日常黃金標準。當你需要對某一段*確有把握*時——要確認一個單基因、核對一個克隆是否做對了,或複核一個次世代定序標記出來的可疑變異——桑格正是各實驗室信賴、用來一錘定音的方法。它的讀長是那個一絲不苟、一錘定音的,而非批量生產的。一個次世代定序的結果,往往要等被桑格重讀一遍之後,才被認為得到了確認。