JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

次世代定序:一次讀取數百萬個片段

大規模並行的「次世代」定序如何讓基因體變得又快又便宜——短讀長、定序深度、外顯子體這條捷徑,以及為什麼定序之後大部分活兒其實是電腦在幹。

從一次一條到數百萬條並行

次世代定序(NGS),也稱高通量定序,徹底改變了基因體學的經濟帳。NGS 不再一次只讀一個片段,而是把基因體切成數百萬個短片段,在一塊晶片上同時、並行地讀取它們全部。它產出的每一小段字母稱為一個讀長(read)——通常長 100 到 300 個字母。

短讀長帶來一個難題:數百萬個片段,卻沒有標籤告訴你它們各自屬於哪裡。解決辦法是把每個讀長比對到參考基因體上,就像把拼圖碎片對到一幅已完成的圖畫上。由於讀長是隨機散落的,每個位置都會被覆蓋好幾次。這種冗餘稱為定序深度,正是它讓定序能把真實的字母和機器誤差區分開來。

Reference: ...A C G T A C G T A C G T A C G T...
Read 1:    ...A C G T A C
Read 2:      C G T A C G T
Read 3:          T A C G T A C G
Read 4:              C G T A C G T A
             ^ each base read multiple times
30x coverage = each letter seen ~30 times
 -> a single odd read is outvoted as an error
覆蓋度意味著每個鹼基被讀取多次;多條讀長之間的一致性把真實字母與雜訊區分開來。

全基因體,還是只測外顯子體?

全基因體定序讀出全部 32 億個字母。但很多時候,你最關心的其實是那編碼蛋白質的約 1–2%。只測這部分——也就是外顯子體——就能以一小部分的成本和資料量,捕獲大多數已知的致病變異。代價是:你會漏掉非編碼區裡的一切,而許多調控訊號和疾病線索也恰恰藏在那裡。

廉價的 NGS 讓群體規模的專案成為可能。千人基因體計畫對來自世界各地的數千人進行了定序,以編錄人類正常的遺傳變異。正是這份目錄,讓我們能夠對你基因體裡的任一字母判斷:你的這個版本究竟是常見還是罕見——而這正是第四、五篇指南的核心問題。