次世代定序：一次讀取數百萬個片段

從一次一條到數百萬條並行

次世代定序（NGS），也稱高通量定序，徹底改變了基因體學的經濟帳。NGS 不再一次只讀一個片段，而是把基因體切成數百萬個短片段，在一塊晶片上同時、並行地讀取它們全部。它產出的每一小段字母稱為一個讀長（read）——通常長 100 到 300 個字母。

短讀長帶來一個難題：數百萬個片段，卻沒有標籤告訴你它們各自屬於哪裡。解決辦法是把每個讀長比對到參考基因體上，就像把拼圖碎片對到一幅已完成的圖畫上。由於讀長是隨機散落的，每個位置都會被覆蓋好幾次。這種冗餘稱為定序深度，正是它讓定序能把真實的字母和機器誤差區分開來。

Reference: ...A C G T A C G T A C G T A C G T...
Read 1:    ...A C G T A C
Read 2:      C G T A C G T
Read 3:          T A C G T A C G
Read 4:              C G T A C G T A
             ^ each base read multiple times
30x coverage = each letter seen ~30 times
 -> a single odd read is outvoted as an error

覆蓋度意味著每個鹼基被讀取多次；多條讀長之間的一致性把真實字母與雜訊區分開來。

全基因體，還是只測外顯子體？

全基因體定序讀出全部 32 億個字母。但很多時候，你最關心的其實是那編碼蛋白質的約 1–2%。只測這部分——也就是外顯子體——就能以一小部分的成本和資料量，捕獲大多數已知的致病變異。代價是：你會漏掉非編碼區裡的一切，而許多調控訊號和疾病線索也恰恰藏在那裡。

廉價的 NGS 讓群體規模的專案成為可能。千人基因體計畫對來自世界各地的數千人進行了定序，以編錄人類正常的遺傳變異。正是這份目錄，讓我們能夠對你基因體裡的任一字母判斷：你的這個版本究竟是常見還是罕見——而這正是第四、五篇指南的核心問題。