從一次一條到數百萬條並行
次世代定序(NGS),也稱高通量定序,徹底改變了基因體學的經濟帳。NGS 不再一次只讀一個片段,而是把基因體切成數百萬個短片段,在一塊晶片上同時、並行地讀取它們全部。它產出的每一小段字母稱為一個讀長(read)——通常長 100 到 300 個字母。
短讀長帶來一個難題:數百萬個片段,卻沒有標籤告訴你它們各自屬於哪裡。解決辦法是把每個讀長比對到參考基因體上,就像把拼圖碎片對到一幅已完成的圖畫上。由於讀長是隨機散落的,每個位置都會被覆蓋好幾次。這種冗餘稱為定序深度,正是它讓定序能把真實的字母和機器誤差區分開來。
Reference: ...A C G T A C G T A C G T A C G T...
Read 1: ...A C G T A C
Read 2: C G T A C G T
Read 3: T A C G T A C G
Read 4: C G T A C G T A
^ each base read multiple times
30x coverage = each letter seen ~30 times
-> a single odd read is outvoted as an error全基因體,還是只測外顯子體?
全基因體定序讀出全部 32 億個字母。但很多時候,你最關心的其實是那編碼蛋白質的約 1–2%。只測這部分——也就是外顯子體——就能以一小部分的成本和資料量,捕獲大多數已知的致病變異。代價是:你會漏掉非編碼區裡的一切,而許多調控訊號和疾病線索也恰恰藏在那裡。
廉價的 NGS 讓群體規模的專案成為可能。千人基因體計畫對來自世界各地的數千人進行了定序,以編錄人類正常的遺傳變異。正是這份目錄,讓我們能夠對你基因體裡的任一字母判斷:你的這個版本究竟是常見還是罕見——而這正是第四、五篇指南的核心問題。