下一代测序：一次读取数百万个片段

从一次一条到数百万条并行

下一代测序（NGS），也称高通量测序，彻底改变了基因组学的经济账。NGS 不再一次只读一个片段，而是把基因组切成数百万个短片段，在一块芯片上同时、并行地读取它们全部。它产出的每一小段字母称为一个读长（read）——通常长 100 到 300 个字母。

短读长带来一个难题：数百万个片段，却没有标签告诉你它们各自属于哪里。解决办法是把每个读长比对到参考基因组上，就像把拼图碎片对到一幅已完成的图画上。由于读长是随机散落的，每个位置都会被覆盖好几次。这种冗余称为测序深度，正是它让测序能把真实的字母和机器误差区分开来。

Reference: ...A C G T A C G T A C G T A C G T...
Read 1:    ...A C G T A C
Read 2:      C G T A C G T
Read 3:          T A C G T A C G
Read 4:              C G T A C G T A
             ^ each base read multiple times
30x coverage = each letter seen ~30 times
 -> a single odd read is outvoted as an error

覆盖度意味着每个碱基被读取多次；多条读长之间的一致性把真实字母与噪声区分开来。

全基因组，还是只测外显子组？

全基因组测序读出全部 32 亿个字母。但很多时候，你最关心的其实是那编码蛋白质的约 1–2%。只测这部分——也就是外显子组——就能以一小部分的成本和数据量，捕获大多数已知的致病变异。代价是：你会漏掉非编码区里的一切，而许多调控信号和疾病线索也恰恰藏在那里。

廉价的 NGS 让群体规模的项目成为可能。千人基因组计划对来自世界各地的数千人进行了测序，以编录人类正常的遗传变异。正是这份目录，让我们能够对你基因组里的任一字母判断：你的这个版本究竟是常见还是罕见——而这正是第四、五篇指南的核心问题。