JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

下一代测序:一次读取数百万个片段

大规模并行的“下一代”测序如何让基因组变得又快又便宜——短读长、测序深度、外显子组这条捷径,以及为什么测序之后大部分活儿其实是计算机在干。

从一次一条到数百万条并行

下一代测序(NGS),也称高通量测序,彻底改变了基因组学的经济账。NGS 不再一次只读一个片段,而是把基因组切成数百万个短片段,在一块芯片上同时、并行地读取它们全部。它产出的每一小段字母称为一个读长(read)——通常长 100 到 300 个字母。

短读长带来一个难题:数百万个片段,却没有标签告诉你它们各自属于哪里。解决办法是把每个读长比对到参考基因组上,就像把拼图碎片对到一幅已完成的图画上。由于读长是随机散落的,每个位置都会被覆盖好几次。这种冗余称为测序深度,正是它让测序能把真实的字母和机器误差区分开来。

Reference: ...A C G T A C G T A C G T A C G T...
Read 1:    ...A C G T A C
Read 2:      C G T A C G T
Read 3:          T A C G T A C G
Read 4:              C G T A C G T A
             ^ each base read multiple times
30x coverage = each letter seen ~30 times
 -> a single odd read is outvoted as an error
覆盖度意味着每个碱基被读取多次;多条读长之间的一致性把真实字母与噪声区分开来。

全基因组,还是只测外显子组?

全基因组测序读出全部 32 亿个字母。但很多时候,你最关心的其实是那编码蛋白质的约 1–2%。只测这部分——也就是外显子组——就能以一小部分的成本和数据量,捕获大多数已知的致病变异。代价是:你会漏掉非编码区里的一切,而许多调控信号和疾病线索也恰恰藏在那里。

廉价的 NGS 让群体规模的项目成为可能。千人基因组计划对来自世界各地的数千人进行了测序,以编录人类正常的遗传变异。正是这份目录,让我们能够对你基因组里的任一字母判断:你的这个版本究竟是常见还是罕见——而这正是第四、五篇指南的核心问题。