参考基因组:一份共享地图,而非任何人确切的 DNA
参考基因组是一条经过公认、高质量的单一序列,整个领域都用它作为共同的坐标系。它并不是任何一个活人的 DNA——而是一份经过整理的合成序列,由若干捐献者的数据拼接而成,并被持续修正。它的价值在于:所有人都能以同样的方式描述一个发现,比如“7 号染色体,第 117,559,590 位”在每一间实验室里都指同一个位置。
一旦有了参考序列,你就能开展比较基因组学:把多个基因组对齐,看哪些部分保守、哪些部分有差异。无论是把人类与小鼠相比,还是把一个人与另一个人相比,都依赖于有一份可供比对的共享地图。但一份三十亿字母的原始地图本身还派不上用场——你得先标注出这些字母*意味着*什么。
注释:在字母中找出含义
基因组注释就是给原始序列做标注的工作:基因从哪里开始、到哪里结束,哪些片段是外显子(保留在最终信息里)、哪些是内含子(被剪接掉),调控开关位于何处,以及哪些区域什么都不编码。注释把一串毫无特征的 A、C、G、T 变成一份你可以在其中导航的、带标签的地图。
现在来看回报。任意两个无亲缘关系的人,在序列上约有 99.9% 相同。那些差异——这 0.1%——正是使我们成为不同个体的原因。其中迄今最常见的一类,就是单核苷酸多态性(SNP,读作“snip”):在某一个位置上,字母在人与人之间有所不同。在大多数人携带 A 的地方,你可能携带的是 G。一个基因组中带有数百万个 SNP。
Reference: ... G A T T A C A G G C ...
Person A: ... G A T T A C A G G C ... (matches)
Person B: ... G A T T G C A G G C ... (T -> G)
^
A SNP: one position, two common versions
Neighbouring SNPs travel together as a block:
haplotype = [G .. G .. T .. A] inherited as a unit