参考基因组、注释，以及找出差异

参考基因组：一份共享地图，而非任何人确切的 DNA

参考基因组是一条经过公认、高质量的单一序列，整个领域都用它作为共同的坐标系。它并不是任何一个活人的 DNA——而是一份经过整理的合成序列，由若干捐献者的数据拼接而成，并被持续修正。它的价值在于：所有人都能以同样的方式描述一个发现，比如“7 号染色体，第 117,559,590 位”在每一间实验室里都指同一个位置。

一旦有了参考序列，你就能开展比较基因组学：把多个基因组对齐，看哪些部分保守、哪些部分有差异。无论是把人类与小鼠相比，还是把一个人与另一个人相比，都依赖于有一份可供比对的共享地图。但一份三十亿字母的原始地图本身还派不上用场——你得先标注出这些字母*意味着*什么。

注释：在字母中找出含义

基因组注释就是给原始序列做标注的工作：基因从哪里开始、到哪里结束，哪些片段是外显子（保留在最终信息里）、哪些是内含子（被剪接掉），调控开关位于何处，以及哪些区域什么都不编码。注释把一串毫无特征的 A、C、G、T 变成一份你可以在其中导航的、带标签的地图。

现在来看回报。任意两个无亲缘关系的人，在序列上约有 99.9% 相同。那些差异——这 0.1%——正是使我们成为不同个体的原因。其中迄今最常见的一类，就是单核苷酸多态性（SNP，读作“snip”）：在某一个位置上，字母在人与人之间有所不同。在大多数人携带 A 的地方，你可能携带的是 G。一个基因组中带有数百万个 SNP。

Reference:  ... G A T T A C A G G C ...
Person A:   ... G A T T A C A G G C ...   (matches)
Person B:   ... G A T T G C A G G C ...   (T -> G)
                        ^
          A SNP: one position, two common versions

Neighbouring SNPs travel together as a block:
  haplotype = [G .. G .. T .. A] inherited as a unit

SNP 是在群体中共有的单字母差异；邻近的 SNP 会作为一个单倍型被一同遗传。