JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

参考基因组、注释,以及找出差异

“参考基因组”究竟是什么、我们如何为它做注释以在字母的海洋中找出基因,以及最常见的人类差异——SNP——如何让我们把任意基因组与那份共享地图相比较。

参考基因组:一份共享地图,而非任何人确切的 DNA

参考基因组是一条经过公认、高质量的单一序列,整个领域都用它作为共同的坐标系。它并不是任何一个活人的 DNA——而是一份经过整理的合成序列,由若干捐献者的数据拼接而成,并被持续修正。它的价值在于:所有人都能以同样的方式描述一个发现,比如“7 号染色体,第 117,559,590 位”在每一间实验室里都指同一个位置。

一旦有了参考序列,你就能开展比较基因组学:把多个基因组对齐,看哪些部分保守、哪些部分有差异。无论是把人类与小鼠相比,还是把一个人与另一个人相比,都依赖于有一份可供比对的共享地图。但一份三十亿字母的原始地图本身还派不上用场——你得先标注出这些字母*意味着*什么。

注释:在字母中找出含义

基因组注释就是给原始序列做标注的工作:基因从哪里开始、到哪里结束,哪些片段是外显子(保留在最终信息里)、哪些是内含子(被剪接掉),调控开关位于何处,以及哪些区域什么都不编码。注释把一串毫无特征的 A、C、G、T 变成一份你可以在其中导航的、带标签的地图。

现在来看回报。任意两个无亲缘关系的人,在序列上约有 99.9% 相同。那些差异——这 0.1%——正是使我们成为不同个体的原因。其中迄今最常见的一类,就是单核苷酸多态性(SNP,读作“snip”):在某一个位置上,字母在人与人之间有所不同。在大多数人携带 A 的地方,你可能携带的是 G。一个基因组中带有数百万个 SNP。

Reference:  ... G A T T A C A G G C ...
Person A:   ... G A T T A C A G G C ...   (matches)
Person B:   ... G A T T G C A G G C ...   (T -> G)
                        ^
          A SNP: one position, two common versions

Neighbouring SNPs travel together as a block:
  haplotype = [G .. G .. T .. A] inherited as a unit
SNP 是在群体中共有的单字母差异;邻近的 SNP 会作为一个单倍型被一同遗传。