參考基因體、註釋，以及找出差異

參考基因體：一份共享地圖，而非任何人確切的 DNA

參考基因體是一條經過公認、高品質的單一序列，整個領域都用它作為共同的座標系。它並不是任何一個活人的 DNA——而是一份經過整理的合成序列，由若干捐贈者的資料拼接而成，並被持續修正。它的價值在於：所有人都能以同樣的方式描述一個發現，比如「7 號染色體，第 117,559,590 位」在每一間實驗室裡都指同一個位置。

一旦有了參考序列，你就能開展比較基因體學：把多個基因體對齊，看哪些部分保守、哪些部分有差異。無論是把人類與小鼠相比，還是把一個人與另一個人相比，都依賴於有一份可供比對的共享地圖。但一份三十億字母的原始地圖本身還派不上用場——你得先標註出這些字母*意味著*什麼。

註釋：在字母中找出含義

基因體註釋就是給原始序列做標註的工作：基因從哪裡開始、到哪裡結束，哪些片段是外顯子（保留在最終訊息裡）、哪些是內含子（被剪接掉），調控開關位於何處，以及哪些區域什麼都不編碼。註釋把一串毫無特徵的 A、C、G、T 變成一份你可以在其中導航的、帶標籤的地圖。

現在來看回報。任意兩個無親緣關係的人，在序列上約有 99.9% 相同。那些差異——這 0.1%——正是使我們成為不同個體的原因。其中迄今最常見的一類，就是單核苷酸多態性（SNP，讀作「snip」）：在某一個位置上，字母在人與人之間有所不同。在大多數人攜帶 A 的地方，你可能攜帶的是 G。一個基因體中帶有數百萬個 SNP。

Reference:  ... G A T T A C A G G C ...
Person A:   ... G A T T A C A G G C ...   (matches)
Person B:   ... G A T T G C A G G C ...   (T -> G)
                        ^
          A SNP: one position, two common versions

Neighbouring SNPs travel together as a block:
  haplotype = [G .. G .. T .. A] inherited as a unit

SNP 是在群體中共有的單字母差異；鄰近的 SNP 會作為一個單倍型被一同遺傳。