參考基因體:一份共享地圖,而非任何人確切的 DNA
參考基因體是一條經過公認、高品質的單一序列,整個領域都用它作為共同的座標系。它並不是任何一個活人的 DNA——而是一份經過整理的合成序列,由若干捐贈者的資料拼接而成,並被持續修正。它的價值在於:所有人都能以同樣的方式描述一個發現,比如「7 號染色體,第 117,559,590 位」在每一間實驗室裡都指同一個位置。
一旦有了參考序列,你就能開展比較基因體學:把多個基因體對齊,看哪些部分保守、哪些部分有差異。無論是把人類與小鼠相比,還是把一個人與另一個人相比,都依賴於有一份可供比對的共享地圖。但一份三十億字母的原始地圖本身還派不上用場——你得先標註出這些字母*意味著*什麼。
註釋:在字母中找出含義
基因體註釋就是給原始序列做標註的工作:基因從哪裡開始、到哪裡結束,哪些片段是外顯子(保留在最終訊息裡)、哪些是內含子(被剪接掉),調控開關位於何處,以及哪些區域什麼都不編碼。註釋把一串毫無特徵的 A、C、G、T 變成一份你可以在其中導航的、帶標籤的地圖。
現在來看回報。任意兩個無親緣關係的人,在序列上約有 99.9% 相同。那些差異——這 0.1%——正是使我們成為不同個體的原因。其中迄今最常見的一類,就是單核苷酸多態性(SNP,讀作「snip」):在某一個位置上,字母在人與人之間有所不同。在大多數人攜帶 A 的地方,你可能攜帶的是 G。一個基因體中帶有數百萬個 SNP。
Reference: ... G A T T A C A G G C ...
Person A: ... G A T T A C A G G C ... (matches)
Person B: ... G A T T G C A G G C ... (T -> G)
^
A SNP: one position, two common versions
Neighbouring SNPs travel together as a block:
haplotype = [G .. G .. T .. A] inherited as a unit