JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

參考基因體、註釋,以及找出差異

「參考基因體」究竟是什麼、我們如何為它做註釋以在字母的海洋中找出基因,以及最常見的人類差異——SNP——如何讓我們把任意基因體與那份共享地圖相比較。

參考基因體:一份共享地圖,而非任何人確切的 DNA

參考基因體是一條經過公認、高品質的單一序列,整個領域都用它作為共同的座標系。它並不是任何一個活人的 DNA——而是一份經過整理的合成序列,由若干捐贈者的資料拼接而成,並被持續修正。它的價值在於:所有人都能以同樣的方式描述一個發現,比如「7 號染色體,第 117,559,590 位」在每一間實驗室裡都指同一個位置。

一旦有了參考序列,你就能開展比較基因體學:把多個基因體對齊,看哪些部分保守、哪些部分有差異。無論是把人類與小鼠相比,還是把一個人與另一個人相比,都依賴於有一份可供比對的共享地圖。但一份三十億字母的原始地圖本身還派不上用場——你得先標註出這些字母*意味著*什麼。

註釋:在字母中找出含義

基因體註釋就是給原始序列做標註的工作:基因從哪裡開始、到哪裡結束,哪些片段是外顯子(保留在最終訊息裡)、哪些是內含子(被剪接掉),調控開關位於何處,以及哪些區域什麼都不編碼。註釋把一串毫無特徵的 A、C、G、T 變成一份你可以在其中導航的、帶標籤的地圖。

現在來看回報。任意兩個無親緣關係的人,在序列上約有 99.9% 相同。那些差異——這 0.1%——正是使我們成為不同個體的原因。其中迄今最常見的一類,就是單核苷酸多態性(SNP,讀作「snip」):在某一個位置上,字母在人與人之間有所不同。在大多數人攜帶 A 的地方,你可能攜帶的是 G。一個基因體中帶有數百萬個 SNP。

Reference:  ... G A T T A C A G G C ...
Person A:   ... G A T T A C A G G C ...   (matches)
Person B:   ... G A T T G C A G G C ...   (T -> G)
                        ^
          A SNP: one position, two common versions

Neighbouring SNPs travel together as a block:
  haplotype = [G .. G .. T .. A] inherited as a unit
SNP 是在群體中共有的單字母差異;鄰近的 SNP 會作為一個單倍型被一同遺傳。