比較基因組學與功能基因組學

從一個基因組，到一整架基因組

在上一篇裡，你拼裝並註釋了單個基因組——把讀段縫成染色體，又在基因周圍畫下最可能的邊界線。可孤零零的一個基因組，就像一本你幾乎不會讀的語言寫成的書：你看得見詞，卻分不清哪些承載著意義、哪些只是填充。人類基因組約有三十億個字母，卻只有大約兩萬個蛋白質編碼基因，它們加起來只佔序列不到百分之二。所以這一級最灼人的問題，不是*基因組裡有什麼*，而是*哪些部分要緊、它們各自在做什麼*。[[molbio-comparative-genomics|比較基因組學]]用一個極簡單的招法回答前半個問題：與其更用力地盯著一個基因組，不如把好幾個並排攤開，讓演化親口告訴你它在意的是什麼。

這套邏輯，立足於你在階梯很靠下處見過的一件事：大多數突變是中性的，而改變會在數百萬年裡穩穩地累積。把它向前推演到許多源自同一祖先的物種身上，一種模式便浮現出來。無關緊要的序列會自由漂變——它像一堵舊牆招來塗鴉那樣收集突變，直到兩個物種的版本幾乎認不出彼此。可那些*確實*在做要緊事的序列卻無法漂變：那裡幾乎每一處改動都會弄壞基因，被[[purifying-selection|純化選擇]]——對有害變體的緩慢驅逐——悄悄清除。結果便是：要緊的 DNA 在物種之間頑固地保持不變，而無關緊要的 DNA 則亂作一團。保守，就是功能的指紋——而它只有在你去比較時才看得見。

直系同源、旁系同源，與基因的家譜

在你能跨物種比較基因之前，必須先把它們正確地配對起來，而這裡藏著一個關鍵的區分。當你找到的人類基因和小鼠基因顯然是親戚——都源自人鼠最近共同祖先裡*同一個*基因——它們就是直系同源基因。它們是「兩個物種裡的同一個基因」，是你想了解功能時要拿來比較的那一對，因為它們通常仍在做同一件工作。但基因也會在基因組*內部*增殖：一段 DNA 偶爾會被複製，留下並排的兩份拷貝，這些拷貝及其後代便是旁系同源基因——生於複製、而非生於物種分化的親戚。分清直系同源與旁系同源，是任何比較謹慎的第一步，因為把它們混為一談，會悄悄地把建在其上的一切都敗壞掉。

不過旁系同源基因並非雜訊——它們正是演化發明新事物的方式。一個基因被複製之後，一份拷貝可以繼續幹原來的活，多出來的那份則得以自由漂變、撿起若只有單份拷貝時必定致命的突變。多數備份就這麼爛成一個[[gene-families-and-pseudogenes|假基因]]——一段不再製造蛋白質的破殘遺跡。但偶爾，那份被解放的拷貝會撞上一個有用的新角色，於是一個基因家族就此誕生——就像那一簇珠蛋白基因，全是同一祖先的旁系同源基因，如今分別專司在胚胎、胎兒和成人體內運送氧氣。所以「複製，繼之以分化」是生物學創造新意的主要引擎之一，而你能直接從一個基因家族的序列相似性模式裡，讀出它的整部歷史。

讀出選擇：保守位點與 dN/dS

一旦直系同源基因被對齊，你就能把選擇一直讀到單個字母。把十幾種哺乳動物裡的同一個基因疊起來，一列一列地看：有些位置在每個物種裡都*完全相同*，另一些則隨意變化。那些凍結的列就是[[conserved-variable-sites|保守位點]]——一種酶的活性位點殘基、一個關鍵調控因子緊緊攥住的那個鹼基——在那些地方，改變是致命的，所以從未留存。變化的列容許改動，於是收集了改動。這張比對，作為一幅保守性的熱圖來讀，是早在你做一個實驗之前、就能指出*一個基因裡究竟哪些字母在真正幹活*的最有力方法。

對蛋白質編碼基因，還有一件更鋒利的工具，它倚靠的是你早已熟悉的遺傳密碼的冗餘。由於密碼是簡併的，有些 DNA 改動會換掉胺基酸（一次*非同義*改動，dN），另一些則讓蛋白質毫髮無損（一次*同義*改動，dS）。同義改動對選擇幾乎是隱形的，於是它們以中性的背景速率堆積；非同義改動會改變蛋白質，因而被選擇過濾。把這兩個速率作為比值來比較——[[dn-ds-ratio|dN/dS 比值]]——就把那道過濾變成了一個數字。dN/dS 遠小於 1，意味著改變蛋白質的突變正被清除：這個基因正受純化選擇，保守、要緊。約等於 1，意味著改動可以自由通過，暗示該序列不受約束。而那罕見的*大於* 1 的值，則是相反那股力量的警示旗——正選擇，改變被主動青睞，這是一個基因正被推著演化的標誌，就像一種免疫蛋白與病原體賽跑時那樣。

align one gene across species, read each column:

  human   ... A T G  C A C  G G T  A A A  T C C ...
  mouse   ... A T G  C A T  G G C  A A A  A C C ...
  chimp   ... A T G  C A C  G G T  A A G  T C C ...
  dog     ... A T G  C A T  G G A  A A A  T C T ...
            |  | | |  ^      ^      | | ^
          conserved  silent (dS)   conserved   varies

  dN/dS  <  1   ->  purifying selection  (gene matters, conserved)
  dN/dS  ~~ 1   ->  little constraint    (drifting / neutral)
  dN/dS  >  1   ->  positive selection   (change favoured)

把直系同源基因疊起來，就把演化變成了一份讀數：凍結的列標出功能位點，而改變蛋白質（dN）與無聲（dS）替換之比，給作用於整個基因的選擇打了分。

共線性，與保守的非編碼島嶼

比較也能在單個基因的層次之上起作用。當你把兩個物種的整條染色體對齊，會發現一些長長的區塊，其中*同樣的基因以同樣的次序排列*——一片共有的基因鄰里，原封不動地從共同祖先那裡繼承下來。這種被保留的基因次序叫做共線性，它極其有用：它讓你把一個研究透徹的基因組裡的知識，搬到一個剛測完序的基因組上（「小鼠裡這個地標旁邊的基因，應該就是人類裡對應地標旁邊的那個基因」），而共線性*斷裂*之處，則標出了在演化時間裡重塑了基因組的那些染色體重排——倒位、融合、易位。共線性，是即便單個字母翻騰不休、也依然存活下來的大尺度語法。

可比較最驚人的回報，落在*非編碼*基因組裡。回想那個過早的標籤「垃圾 DNA」——那個以為我們基因組裡蛋白質編碼基因之外那 98% 都是惰性填充物的假設。比較基因組學優雅地拆穿了這個想法。掃描對齊後的哺乳動物基因組，翻出了成千上萬段不編碼任何蛋白質、卻和最關鍵的基因一樣保守的序列——其中有些在數億年間幾乎紋絲未變。這些保守非編碼元件絕不可能是偶然凍結下來的；如此不懈的保守，只在純化選擇守護著某項功能時才會發生。而事實也證明，它們中許多正是調控開關——決定基因何時、何處開啟的增強子及其他控制元件。演化一直在悄悄替我們把調控基因組標記出來；我們只是得去比較，才看得見那些標記。

功能基因組學：直接拷問基因組

比較告訴你某一段*要緊*；它很少告訴你*它在做什麼*。為此，功能基因組學採取相反的進路：與其從演化推斷功能，不如走遍整個基因組，一個位置一個位置地直接測量活性。一個調控蛋白究竟落在 DNA 的什麼地方？哪些區域被轉錄成 RNA——哪怕它們不製造任何蛋白質？哪些段落被緊緊裹進沉默的染色質裡，哪些又敞開、可及？這每一項都是真實、可測的訊號，而在全基因組範圍內讀取它們，就把一串靜止的字母序列，變成了一幅活的地圖——記下在某種特定細胞裡、每個部分正*在做*什麼。

這裡的里程碑式工程，是[[encode-project|ENCODE 計畫]]——DNA 元件百科全書——一場龐大、多實驗室協作的行動，要靠在許多細胞類型上疊加幾十種這樣的檢測，給人類基因組的每一個鹼基都指派一項功能。ENCODE 繪出了轉錄因子在哪裡結合、哪些組蛋白標記裝點著哪些區域、染色質在何處敞開，以及基因組有多少被抄錄成 RNA。它的頭條發現既轟動又有爭議：基因組的一大部分都表現出*某種*生化活性。這聽起來像是「垃圾 DNA」的最終死刑，但這裡誠實至關重要——「具有生化活性」是個比「在自然選擇加以維持這層意義上具有功能」弱得多的說法。有些普遍存在的活性是真正的調控；有些則是附帶的雜訊，是一個繁忙的基因組甩出的低水平普遍轉錄。這兩種視角——保守 vs. 實測活性——是互補的，而最值得信賴的功能元件，正是被這兩者*同時*標記出來的那些。

合起來：從序列裡讀出歷史與功能

退後一步，這篇裡的兩半便咔噠一聲合上了。比較基因組學把演化當作一場免費的、長達十億年的實驗：通過追問選擇拒絕改動的是什麼，它告訴你一個基因組裡*哪些*部分要緊——保守的編碼位點、低 dN/dS 的基因、凍結的非編碼島嶼、被保留的共線性。功能基因組學接著直接拷問基因組，問這些要緊的部分*在做什麼*——蛋白質在哪裡結合、什麼被轉錄、什麼處於敞開狀態——構建起 ENCODE 所開創的那張調控地圖。一個從序列裡讀歷史；另一個從細胞裡讀活性；而在兩者中*都*亮起來的那些元件，正是你最可信賴的。

這也悄悄重構了那個關於複雜性的古老謎題。人類只攜帶約兩萬個蛋白質編碼基因——比某些植物還少，按同樣的數法也不比一條小小的線蟲多——所以基因的*清單*不可能是讓我們如此精密的原因。比較與功能基因組學指向了答案：差別大半活在調控基因組裡，活在那張決定每個基因何時、何處發動的浩瀚開關之網中。基因是一份在動物間廣泛共享的零件清單；而接線圖，才是大量分化藏身之處。這正好把接力棒漂亮地交給這一級餘下的內容——在那裡，單細胞方法與系統思維會把這張*什麼可能發生*的靜態地圖，逐個基因、逐個細胞地，變成*什麼正在發生*的動態故事。