JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

比較基因組學與功能基因組學

一旦你能讀出整個基因組,下一個問題就是:哪些部分要緊、它們各自在做什麼。演化回答前一個問題——它把它拒絕改動的地方指給你看;而那些大型功能基因組學專案回答後一個——直接把基因組的開關與訊號繪成地圖。

從一個基因組,到一整架基因組

在上一篇裡,你拼裝並註釋了單個基因組——把讀段縫成染色體,又在基因周圍畫下最可能的邊界線。可孤零零的一個基因組,就像一本你幾乎不會讀的語言寫成的書:你看得見詞,卻分不清哪些承載著意義、哪些只是填充。人類基因組約有三十億個字母,卻只有大約兩萬個蛋白質編碼基因,它們加起來只佔序列不到百分之二。所以這一級最灼人的問題,不是*基因組裡有什麼*,而是*哪些部分要緊、它們各自在做什麼*。[[molbio-comparative-genomics|比較基因組學]]用一個極簡單的招法回答前半個問題:與其更用力地盯著一個基因組,不如把好幾個並排攤開,讓演化親口告訴你它在意的是什麼。

這套邏輯,立足於你在階梯很靠下處見過的一件事:大多數突變是中性的,而改變會在數百萬年裡穩穩地累積。把它向前推演到許多源自同一祖先的物種身上,一種模式便浮現出來。無關緊要的序列會自由漂變——它像一堵舊牆招來塗鴉那樣收集突變,直到兩個物種的版本幾乎認不出彼此。可那些*確實*在做要緊事的序列卻無法漂變:那裡幾乎每一處改動都會弄壞基因,被[[purifying-selection|純化選擇]]——對有害變體的緩慢驅逐——悄悄清除。結果便是:要緊的 DNA 在物種之間頑固地保持不變,而無關緊要的 DNA 則亂作一團。保守,就是功能的指紋——而它只有在你去比較時才看得見。

直系同源、旁系同源,與基因的家譜

在你能跨物種比較基因之前,必須先把它們正確地配對起來,而這裡藏著一個關鍵的區分。當你找到的人類基因和小鼠基因顯然是親戚——都源自人鼠最近共同祖先裡*同一個*基因——它們就是直系同源基因。它們是「兩個物種裡的同一個基因」,是你想了解功能時要拿來比較的那一對,因為它們通常仍在做同一件工作。但基因也會在基因組*內部*增殖:一段 DNA 偶爾會被複製,留下並排的兩份拷貝,這些拷貝及其後代便是旁系同源基因——生於複製、而非生於物種分化的親戚。分清直系同源與旁系同源,是任何比較謹慎的第一步,因為把它們混為一談,會悄悄地把建在其上的一切都敗壞掉。

不過旁系同源基因並非雜訊——它們正是演化發明新事物的方式。一個基因被複製之後,一份拷貝可以繼續幹原來的活,多出來的那份則得以自由漂變、撿起若只有單份拷貝時必定致命的突變。多數備份就這麼爛成一個[[gene-families-and-pseudogenes|假基因]]——一段不再製造蛋白質的破殘遺跡。但偶爾,那份被解放的拷貝會撞上一個有用的新角色,於是一個基因家族就此誕生——就像那一簇珠蛋白基因,全是同一祖先的旁系同源基因,如今分別專司在胚胎、胎兒和成人體內運送氧氣。所以「複製,繼之以分化」是生物學創造新意的主要引擎之一,而你能直接從一個基因家族的序列相似性模式裡,讀出它的整部歷史。

讀出選擇:保守位點與 dN/dS

一旦直系同源基因被對齊,你就能把選擇一直讀到單個字母。把十幾種哺乳動物裡的同一個基因疊起來,一列一列地看:有些位置在每個物種裡都*完全相同*,另一些則隨意變化。那些凍結的列就是[[conserved-variable-sites|保守位點]]——一種酶的活性位點殘基、一個關鍵調控因子緊緊攥住的那個鹼基——在那些地方,改變是致命的,所以從未留存。變化的列容許改動,於是收集了改動。這張比對,作為一幅保守性的熱圖來讀,是早在你做一個實驗之前、就能指出*一個基因裡究竟哪些字母在真正幹活*的最有力方法。

對蛋白質編碼基因,還有一件更鋒利的工具,它倚靠的是你早已熟悉的遺傳密碼的冗餘。由於密碼是簡併的,有些 DNA 改動會換掉胺基酸(一次*非同義*改動,dN),另一些則讓蛋白質毫髮無損(一次*同義*改動,dS)。同義改動對選擇幾乎是隱形的,於是它們以中性的背景速率堆積;非同義改動會改變蛋白質,因而被選擇過濾。把這兩個速率作為比值來比較——[[dn-ds-ratio|dN/dS 比值]]——就把那道過濾變成了一個數字。dN/dS 遠小於 1,意味著改變蛋白質的突變正被清除:這個基因正受純化選擇,保守、要緊。約等於 1,意味著改動可以自由通過,暗示該序列不受約束。而那罕見的*大於* 1 的值,則是相反那股力量的警示旗——正選擇,改變被主動青睞,這是一個基因正被推著演化的標誌,就像一種免疫蛋白與病原體賽跑時那樣。

align one gene across species, read each column:

  human   ... A T G  C A C  G G T  A A A  T C C ...
  mouse   ... A T G  C A T  G G C  A A A  A C C ...
  chimp   ... A T G  C A C  G G T  A A G  T C C ...
  dog     ... A T G  C A T  G G A  A A A  T C T ...
            |  | | |  ^      ^      | | ^
          conserved  silent (dS)   conserved   varies

  dN/dS  <  1   ->  purifying selection  (gene matters, conserved)
  dN/dS  ~~ 1   ->  little constraint    (drifting / neutral)
  dN/dS  >  1   ->  positive selection   (change favoured)
把直系同源基因疊起來,就把演化變成了一份讀數:凍結的列標出功能位點,而改變蛋白質(dN)與無聲(dS)替換之比,給作用於整個基因的選擇打了分。

共線性,與保守的非編碼島嶼

比較也能在單個基因的層次之上起作用。當你把兩個物種的整條染色體對齊,會發現一些長長的區塊,其中*同樣的基因以同樣的次序排列*——一片共有的基因鄰里,原封不動地從共同祖先那裡繼承下來。這種被保留的基因次序叫做共線性,它極其有用:它讓你把一個研究透徹的基因組裡的知識,搬到一個剛測完序的基因組上(「小鼠裡這個地標旁邊的基因,應該就是人類裡對應地標旁邊的那個基因」),而共線性*斷裂*之處,則標出了在演化時間裡重塑了基因組的那些染色體重排——倒位、融合、易位。共線性,是即便單個字母翻騰不休、也依然存活下來的大尺度語法。

可比較最驚人的回報,落在*非編碼*基因組裡。回想那個過早的標籤「垃圾 DNA」——那個以為我們基因組裡蛋白質編碼基因之外那 98% 都是惰性填充物的假設。比較基因組學優雅地拆穿了這個想法。掃描對齊後的哺乳動物基因組,翻出了成千上萬段不編碼任何蛋白質、卻和最關鍵的基因一樣保守的序列——其中有些在數億年間幾乎紋絲未變。這些保守非編碼元件絕不可能是偶然凍結下來的;如此不懈的保守,只在純化選擇守護著某項功能時才會發生。而事實也證明,它們中許多正是調控開關——決定基因何時、何處開啟的增強子及其他控制元件。演化一直在悄悄替我們把調控基因組標記出來;我們只是得去比較,才看得見那些標記。

功能基因組學:直接拷問基因組

比較告訴你某一段*要緊*;它很少告訴你*它在做什麼*。為此,功能基因組學採取相反的進路:與其從演化推斷功能,不如走遍整個基因組,一個位置一個位置地直接測量活性。一個調控蛋白究竟落在 DNA 的什麼地方?哪些區域被轉錄成 RNA——哪怕它們不製造任何蛋白質?哪些段落被緊緊裹進沉默的染色質裡,哪些又敞開、可及?這每一項都是真實、可測的訊號,而在全基因組範圍內讀取它們,就把一串靜止的字母序列,變成了一幅活的地圖——記下在某種特定細胞裡、每個部分正*在做*什麼。

這裡的里程碑式工程,是[[encode-project|ENCODE 計畫]]——DNA 元件百科全書——一場龐大、多實驗室協作的行動,要靠在許多細胞類型上疊加幾十種這樣的檢測,給人類基因組的每一個鹼基都指派一項功能。ENCODE 繪出了轉錄因子在哪裡結合、哪些組蛋白標記裝點著哪些區域、染色質在何處敞開,以及基因組有多少被抄錄成 RNA。它的頭條發現既轟動又有爭議:基因組的一大部分都表現出*某種*生化活性。這聽起來像是「垃圾 DNA」的最終死刑,但這裡誠實至關重要——「具有生化活性」是個比「在自然選擇加以維持這層意義上具有功能」弱得多的說法。有些普遍存在的活性是真正的調控;有些則是附帶的雜訊,是一個繁忙的基因組甩出的低水平普遍轉錄。這兩種視角——保守 vs. 實測活性——是互補的,而最值得信賴的功能元件,正是被這兩者*同時*標記出來的那些。

合起來:從序列裡讀出歷史與功能

退後一步,這篇裡的兩半便咔噠一聲合上了。比較基因組學把演化當作一場免費的、長達十億年的實驗:通過追問選擇拒絕改動的是什麼,它告訴你一個基因組裡*哪些*部分要緊——保守的編碼位點、低 dN/dS 的基因、凍結的非編碼島嶼、被保留的共線性。功能基因組學接著直接拷問基因組,問這些要緊的部分*在做什麼*——蛋白質在哪裡結合、什麼被轉錄、什麼處於敞開狀態——構建起 ENCODE 所開創的那張調控地圖。一個從序列裡讀歷史;另一個從細胞裡讀活性;而在兩者中*都*亮起來的那些元件,正是你最可信賴的。

這也悄悄重構了那個關於複雜性的古老謎題。人類只攜帶約兩萬個蛋白質編碼基因——比某些植物還少,按同樣的數法也不比一條小小的線蟲多——所以基因的*清單*不可能是讓我們如此精密的原因。比較與功能基因組學指向了答案:差別大半活在調控基因組裡,活在那張決定每個基因何時、何處發動的浩瀚開關之網中。基因是一份在動物間廣泛共享的零件清單;而接線圖,才是大量分化藏身之處。這正好把接力棒漂亮地交給這一級餘下的內容——在那裡,單細胞方法與系統思維會把這張*什麼可能發生*的靜態地圖,逐個基因、逐個細胞地,變成*什麼正在發生*的動態故事。