在序列裡讀歷史

把基因組當作歷史文獻

你爬完了整座階梯，看清了一個基因組如何被複製、轉錄、翻譯和修復——一台把序列從親代忠實傳給子代的精巧機器。但正是這份忠實，帶來了這一級賴以建立的一個副作用。由於 DNA 複製得如此精確、改變得如此緩慢，今天活著的每一個基因組同時也是一座檔案：一份自生命破曉以來、每一處被傳下來的改動的連續記錄。那同一個分子，既攜帶著*建造*一個生物體的指令，也攜帶著*這個生物體從何而來*的故事。分子演化的核心思想，就是去讀那第二條訊息——把序列不當作藍圖，而當作一份手稿，在數十億年裡被一遍遍謄抄，只要你懂得怎麼看，它依然可讀。

讓這份手稿可讀的，正是你早已熟知、作為改變之引擎的那個過程：[[mutation-fitness-spectrum|突變]]。這裡抄錯一個鹼基，那裡換掉一個字母——這些就是沿著世代累積下來的修訂。而那個關鍵事實，你在階梯前面見過——大多數突變是中性的：它們既不幫忙也不添亂，於是順勢搭車、近乎像鐘錶一樣地堆積起來。正是這份穩定，把突變從單純的損傷變成了一件*測量工具*。兩條譜系分開的時間越長，各自累積的獨立修訂就越多，它們的序列也就漂離得越遠。換句話說，差異是流逝時間的替身——而這一個洞見，就是這一級裡一切的根基。

比較兩條序列，講出一段承傳的故事

取兩個物種裡的同一個蛋白質——比方說人和馬那運送氧氣的血紅蛋白——把兩條胺基酸序列一上一下地寫出來，讓對應的位置排齊。這就是一次比對，單單一次就已經在講故事。大多數列完全相同；零星幾列不同。相同並非巧合：兩條毫不相干的序列，只會以隨機概率所容許的頻率相符，而這兩條卻幾乎處處相符。那壓倒性的相似，正是[[sequence-homology|同源]]的標誌——這兩個蛋白質相似，不是因為它們碰巧做著相似的工作，而是因為它們*字面意義上就是同一個祖先蛋白質*，自一個很久以前的生物那裡，沿兩條分岔的譜系繼承而來。那些差異，則是此後每條譜系各自在自己那份拷貝上做下的修訂。

現在去數這些差異，比對就變成了一座鐘。如果中性修訂以大致穩定的步調累積，那麼兩條序列之間差異的數目，就能估出它們的譜系在多久以前分開——也就是回溯到最近共同祖先的時間。這正是[[molecular-clock|分子鐘]]的邏輯，也是序列比較給你買來的東西：不只是*知道*兩個物種有親緣，還有一個粗略的*何時*。人和黑猩猩的蛋白質差異極小，所以它們的分離是晚近的；人和酵母的蛋白質差異很大，所以那次分枝是古老的。不過要對這個假設誠實——這座鐘並不是一隻精準的碼錶。不同的基因以不同的速率滴答，速率在譜系之間還會加快或放慢，所以一個分子年代永遠是估計值，當它被一個獨立的錨（比如一塊年代確鑿的化石）校準時，才最值得信賴。

保守 vs. 可變：選擇在哪裡留下印記

再仔細看那次比對，你會發現差異並非均勻鋪開。有些列在你加進來的每一個物種裡都*完全相同*——在數億年間凍得結結實實——另一些卻幾乎在每一個分枝上都變。那些凍結的列是[[conserved-variable-sites|保守位點]]；翻騰不休的則是可變位點。差別從何而來？不是因為突變避開了保守的地方——突變是盲目地處處來襲。保守的列之所以維持原樣，是因為落在那裡的突變幾乎個個都會弄壞某樣要緊的東西，攜帶它的生物體留下的後代更少，於是這個改動被悄悄地從群體中清除。這種把有害變體濾除掉的過程，就是[[purifying-selection|純化選擇]]，而一個保守位點正是它的指紋：一個要緊到演化承受不起任其挪動的位置。

對蛋白質編碼基因，還有一種更鋒利的讀法，它倚靠的是你早已熟悉的遺傳密碼的冗餘。由於密碼是簡併的，有些 DNA 改動會換掉胺基酸（一次*非同義*改動，dN），另一些則讓蛋白質毫髮無損（一次*同義*改動，dS）。同義改動幾乎感受不到選擇，於是它們以接近中性的速率累積；非同義改動會改變蛋白質，因而被過濾。兩者的比值——[[dn-ds-ratio|dN/dS 比值]]——就把選擇變成了一個你能直接從比對上讀出來的數字。

one protein, three species, aligned column by column:

  human   M  V  H  L  T  P  E  E  K  S  A  V
  horse   M  V  H  L  T  P  E  E  K  T  A  V
  yeast   M  V  H  L  S  G  Q  E  K  N  A  V
          |  |  |  |  ^  ^  ^  |  |  ^  |  |
        conserved sites      variable sites
        (purifying selection)  (drift tolerated)

  few differences  -> recent common ancestor
  many differences -> ancient split

  dN/dS < 1  purifying selection (site / gene matters)
  dN/dS ~ 1  drifting, little constraint
  dN/dS > 1  positive selection (change favoured)

單單一次比對身兼兩職：差異的數目估出距共同祖先的時間，而哪些列保持凍結的模式，揭示出選擇拒絕任其改變的是哪些殘基。

為何分子常勝過化石

人們很容易以為骨頭才是歷史的金標準，而序列不過是個聰明的事後補充。常常恰恰相反。化石稀少、零散、又有偏倚——軟體生物、微生物和深海生命幾乎什麼都沒留下，生命之樹整整幾條枝杈*根本*沒有化石記錄。一個基因組則不同，它被每一個活著的後代攜帶著，所以一滴血、一片葉子，就藏著那條譜系歷史的近乎完整的檔案。一塊化石只在某個凍結的瞬間給你寥寥幾根骨頭，一條序列卻給你成百上千個獨立的字元——每個鹼基都是一個獨立的小小見證——還讓你去比較那些根本沒有共同骨骼可比的生物，比如一個細菌和一棵紅杉。正是這龐大的證據量，使得用分子建起來的系統發生樹，通常比單憑解剖結構畫出來的分辨得清楚得多。

一條序列能說什麼、不能說什麼

從序列裡讀歷史威力強大，卻帶著實實在在的警告，一位稱職的分子史家會把它們大聲講出來。相似必須是真正的同源，而非偶然的形似，也不是一個借來的基因：細菌和別的微生物會通過水平基因轉移把 DNA 橫向交換出去，所以單個基因的樹可能與物種的樹相左，你必須比較許多基因，才能信任一條分枝。當速率在譜系間漂移時，鐘會把你帶偏。而飽和最終會把最深的比較弄模糊——經過足夠長的時間，一個位點可能突變、變回、再次突變，把改動藏起來，使得非常古老的距離被系統性地低估。這些都沒有擊垮這套方法；它們只是意味著，一條序列是要被掂量的證據，而非要被遵從的神諭。

退後一步，這一章的承諾便清晰起來。基因組是一份用四個字母寫成的歷史文獻，由突變編輯，由選擇校對，而且從未被徹底擦去。單單一次比對就足以講出一段承傳的故事：多少字母相異，量出兩條譜系*何時*分手；哪些字母拒絕相異，揭示出它們之中*什麼*最要緊。從這裡起，這一級餘下的內容鋪展開來——接下來的幾篇會拿起這個想法，把它向外建造：建到新基因如何被*孕育*出來、而不只是被保守，建到那組織起全部生命的宏大的樹，建到那讓單單一條序列就能認出它來自哪個物種的分子指紋。