JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

在序列裡讀歷史

每一個基因組都是一份文獻,用演化唯一的墨水——突變——寫成,而且從未被徹底擦去。來看看比較兩條序列如何測出它們共享祖先以來的時間,以及為什麼一個分子拒絕改動的那些字母,正是最要緊的字母。

把基因組當作歷史文獻

你爬完了整座階梯,看清了一個基因組如何被複製、轉錄、翻譯和修復——一台把序列從親代忠實傳給子代的精巧機器。但正是這份忠實,帶來了這一級賴以建立的一個副作用。由於 DNA 複製得如此精確、改變得如此緩慢,今天活著的每一個基因組同時也是一座檔案:一份自生命破曉以來、每一處被傳下來的改動的連續記錄。那同一個分子,既攜帶著*建造*一個生物體的指令,也攜帶著*這個生物體從何而來*的故事。分子演化的核心思想,就是去讀那第二條訊息——把序列不當作藍圖,而當作一份手稿,在數十億年裡被一遍遍謄抄,只要你懂得怎麼看,它依然可讀。

讓這份手稿可讀的,正是你早已熟知、作為改變之引擎的那個過程:[[mutation-fitness-spectrum|突變]]。這裡抄錯一個鹼基,那裡換掉一個字母——這些就是沿著世代累積下來的修訂。而那個關鍵事實,你在階梯前面見過——大多數突變是中性的:它們既不幫忙也不添亂,於是順勢搭車、近乎像鐘錶一樣地堆積起來。正是這份穩定,把突變從單純的損傷變成了一件*測量工具*。兩條譜系分開的時間越長,各自累積的獨立修訂就越多,它們的序列也就漂離得越遠。換句話說,差異是流逝時間的替身——而這一個洞見,就是這一級裡一切的根基。

比較兩條序列,講出一段承傳的故事

取兩個物種裡的同一個蛋白質——比方說人和馬那運送氧氣的血紅蛋白——把兩條胺基酸序列一上一下地寫出來,讓對應的位置排齊。這就是一次比對,單單一次就已經在講故事。大多數列完全相同;零星幾列不同。相同並非巧合:兩條毫不相干的序列,只會以隨機概率所容許的頻率相符,而這兩條卻幾乎處處相符。那壓倒性的相似,正是[[sequence-homology|同源]]的標誌——這兩個蛋白質相似,不是因為它們碰巧做著相似的工作,而是因為它們*字面意義上就是同一個祖先蛋白質*,自一個很久以前的生物那裡,沿兩條分岔的譜系繼承而來。那些差異,則是此後每條譜系各自在自己那份拷貝上做下的修訂。

現在去數這些差異,比對就變成了一座鐘。如果中性修訂以大致穩定的步調累積,那麼兩條序列之間差異的數目,就能估出它們的譜系在多久以前分開——也就是回溯到最近共同祖先的時間。這正是[[molecular-clock|分子鐘]]的邏輯,也是序列比較給你買來的東西:不只是*知道*兩個物種有親緣,還有一個粗略的*何時*。人和黑猩猩的蛋白質差異極小,所以它們的分離是晚近的;人和酵母的蛋白質差異很大,所以那次分枝是古老的。不過要對這個假設誠實——這座鐘並不是一隻精準的碼錶。不同的基因以不同的速率滴答,速率在譜系之間還會加快或放慢,所以一個分子年代永遠是估計值,當它被一個獨立的錨(比如一塊年代確鑿的化石)校準時,才最值得信賴。

保守 vs. 可變:選擇在哪裡留下印記

再仔細看那次比對,你會發現差異並非均勻鋪開。有些列在你加進來的每一個物種裡都*完全相同*——在數億年間凍得結結實實——另一些卻幾乎在每一個分枝上都變。那些凍結的列是[[conserved-variable-sites|保守位點]];翻騰不休的則是可變位點。差別從何而來?不是因為突變避開了保守的地方——突變是盲目地處處來襲。保守的列之所以維持原樣,是因為落在那裡的突變幾乎個個都會弄壞某樣要緊的東西,攜帶它的生物體留下的後代更少,於是這個改動被悄悄地從群體中清除。這種把有害變體濾除掉的過程,就是[[purifying-selection|純化選擇]],而一個保守位點正是它的指紋:一個要緊到演化承受不起任其挪動的位置。

對蛋白質編碼基因,還有一種更鋒利的讀法,它倚靠的是你早已熟悉的遺傳密碼的冗餘。由於密碼是簡併的,有些 DNA 改動會換掉胺基酸(一次*非同義*改動,dN),另一些則讓蛋白質毫髮無損(一次*同義*改動,dS)。同義改動幾乎感受不到選擇,於是它們以接近中性的速率累積;非同義改動會改變蛋白質,因而被過濾。兩者的比值——[[dn-ds-ratio|dN/dS 比值]]——就把選擇變成了一個你能直接從比對上讀出來的數字。

one protein, three species, aligned column by column:

  human   M  V  H  L  T  P  E  E  K  S  A  V
  horse   M  V  H  L  T  P  E  E  K  T  A  V
  yeast   M  V  H  L  S  G  Q  E  K  N  A  V
          |  |  |  |  ^  ^  ^  |  |  ^  |  |
        conserved sites      variable sites
        (purifying selection)  (drift tolerated)

  few differences  -> recent common ancestor
  many differences -> ancient split

  dN/dS < 1  purifying selection (site / gene matters)
  dN/dS ~ 1  drifting, little constraint
  dN/dS > 1  positive selection (change favoured)
單單一次比對身兼兩職:差異的數目估出距共同祖先的時間,而哪些列保持凍結的模式,揭示出選擇拒絕任其改變的是哪些殘基。

為何分子常勝過化石

人們很容易以為骨頭才是歷史的金標準,而序列不過是個聰明的事後補充。常常恰恰相反。化石稀少、零散、又有偏倚——軟體生物、微生物和深海生命幾乎什麼都沒留下,生命之樹整整幾條枝杈*根本*沒有化石記錄。一個基因組則不同,它被每一個活著的後代攜帶著,所以一滴血、一片葉子,就藏著那條譜系歷史的近乎完整的檔案。一塊化石只在某個凍結的瞬間給你寥寥幾根骨頭,一條序列卻給你成百上千個獨立的字元——每個鹼基都是一個獨立的小小見證——還讓你去比較那些根本沒有共同骨骼可比的生物,比如一個細菌和一棵紅杉。正是這龐大的證據量,使得用分子建起來的系統發生樹,通常比單憑解剖結構畫出來的分辨得清楚得多。

一條序列能說什麼、不能說什麼

從序列裡讀歷史威力強大,卻帶著實實在在的警告,一位稱職的分子史家會把它們大聲講出來。相似必須是真正的同源,而非偶然的形似,也不是一個借來的基因:細菌和別的微生物會通過水平基因轉移把 DNA 橫向交換出去,所以單個基因的樹可能與物種的樹相左,你必須比較許多基因,才能信任一條分枝。當速率在譜系間漂移時,鐘會把你帶偏。而飽和最終會把最深的比較弄模糊——經過足夠長的時間,一個位點可能突變、變回、再次突變,把改動藏起來,使得非常古老的距離被系統性地低估。這些都沒有擊垮這套方法;它們只是意味著,一條序列是要被掂量的證據,而非要被遵從的神諭。

退後一步,這一章的承諾便清晰起來。基因組是一份用四個字母寫成的歷史文獻,由突變編輯,由選擇校對,而且從未被徹底擦去。單單一次比對就足以講出一段承傳的故事:多少字母相異,量出兩條譜系*何時*分手;哪些字母拒絕相異,揭示出它們之中*什麼*最要緊。從這裡起,這一級餘下的內容鋪展開來——接下來的幾篇會拿起這個想法,把它向外建造:建到新基因如何被*孕育*出來、而不只是被保守,建到那組織起全部生命的宏大的樹,建到那讓單單一條序列就能認出它來自哪個物種的分子指紋。