JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

系統發育樹與生命之樹

每一段序列都帶著祖先的記憶。這篇帶你把一疊對齊的 DNA 變成一棵生命之樹——它如何被建起、如何誠實地去讀,以及它已經為我們揭示的深遠歷史。

從一份比對,到一段分叉的歷史

在這一級稍早,你學會了把兩條序列排齊、把它們的差異讀作演化距離:替換越多,分開越久。一棵[[phylogenetic-tree|系統發育樹]]不過是把這個想法一次性鋪到許多物種身上。想象同一個基因的十幾個版本疊成一份序列比對——每個物種一行,字母排成整齊的列。兩個物種的行若只在寥寥幾列上不同,便是近親;兩個行已漂離得很遠的,則是遠親。這棵樹,就是能把*這整張相似與相異的圖樣一次性解釋清楚*的那段家史——一張分叉的圖,其中每一次分裂,都是一支祖先世系變成兩支的那一刻。

建樹有好幾種辦法,但它們共享同一套邏輯。最簡單的*距離法*,把每一對序列歸結為一個數——它們有多不同,並校正「同一個位點可能突變兩次、從而把改動藏起來」這件事——然後一步步把最接近的對聚到一起。更強大的*基於特徵的方法*則保留每一列,去搜尋能最好地擬合所有列的那棵樹:最大簡約法偏愛所需突變總數最少的樹,而最大似然法貝氏方法則採用一個關於字母如何隨時間變化的明確模型,問哪棵樹讓觀察到的資料最可能出現。它們更慢,卻對真實序列變化的雜亂誠實得多,也是今天這門領域的主力。

怎樣讀一棵樹(以及它沒在說什麼)

一棵樹要從它的末端和它的關節去讀。末端(葉)是你手裡真正有的物種或序列;內部節點是你從未見過、推斷出來的共同祖先;而由一個祖先*加上它的全部後代*組成的一群——你能整段剪下來的一根枝——就是一個分支群(clade)。分支群正是一棵樹真正在主張的東西:「這些生物共有一個、群外任何東西都不共有的共同祖先」。要緊的是,一棵光禿禿的分叉樹是無根的——它顯示誰與誰有親緣,卻不顯示時間往哪個方向流。要給它一個方向,你得加上一個外群,一個你已知比其餘一切都更早分出去的物種;它接上來的那一點便成了,是最深的祖先,於是整棵樹就讀作一條從根流向末端的時間之流。

因為一棵樹是從有限資料裡*推斷*出來的,每一根枝都該配一個置信分數,而最標準的那個就是[[bootstrap-support|自舉支持率(bootstrap)]]。這招妙在極其簡單:把你比對裡的列拿來隨機重抽——有放回地抽,於是有些列出現兩次、有些則掉出去——拼出一份略被打亂的假資料集,再重建一次樹。這樣做上一千遍,然後對原樹裡的每一根枝問:*在這一千次重複裡,這個一模一樣的分組重現了幾成?* 一根在 98% 裡都出現的枝是穩健的;一根只在 55% 裡出現的,則是一聳肩——資料幾乎並不比別的選項更偏愛它。所以一棵不帶支持值的已發表樹,只是半個結果。誠實的樹,會把自己的不確定大聲穿在身上。

an unrooted tree shows relationship; an outgroup adds time:

   unrooted (who is related to whom)        rooted with an outgroup

     human   chimp                                  +-- human
        \    /                                 +----+
         \  /                                  |    +-- chimp
   mouse--*--* --frog          ROOT --- frog --+
         /                                     |    +-- mouse
        /                                      +----+
      dog                                           +-- dog

   clade = a node + ALL of its descendants (one branch you can snip off whole)
   bootstrap: resample columns 1000x, count how often each branch reappears
無根樹陳述親緣關係;加上一個已知較早分出的外群便給它定根,並設定時間的方向。分支群是任何你能整段剪下的枝,而自舉值是該枝在重抽資料集中重現的比例。

生命的三域之樹

有史以來最舉足輕重的那棵樹,來自一個被巧妙選中的分子。要比較*所有*生命——一個細菌、一朵蘑菇、一個人、一株池塘裡的藻——你需要一個地球上每個細胞都攜帶、做著一件極其關鍵、幾十億年來幾乎沒變、卻又變化得恰好夠記錄最深分裂的基因。卡爾·烏斯(Carl Woese)意識到,小亞基核糖體 RNA(就是你學翻譯時見過的、位於核糖體核心的那段 RNA)正是這把普世的標尺:所有生物都造蛋白質,所以所有生物都有它。當他在 1970 年代把它在整個生命世界裡測了序,結果推翻了一條教科書上的定論。

一個世紀以來,生命按外表被一分為二:有細胞核的,和沒有的。核糖體 RNA 之樹卻揭示出[[molbio-three-domains-of-life|三個主要的域]]。那些「簡單的細菌」其實落進了兩個深刻分離的群——真正的細菌(Bacteria),以及第二支被稱作古菌(Archaea)的微生物世系;它們在顯微鏡下看著和細菌一模一樣,運轉分子機器的方式卻不同,而且——令人驚訝地——是我們*更近*的親戚。第三個域,真核生物(Eukarya)——我們、植物、真菌、變形蟲——在古菌附近分出。這個教訓令人謙卑:植物與動物那看得見的多樣性只是一根細枝,而生命歷史真正的浩蕩,活在我們看不見的微生物世界裡。這棵[[three-domain-tree|三域之樹]]是分子系統發育學的奠基之勝——一樁關於深遠歷史、任何化石或顯微鏡都給不出、卻被直接從一段序列裡讀出來的事實。

樹在幹活:病原體、人群與條碼

系統發育學不只關乎十億年的深遠時間;它在以「週」為單位的尺度上一樣管用。當一種新病原體擴散時,從許多病人身上測出它的基因組、再建一棵樹,就把這場疫情變成一段可讀的歷史。由於病毒每複製一次都會攢下幾個突變,樹上彼此靠近的樣本,是從一個晚近的共同來源染上的,而相距遙遠的樣本則早已分道揚鑣。這種*分子流行病學*——快進版的系統發育學——能顯示兩個醫院病例出自同一條傳播鏈、估算一種病毒大致何時首次跳進人類、並追蹤是哪個變體播下了哪一波疫情。它倚靠的,正是你早先見過的[[molecular-clock|分子鐘]]那同一套邏輯:數替換,把它們讀作流逝的時間。

同一套機器也在重建*我們自己*的故事。用人類 DNA 建樹——尤其是用粒線體 DNA 和 Y 染色體,它們分別只隨母親或只隨父親傳下,因而不會每代被重新洗牌——會顯示人類最深的那幾根枝全在非洲,而非洲以外的人群坐在後來才分出去的更年輕的細枝上。這種分叉圖樣,正是「走出非洲」擴張的分子簽名:一棵人類遷徙之樹,從血液和口腔拭子、而非從骨頭裡讀出。把同樣的樹思維,跑在人與人之間個體層面的 DNA 差異上,正是在我們這個物種內部追溯血緣與親緣關係的根基。

系統發育學還給生物學配了一把條碼掃描槍。[[molecular-barcoding|DNA 條碼]]挑出一段簡短、標準的基因——動物用一段粒線體基因、植物用一段葉綠體基因、真菌用一段核糖體區域——它變化得恰好夠在物種之間相異、又在同一物種內部幾乎恆定。從一個未知樣本裡測出這一段,拿去和參考庫比對,你就能給物種命名:一塊貼錯標籤的魚柳裡那條魚、一隻太幼小、肉眼認不出的昆蟲幼蟲、一勺海水或一抹泥土裡混雜的各種生物。它快而有力,卻對自身的侷限誠實——條碼的好用程度,僅取決於背後那個參考資料庫;它可能在剛剛分化的物種上栽跟頭;它是一件用於*鑑定*的工具,而非用來解出深遠演化樹的工具。

讀一樁深遠的事件:粒線體如何加入細胞

一棵樹能做的最壯觀的事,是為一樁無人目睹、也無化石記載的事件作證。你的細胞靠粒線體運轉——那是燃燒食物以產能的小小隔間。它們以一種意味深長的方式顯得古怪:一個粒線體攜帶著*自己*的一份小小的環狀基因組,與細胞核裡的 DNA 分開,而且它自造核糖體。那個激進的解釋——[[molecular-evidence-endosymbiosis|內共生學說]]——說粒線體是一個自由生活的細菌被馴化後的後代:十多億年前,它被一個祖先宿主細胞吞下卻沒被消化掉——兩個生物融成了一個。很長一段時間裡,這只是個大膽的故事。系統發育學把它變成了近乎確鑿的事實。

  1. 取出粒線體那份小基因組裡自帶的核糖體 RNA 基因,把它放到那棵普世的生命之樹上——就用烏斯用過的那把標尺。
  2. 它並沒有落在你或許預期的、宿主細胞核基因附近。它落進了細菌內部深處——具體說,落在一群自由生活的細菌當中,一個被自舉強力支持的分支群裡。
  3. 再用更多基因交叉核對:粒線體那套讀基因的機器、以及它那份微型基因組的佈局,看上去也是細菌式的、而非真核式的——多條彼此獨立的序列證據,全指向同一個細菌祖源。
  4. 結論:粒線體是一個昔日的細菌,如今成了永久住客。它原有的大多數基因隨時間遷進了細胞核,只留下它至今仍保有的那份小小的殘餘基因組。植物的葉綠體講著一模一樣的故事,可一直追溯到一個被俘獲的光合細菌。

停下來體會一下剛剛發生的事。一張僅憑序列建起的圖,回探了十多億年,並指認出了此刻正在你每一個細胞裡嗡嗡運轉的那座發電廠、其失散已久的自由生活的表親。沒有化石能做到這件事;那樁事件沒留下骨頭,只留下一串用 DNA 寫就的文字記錄。這正是把整整這一級的深遠主張活生生地呈現出來——*每一個基因組都是一份歷史文獻*——而系統發育樹,就是那件學會去讀它的工具。從這裡起,階梯將從歷史轉向當下與臨床,在那裡,這些同樣的序列會成為理解、診斷與治療疾病的一條途徑。