可移動 DNA 與基因組重新洗牌

一個安分不下來的基因組

在這一級裡，你一直看著 DNA 受損、再被修好：這裡換掉一個鹼基，那裡清掉一個胸腺嘧啶二聚體，那邊用一份匹配的模板把一個雙鏈斷裂焊合起來。所有這些背後都有一個不動聲色的假設：存在一個*正確*的排列方式——一份細胞竭力要保住的固定文本。這最後一篇要把這個假設從你腳下抽走。基因組裡有相當一部分根本就待不住。其中一些片段攜帶著自己的指令，要離開一個地址、抵達另一個地址，把自己複製或剪切下來，再落到某個新地方。原來，基因組與其說是一本印好的書，不如說是一副偶爾會自我洗牌的紙牌。

這些可移動的片段叫作[[transposable-element|轉座因子]]，或者更生動地說，叫*跳躍基因*。它們的發現者芭芭拉·麥克林托克在 1940 年代於玉米中發現了它們——她注意到玉米籽粒上的顏色斑紋，而這些斑紋只有在某種遺傳元件不斷跳進跳出色素基因時才說得通。在當時，「基因組能自我重排」這個想法離經叛道到她的工作被大體忽視了幾十年。她最終憑此在 1983 年獲得諾貝爾獎，那時分子生物學已經趕了上來、證明她是對的。請記住她：早在任何人能測序之前，她就從一根玉米棒子的斑點裡讀出了關於 DNA 的一條深刻真相。

兩種跳法：剪切—貼上與複製—貼上

跳躍基因大體有兩種風格，區別歸結為一個問題：這個元件是以 DNA 的形式移動，還是中途繞道經過一份 RNA 拷貝？第一種風格是 DNA 轉座子，它以*剪切—貼上*的方式移動。該元件編碼自己的酶——一種轉座酶，能識別該元件自身的兩端，把它乾淨俐落地從當前位置剪下來，再貼到一個新位置。想像用剪刀把一頁上的一句話剪下來、貼到別處：這句話身後不留拷貝，所以總數不會增加。麥克林托克的玉米元件用的本質上就是這種機制。

第二種風格是反轉錄轉座子，它經由一份 RNA 中間體、以*複製—貼上*的方式移動——而正是在這裡，最開頭那一級埋下的一條線索得到了回報。回想中心法則，以及那個常見的誤解：資訊只能沿 DNA -> RNA -> 蛋白質單向流動，從不倒流。反轉錄轉座子恰恰把這支箭頭倒著跑。該元件先被轉錄成 RNA；接著一種叫[[molbio-reverse-transcriptase|反轉錄酶]]的酶把那份 RNA*反過來*拷貝成 DNA；這份嶄新的 DNA 拷貝被插入一個新位點，而原件原地不動。由於什麼也沒被移走，每跳一次都可能多留下一個拷貝——天生就帶著一種自我增殖的傾向。

DNA transposon  (cut-and-paste, count stays the same):
  ...===[ELEMENT]===...   --transposase-->   ...======...   (gone here)
                                              ...[ELEMENT]... (now here)

Retrotransposon (copy-and-paste via RNA, count grows):
  ...[ELEMENT]...  --transcribe-->  RNA copy
                   --reverse transcriptase-->  new DNA copy
  ...[ELEMENT]...  (original stays)  +  ...[ELEMENT]...  (new insertion)

  the RNA -> DNA step is the SAME trick a retrovirus (e.g. HIV) uses

剪切—貼上保持數目不變；經 RNA 的複製—貼上會讓拷貝越積越多。

那個 RNA 到 DNA 的步驟，除了讓你想到中心法則，還應該敲響另一記鐘。它正是像 HIV 這樣的反轉錄病毒把自己的基因組拼接進宿主細胞所用的招數——而這絕非巧合。反轉錄轉座子與反轉錄病毒是演化上的表親，是同一支古老遺傳元件譜系的兩個分支，它們都學會了以 RNA 為模板把自己寫進 DNA。說句實在話，「一個會整合進去的病毒」和「一個有時會離開的已整合元件」之間的界線，比那些整齊的分類所暗示的要模糊得多；我們基因組中相當一部分，正是侵襲過我們祖先、從此再沒離開的病毒感染留下的化石殘骸。

既破壞基因，也創造基因

跳躍基因落點多少是隨機的，而它落在哪裡關係極大。把一個轉座子塞進一個正常工作的基因當中，你就得到了一個全新的突變——回想這一級前面講過的，所謂[[mutation-definition|突變]]不過就是 DNA 序列發生的任何改變。一個插入進去的元件可以打碎基因的閱讀框、卡住它的剪接，或把它的啟動子與其餘部分割斷，像撕掉一頁一樣把基因猝然關掉。真實的人類疾病就是這樣產生的：例如某些血友病病例，可以追溯到一個落進凝血因子基因裡的反轉錄轉座子拷貝。麥克林托克那些帶斑點的籽粒正是如此——色素基因隨著元件跳進跳出而忽明忽暗。

但那份打碎東西的不安分，同樣也在建造東西，而這恰是推翻舊偏見的一環。轉座子並非空手而來——它帶著自己的啟動子、剪接信號和編碼蛋白的片段。把這些「貨物」在千百萬年裡撒遍一個基因組，你就為演化的修補埋下了原料。轉座子提供新的調控序列，重新布線現有基因開啟的時機與部位；它們能把鄰近的一個外顯子拖到新位置，這正是通往外顯子重排的一條路徑，讓細胞用拼湊的零件組裝出全新的蛋白。最戲劇性的是，讓我們免疫系統得以拼接出數十億種不同抗體的那些基因，據信正是源自一個遠古被馴化的轉座子，它的剪切—貼上機器被改造成了脊椎動物免疫的一件工具。

你身上有多少是跳躍基因？

現在來看那個讓大多數人震驚的數字。人類基因組裡大約*一半*由轉座因子及其降解殘骸構成——這些序列可追溯到跳躍基因。相比之下，真正編碼蛋白質的那些片段加起來才只佔大約 1% 到 2%。請細想這個對比：你的染色體裡，遠古轉座子的殘片遠多於編碼蛋白的指令。最豐富的單一元件，是一種叫 Alu 的反轉錄轉座子，光它自己就出現了一百多萬個拷貝，每個幾百個鹼基，撒得到處都是——這正是我們巡覽基因組結構時你見過的[[repetitive-dna|重複 DNA]]的教科書式例子。

這意味著一個老汙名的悄然死去。幾十年來，基因組裡那些非編碼的大塊——其中很多來自轉座子——曾被一揮手打發為[[junk-dna-retirement|垃圾 DNA]]，被當作自私元件遺留下來的無用填充物。這個標籤下得太早了。其中有些確實是惰性的衰朽殘餘，對此我們應當老實承認，而不是假裝每個鹼基都有什麼崇高用途。但其中很大一部分已經被招募去幹活了：充當調控開關、充當染色體結構的骨架、充當新基因的原材料。「垃圾」二字把*我們還不知道這有什麼用*和*這什麼用都沒有*混為一談了——而這是兩個非常不同的說法。這個詞的退場，是分子生物學關於謙遜的一堂相當乾淨俐落的課。

值得把這件事和你也許早已抱有的一個誤解聯繫起來：以為基因組越大、生物就越複雜。並非如此。有些洋蔥和蠑螈所攜帶的基因組比我們的大上好多倍，而這差別壓倒性地取決於累積了多少重複的、來自轉座子的 DNA——而不是有多少基因在幹有意義的活。人類只有大約兩萬個編碼蛋白的基因，比有些植物還少。基因組的*大小*所追蹤的，遠更多是轉座子的歷史，而不是精巧程度——這又是一個理由，說明為什麼 DNA 是一份精簡、目的明確的藍圖這幅舊畫面必須被拋棄。

精確的重排：位點特異性重組

轉座子把基因組重排得亂七八糟，落在哪兒全憑它高興。但細胞還有一種*外科手術式*的洗牌辦法，在精神氣質上恰恰相反。這一級前面講過的同源重組需要長段匹配的序列，且幾乎在它們排齊的任何地方都能動作。[[site-specific-recombination|位點特異性重組]]兩樣都不需要：一種專門的酶——重組酶，會識別一個短而明確的序列——它的識別位點，無論這個確切地址出現在哪裡，都在兩個這樣的位點之間執行一次乾淨的切割—重接，既不多一個鹼基、也不少一個鹼基。與其把它看作一個修復過程，不如把它看作基因組中兩個指定門牌地址之間的一次可編程拼接。

妙處在於，結果完全由那兩個識別位點彼此的朝向所決定。這個酶做的化學反應永遠一樣——結合、切割、交換、重新封合——但幾何朝向決定了它會產生什麼：

同一條 DNA 分子上、朝向相同的兩個位點：它們之間的那段被環出並刪除——這是切除某一選定片段的辦法。
朝向相反的兩個位點：它們之間的那段被首尾翻轉（倒位）——這是切換一段 DNA 朝向的辦法。
分處兩條獨立 DNA 分子上的兩個位點：這兩條分子被融合成一條——這是把一段 DNA 整合進另一段的辦法。

細胞和病毒把它用在要求精確無誤的工作上。λ 噬菌體就是以這種方式把自己整個基因組整合進宿主染色體上某一選定的點；有些細菌則把一段序列來回翻轉，以開關某個基因。同樣這套機器也成了實驗室的主力：Cre-lox 與 FLP-FRT 系統讓研究者能在某一選定的組織、某一選定的時間刪除、倒轉或激活某個基因。這是一種連CRISPR這樣強大的工具，在乾淨無痕的重排上也比不過的精細功夫——也提醒我們，細胞自身那套歷經幾十億年演化出來、用來編輯自己的方法，至今仍在教我們新招。

基因組：一份活的、不斷重排的文本

退一步，讓整整一級的內容收束成一幅畫面。你一開始抱著一個令人安心的想法：有一份 DNA 的母本，細胞守護它、修復它。這是真的，那些修復途徑也真實而至關重要。但這只是故事的一半。在演化的時間尺度上，基因組*同時*是一個動態、不斷重排的東西：跳躍基因四處散布、自我增殖，遠古的病毒化石不斷堆積，片段被刪除、倒轉、融合、複製。這些改變大多是中性的——既不幫忙也不添亂——而你與身邊那個人之間的大量差異，恰恰就是這種不安分的洗牌被定格在不同狀態。變異不是疊加在信號之上的噪聲；從長遠看，它*就是*演化賴以工作的原材料。

所以要把兩條真相同時握住，別讓其中任何一條把另一條抹掉。在*你自己細胞*的時間尺度上，基因組被嚴防死守——校對、錯配修復、切除修復和重組全都在賣力工作，讓你的序列從一次細胞分裂到下一次都保持穩定，因為體內一個不穩定的基因組正是癌症的溫床。而在*物種與漫長歲月*的時間尺度上，同一個基因組又是流動的，被轉座和重組攪動成無窮無盡的新排列。基因組既不是一份凍結的文本，也不是純粹的混沌。它是一份被守護著的文件，卻又在緩慢而不停地被改寫。