非編碼 DNA 與「垃圾」的迷思

百分之二與百分之九十八

在本階前幾篇裡，你已經見過一個基因的內部構造——啟動子、外顯子、內含子，以及被各種信號包裹的編碼核心——也看到一個人類基因組在 23 對染色體上約有 32 億個鹼基對。現在把這整個基因組放在腦海裡，問一個直白的記帳問題：其中究竟有多少真正拼寫出蛋白質？答案正是組織起整篇指南的那一記震動。人類 DNA 中只有大約百分之一到百分之二是編碼序列，以三聯體被讀取、並翻譯成蛋白質的胺基酸。其餘百分之九十八以上，都是非編碼 DNA。

這話很容易被讀偏。「非編碼」是一個精確而狹窄的詞：它的意思是「不會被翻譯成蛋白質」。它並不意味著無用、沉默或空白。想像一本厚厚的工具書，只有部分頁面承載著正文條目；其餘是索引、交叉引用、告訴你每一章從哪裡開始的標籤頁，以及把這一切裝訂在一起的書脊。這些都不是正文，可一旦去掉，這本書就不再像一本書那樣可用了。非編碼基因組就是那索引、那些標籤頁和那書脊——再加上，正如我們將看到的，相當一部分細胞只是單純容忍著的雜物。

非編碼基因組裡住著什麼

這非編碼的多數並不是一種東西；它是一個住滿了各色居民的擁擠街區。這裡有調控序列——啟動子、增強子、沉默子——決定每個基因何時、何處、以多大強度被讀取的開關與調光旋鈕。這裡有被轉錄成 RNA、卻從不被翻譯的 DNA，從勤勤懇懇的核糖體 RNA 和轉運 RNA，到調節基因活性的長非編碼 RNA和微 RNA。這裡有染色體的結構序列。還有大片大片的重複 DNA，其中很大一部分源自可移動元件。這份名單實在是五花八門，而這恰恰說明了為什麼「垃圾」這樣一個單一標籤從一開始就注定過於粗糙。

THE HUMAN GENOME, by share of total DNA (rough, much overlaps)
  protein-coding sequence (exons read in codons) ........ ~1-2%
  non-coding, NON-repetitive
    introns + UTRs ........................................ large
    regulatory: promoters / enhancers / silencers ........ scattered
    non-coding RNA genes: rRNA, tRNA, lncRNA, miRNA ....... small but vital
  repetitive DNA ........................................ ~half the genome
    transposon-derived (mostly old, immobile) ........... ~45%
    satellite DNA (centromeres) + mini/microsatellites .. structural + variable
  pseudogenes (broken gene-like copies) ................ >10,000 of them

一張誰住在哪裡的粗略地圖。各類別有所重疊，確切的百分比仍在不斷校正。

留意一下真正的功能在那張地圖上出現在哪裡。調控基因組中相當大的一部分是非編碼的，這帶來一個引人注目的實際後果：當全基因組研究去搜尋與常見疾病相關的遺傳變異時，它們找到的變異，往往落在非編碼的調控 DNA 中，而不是落在蛋白質編碼基因裡面。一個把基因調高或調低的開關，可以與基因本身同等重要。於是，細胞最有意思的那些決定——在它約兩萬個基因中讀哪一個、在哪種組織裡、在哪個時刻——很大程度上是寫在我們曾經輕蔑對待的那部分裡的。

重複、跳躍基因，以及著絲粒處的衛星

一個基因組之所以如此龐大，最大的單一原因就是重複 DNA：以許多——有時數以百萬計——個拷貝存在的序列。在人類中它們約佔我們全部 DNA 的一半，這正是「為什麼基因組大小既不隨基因數目、也不隨複雜程度變化」的真正解答。重複有兩大樣式。串聯重複首尾相接、排成一列，就像把「哈」字寫上一千遍：短的（如 CACACACA…… 這樣的微衛星）廣泛散布，且因人而異；而巨大的衛星 DNA區塊則堆積在特定的位置。散在重複則撒遍整個基因組各處，其中大多數是可移動元件留下的遺跡。

那些可移動的遺跡就是轉座元件——「跳躍基因」——攜帶著把自己複製或剪切出來、再插入別處之指令的 DNA 片段。大多數以經由 RNA 中間體的「複製—貼上」方式移動：該元件先被轉錄成 RNA，再由一種叫逆轉錄酶的酶把那段 RNA 複製回 DNA，落到一個新位點，原件留在原處，於是拷貝不斷增多。（這一 RNA 到 DNA 的步驟，正是 HIV 等逆轉錄病毒所用的伎倆，而這些元件確實是它們演化上的表親——這生動地提醒我們：中心法則從未禁止信息從 RNA 反向流回 DNA。）單是轉座元件就約佔人類 DNA 的 45%。我們的大多數拷貝如今都已古老而不能移動，但在漫長的演化裡，它們的跳躍播撒了重複序列、偶爾打斷某個基因而致病，並——令人驚訝地——向宿主捐獻了能用的調控序列、乃至整個外顯子。

而堆積在著絲粒處的衛星 DNA，是「非編碼卻不可或缺」最乾淨俐落的例子。著絲粒是染色體被夾緊的「腰部」（讓複製後的染色體呈現經典 X 形的那個位置），在人類中它主要由重複的衛星 DNA 構築而成。這些 DNA 沒有一點編碼蛋白質，卻在結構上至關重要：細胞正是在此組裝起那套抓握裝置，讓紡錘絲得以抓住每條染色體、在細胞分裂時把拷貝拉開。失去著絲粒，染色體就無法被正確地傳遞下去。這些染色體地標清楚地表明：一段序列可以是非編碼的，卻仍為整個基因組承重。

假基因與基因家族：基因組的修訂史

基因並非全是獨一無二的孤本。許多基因成基因家族——一組通過複製源自共同祖先的相關基因，就像共享著家族相貌的表親。複製是演化通往新穎性的主要途徑之一：當一個基因被意外複製，一個拷貝可以繼續做原本的工作，另一個則可自由漂移、突變、或許獲得新功能，而這一切都不會讓生物體陷入人手不足。珠蛋白家族就是經典例子——不同成員製造在不同生命階段使用的攜氧亞基，外加肌肉裡的肌紅蛋白，全都是同一個祖先主題的變奏。

在這些工作中的家族成員旁邊，坐著一些看起來像基因、卻不再產生正常產物的破損拷貝：假基因。它們主要以兩種方式形成。一個複製拷貝可以積累使其失效的突變——一個過早的終止密碼子、一次移碼——直到它再也產不出有功能的蛋白質。或者，一條已完成、已剪接的信使 RNA 被逆轉錄回基因組，落腳成一個「加工假基因」，顯眼地缺少真基因所有的內含子和啟動子。人類基因組中攜帶著遠超一萬個這樣的拷貝。它們簡直就是基因組的修訂史——保存在頁邊的、被劃掉的草稿和刪去的段落。跨物種比較它們，讓我們得以讀出基因組隨時間如何變化，一種分子層面的古文字學。

退役「垃圾」，又不矯枉過正

垃圾 DNA這個詞誕生於 1972 年，用來稱呼基因組中那些看似沒有蛋白質編碼用途的大量重複序列和假基因。那畫面就像一間堆滿雜物的閣樓，細胞拖著這些東西到處走，卻從不使用。在隨後的幾十年裡，這幅圖景漸漸磨損了。所謂垃圾中的很大比例，結果被證明有功能、或至少是活躍的——控制基因的增強子和啟動子、被轉錄成有功能非編碼 RNA 的 DNA、著絲粒處的結構衛星和端粒處的保護帽。把我們的無知命名為「垃圾」是有真實代價的：它悄悄地勸退了人們，讓他們沒有去尋找那個明明就藏在眼前的調控基因組。這正是「垃圾 DNA」說法退場的核心。

但誠實是雙向切割的，而正是在這裡，嚴謹的生物學家拒絕誇大其詞。當ENCODE 計畫報告說基因組的大部分都存在「生化活動」時，新聞標題宣布我們 80% 的 DNA 都有功能。這混淆了兩件不同的事。以很低水平被轉錄、或被某個蛋白質碰觸，這是生化活動——而我們的基因組確實是被普遍轉錄的，在兩條鏈上被複製成 RNA，遠超過任何人曾經的預期。但活動並不等同於那種對演化才真正重要的、嚴格意義上的功能：即一段序列是保守的、被選擇保留的、一旦失去會讓生物體付出代價的。一台開著沒關的複印機會一直出複印件，但這並不意味著那些複印件是有人想要的。

所以今天審慎的立場是混合的，而且坦白說，是未完成的。一些非編碼 DNA 顯然有功能，且在物種間保守。一些最好被描述為寄生性的或自我增殖的，那些為自己而複製的轉座子。還有一些也許確實主要是惰性的填充物，被一個寬容的基因組順帶攜帶著。其中深刻的教訓關乎科學的謙遜：「我們還不知道這東西做什麼」，並不等於「它什麼都不做」。基因組學不斷在修正這幅圖景，而聰明的做法是把這張地圖握得鬆一點——誠實地為我們的無知命名，而不是把它打扮成垃圾或寶藏中的任何一個。