基因組的解剖

翻開整本食譜

在之前的篇章裡，你已經認識了基因——它既是遺傳的單位，也是一段實體的DNA；你也認識了基因組——它是整本食譜，而不是單獨一道菜譜。本階把這本食譜翻開，問一個關於結構的問題：裡面究竟寫了些什麼？又是如何把這麼多東西塞進一個你肉眼看不見的空間裡的？先從純粹的尺度說起。人類基因組的每一套大約是三十億個鹼基對，而一個細胞攜帶兩套——約六十億個字母。把一個人類細胞裡的DNA首尾相連地拉直，長度約兩米；可它卻摺疊進一個僅有百萬分之幾米大小的細胞核裡。這就好比把四十公里長的釣魚線塞進一粒米裡，而且塞得如此整齊，以至於任何一個基因仍能隨時被找到並讀取。

三十億是個大數字，但它也小得出奇。若以每秒一個字母的速度念出來，大約要念上一個世紀；然而同樣的資訊卻能裝進遠不到一個GB的電腦儲存裡——比一部現代手機裡的一張照片還小。基因組之所以了不起，並不是因為它「大」，而是因為它被組織得如此緻密、被有選擇地讀取、又被極其可靠地複製。本篇將描繪這套解剖：哪一部分是基因，其餘的是什麼，以及原核生物和真核生物如何用截然不同的方式把這一切鋪排開來。

基因組的大小天差地別——而這些大小會「說謊」

把目光掃過整棵生命之樹，你首先會注意到基因組大小的差異有多麼巨大。一種小細菌可能攜帶不到兩百萬個鹼基對；一種典型的真菌是幾千萬個；一隻果蠅約一億四千萬個；一個人是三十億個。到這裡為止，這看起來或許像一架井然有序的梯子：越高級的生物，DNA越多。可接著這架梯子就塌了。大理石肺魚攜帶的基因組大約是我們的四十倍。一種不起眼的開花植物——日本重樓（Paris japonica）——所含的DNA約為人類的五十倍。某些單細胞的變形蟲則以百倍之差把我們比了下去。很顯然，一個細胞裡DNA的多少，並不是衡量這個生物有多精巧的尺度。

這種不匹配有個名字：C值悖論。C值不過是一個生物體一套染色體中所含DNA的量。所謂「悖論」，是指C值並不隨複雜程度變化；更糟的是，兩個看上去同樣複雜的生物，其基因組大小可以相差幾十倍。這件事曾長期令人困惑，因為生物學家半是預期著DNA的量總該說明點什麼關於生物複雜性的事。它的解答——在我們真正能讀取基因組之後才變得清晰——正是本篇的核心：一個大基因組的大部分並不是多出來的基因，而是非編碼DNA，尤其是重複序列；它們之所以積累起來，原因往往與「讓生物更精巧」毫無關係。

基因組內部：一點點編碼，一大堆別的東西

打開人類基因組，按每一段「在做什麼」來拆分它。最粗的一刀是切成基因和基因之間的DNA，但令人意外的是它們的比例。我們基因組中只有大約百分之一到百分之二直接編碼蛋白質。其餘都是非編碼DNA：決定基因何時、何處被讀取的調控開關；其產物是一段工作型RNA、卻永遠不會變成蛋白質的基因；大片大片的重複序列；以及很久以前把自己插入我們祖先DNA中的病毒所留下的石化殘骸。光是重複序列就佔了人類基因組的大約一半——既有串聯堆疊的短模體拷貝，也有在演化時間裡把自己撒遍全基因組的可移動元件。

Human genome (~3,000,000,000 bp per set), very roughly by category:

  protein-coding sequence (exons) ...... ~1-2%   <- spells out proteins
  regulatory + RNA genes + introns ..... varies  <- controls / non-protein RNA
  repetitive & transposon-derived DNA .. ~50%    <- repeats, mobile-element relics

  ~20,000 protein-coding genes total (about the same as a tiny worm)

人類基因組的粗略解剖——編碼序列只是薄薄一片，重複序列卻佔了一大塊。

幾十年來，這一大堆非編碼物質中的很大一部分被斥為「垃圾DNA」。這是個過早的標籤，而把「為什麼過早」說精確，是有意義的。我們如今知道，非編碼基因組中相當多的部分在做著真實的工作——首先就體現在調控上：決定哪些基因在哪種細胞裡、在什麼時候被打開。但與此同時，相反方向的矯枉過正同樣是錯的：並非每一個鹼基都有功能。確實有一些序列就是惰性的填充物，或是搭便車混進來的「自私」重複。誠實的表述應當謹慎：「非編碼」意思是「不被翻譯成蛋白質」，而非「無用」；有功能的那一部分，落在舊說法的「幾乎沒有」和誇張說法的「全部」之間的某處。

而基因的數目本身，是所有數字裡最令人謙卑的一個。在基因組首次被讀出之後，最終的清點結果只有大約兩萬個蛋白質編碼基因——跟一條僅一毫米長的線蟲差不多，比某些植物還少。當一個人，並不需要在零件清單上比一條蠕蟲多出太多條目。真正不同的是這些零件如何被運用：被剪接成多種蛋白質、在不同細胞裡被開或關、並被接入「基因彼此調控」的網路。複雜性棲身於編排之中，而不在零件清單的長度裡。

鋪排基因組的兩種方式：細菌與我們

你已經認識了作為細胞生命最深一道分界的原核—真核之分。這道分界在兩類細胞如何儲存各自基因組上體現得淋漓盡致。細菌沒有細胞核，因此它的基因組鬆散地待在細胞質裡，是一條通常為環狀的染色體，經過超螺旋盤繞，聚成一個被稱為擬核的緻密區域——那是一團DNA，而不是一個有膜壁的房間。細菌基因組緊湊而基因密集：基因之間間隔很小，基因內部很少被打斷，重複填充物也極少。在主染色體之外，許多細菌還攜帶質粒——一些額外DNA的小環，可以在細胞之間傳遞，常常帶著像抗生素抗性這樣的實用性狀。

真核細胞的做法恰恰相反。我們的基因組被封存在一個有膜包被的細胞核裡，分成若干條線性染色體（人類是23對），並且——這一點至關重要——纏繞在蛋白質「線軸」上。這正是本階其餘篇章將要細講的那個偉大的打包戲法：DNA纏繞在組蛋白上，形成一顆顆被稱為核小體的「珠子」，珠子再盤繞、摺疊成染色質，染色質又一次次摺疊，直到兩米長的DNA裝進一個顯微鏡下才看得見的細胞核裡。這種摺疊不只是儲存，也是一種控制：因為一個區域被打包得有多緊，會幫助決定其中的基因究竟能不能被讀取。真核基因組也比細菌的寬鬆得多：攤得很開，滿是調控DNA、被打斷的基因和重複序列。

把這套解剖拼起來

把這些碎片拼成一幅完整的圖：讓我們從外向內，走一遍解剖一個基因組時會依次看到什麼。

從整個基因組開始：一個生物體全部DNA的合集，從小細菌不到兩百萬個字母，到植物或動物的幾十億個不等——並且記住，這個大小既不預示基因的數目，也不預示複雜程度。
找到它棲居在哪裡：在原核生物裡，它鬆散地待在細胞質中，是一條環狀染色體外加質粒；在真核生物裡，它被封在細胞核內，分佈於若干條線性染色體上。
放大看其內容：在我們體內，只有約百分之一到二編碼蛋白質；其餘是調控DNA、RNA基因，尤其是重複序列——人類基因組大約有一半是重複序列。
數一數基因：人類只有大約兩萬個蛋白質編碼基因——並且要抵制住把這個數字當成複雜度評分來讀的衝動，因為真正要緊的是編排，而非數目。

有了這套解剖在手，本階其餘的篇章就成了一次對你剛剛鋪開的這些部件的巡遊。接下來，你會放大到單個基因，近距離觀察它的外顯子、內含子和調控訊號。然後，你會正面迎擊「垃圾」DNA這個問題。最後，你會親眼看到那個打包戲法的運作——DNA如何纏繞組蛋白、摺疊成染色質，這正是「如何把這一切裝進細胞核、又仍能隨取隨讀」的答案。