JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

基因組的解剖

基因組裡究竟裝著什麼、基因組大小的瘋狂跨度,以及為什麼更大的基因組(甚至更多的基因)並不會讓一個生物更複雜。

翻開整本食譜

在之前的篇章裡,你已經認識了基因——它既是遺傳的單位,也是一段實體的DNA;你也認識了基因組——它是整本食譜,而不是單獨一道菜譜。本階把這本食譜翻開,問一個關於結構的問題:裡面究竟寫了些什麼?又是如何把這麼多東西塞進一個你肉眼看不見的空間裡的?先從純粹的尺度說起。人類基因組的每一套大約是三十億個鹼基對,而一個細胞攜帶兩套——約六十億個字母。把一個人類細胞裡的DNA首尾相連地拉直,長度約兩米;可它卻摺疊進一個僅有百萬分之幾米大小的細胞核裡。這就好比把四十公里長的釣魚線塞進一粒米裡,而且塞得如此整齊,以至於任何一個基因仍能隨時被找到並讀取。

三十億是個大數字,但它也小得出奇。若以每秒一個字母的速度念出來,大約要念上一個世紀;然而同樣的資訊卻能裝進遠不到一個GB的電腦儲存裡——比一部現代手機裡的一張照片還小。基因組之所以了不起,並不是因為它「大」,而是因為它被組織得如此緻密、被有選擇地讀取、又被極其可靠地複製。本篇將描繪這套解剖:哪一部分是基因,其餘的是什麼,以及原核生物和真核生物如何用截然不同的方式把這一切鋪排開來。

基因組的大小天差地別——而這些大小會「說謊」

把目光掃過整棵生命之樹,你首先會注意到基因組大小的差異有多麼巨大。一種小細菌可能攜帶不到兩百萬個鹼基對;一種典型的真菌是幾千萬個;一隻果蠅約一億四千萬個;一個人是三十億個。到這裡為止,這看起來或許像一架井然有序的梯子:越高級的生物,DNA越多。可接著這架梯子就塌了。大理石肺魚攜帶的基因組大約是我們的四十倍。一種不起眼的開花植物——日本重樓(Paris japonica)——所含的DNA約為人類的五十倍。某些單細胞的變形蟲則以百倍之差把我們比了下去。很顯然,一個細胞裡DNA的多少,並不是衡量這個生物有多精巧的尺度。

這種不匹配有個名字:C值悖論。C值不過是一個生物體一套染色體中所含DNA的量。所謂「悖論」,是指C值並不隨複雜程度變化;更糟的是,兩個看上去同樣複雜的生物,其基因組大小可以相差幾十倍。這件事曾長期令人困惑,因為生物學家半是預期著DNA的量總該說明點什麼關於生物複雜性的事。它的解答——在我們真正能讀取基因組之後才變得清晰——正是本篇的核心:一個大基因組的大部分並不是多出來的基因,而是非編碼DNA,尤其是重複序列;它們之所以積累起來,原因往往與「讓生物更精巧」毫無關係。

基因組內部:一點點編碼,一大堆別的東西

打開人類基因組,按每一段「在做什麼」來拆分它。最粗的一刀是切成基因和基因之間的DNA,但令人意外的是它們的比例。我們基因組中只有大約百分之一到百分之二直接編碼蛋白質。其餘都是非編碼DNA:決定基因何時、何處被讀取的調控開關;其產物是一段工作型RNA、卻永遠不會變成蛋白質的基因;大片大片的重複序列;以及很久以前把自己插入我們祖先DNA中的病毒所留下的石化殘骸。光是重複序列就佔了人類基因組的大約一半——既有串聯堆疊的短模體拷貝,也有在演化時間裡把自己撒遍全基因組的可移動元件。

Human genome (~3,000,000,000 bp per set), very roughly by category:

  protein-coding sequence (exons) ...... ~1-2%   <- spells out proteins
  regulatory + RNA genes + introns ..... varies  <- controls / non-protein RNA
  repetitive & transposon-derived DNA .. ~50%    <- repeats, mobile-element relics

  ~20,000 protein-coding genes total (about the same as a tiny worm)
人類基因組的粗略解剖——編碼序列只是薄薄一片,重複序列卻佔了一大塊。

幾十年來,這一大堆非編碼物質中的很大一部分被斥為「垃圾DNA」。這是個過早的標籤,而把「為什麼過早」說精確,是有意義的。我們如今知道,非編碼基因組中相當多的部分在做著真實的工作——首先就體現在調控上:決定哪些基因在哪種細胞裡、在什麼時候被打開。但與此同時,相反方向的矯枉過正同樣是錯的:並非每一個鹼基都有功能。確實有一些序列就是惰性的填充物,或是搭便車混進來的「自私」重複。誠實的表述應當謹慎:「非編碼」意思是「不被翻譯成蛋白質」,而非「無用」;有功能的那一部分,落在舊說法的「幾乎沒有」和誇張說法的「全部」之間的某處。

而基因的數目本身,是所有數字裡最令人謙卑的一個。在基因組首次被讀出之後,最終的清點結果只有大約兩萬個蛋白質編碼基因——跟一條僅一毫米長的線蟲差不多,比某些植物還少。當一個人,並不需要在零件清單上比一條蠕蟲多出太多條目。真正不同的是這些零件如何被運用:被剪接成多種蛋白質、在不同細胞裡被開或關、並被接入「基因彼此調控」的網路。複雜性棲身於編排之中,而不在零件清單的長度裡。

鋪排基因組的兩種方式:細菌與我們

你已經認識了作為細胞生命最深一道分界的原核—真核之分。這道分界在兩類細胞如何儲存各自基因組上體現得淋漓盡致。細菌沒有細胞核,因此它的基因組鬆散地待在細胞質裡,是一條通常為環狀的染色體,經過超螺旋盤繞,聚成一個被稱為擬核的緻密區域——那是一團DNA,而不是一個有膜壁的房間。細菌基因組緊湊而基因密集:基因之間間隔很小,基因內部很少被打斷,重複填充物也極少。在主染色體之外,許多細菌還攜帶質粒——一些額外DNA的小環,可以在細胞之間傳遞,常常帶著像抗生素抗性這樣的實用性狀。

真核細胞的做法恰恰相反。我們的基因組被封存在一個有膜包被的細胞核裡,分成若干條線性染色體(人類是23對),並且——這一點至關重要——纏繞在蛋白質「線軸」上。這正是本階其餘篇章將要細講的那個偉大的打包戲法:DNA纏繞在組蛋白上,形成一顆顆被稱為核小體的「珠子」,珠子再盤繞、摺疊成染色質,染色質又一次次摺疊,直到兩米長的DNA裝進一個顯微鏡下才看得見的細胞核裡。這種摺疊不只是儲存,也是一種控制:因為一個區域被打包得有多緊,會幫助決定其中的基因究竟能不能被讀取。真核基因組也比細菌的寬鬆得多:攤得很開,滿是調控DNA、被打斷的基因和重複序列。

把這套解剖拼起來

把這些碎片拼成一幅完整的圖:讓我們從外向內,走一遍解剖一個基因組時會依次看到什麼。

  1. 從整個基因組開始:一個生物體全部DNA的合集,從小細菌不到兩百萬個字母,到植物或動物的幾十億個不等——並且記住,這個大小既不預示基因的數目,也不預示複雜程度。
  2. 找到它棲居在哪裡:在原核生物裡,它鬆散地待在細胞質中,是一條環狀染色體外加質粒;在真核生物裡,它被封在細胞核內,分佈於若干條線性染色體上。
  3. 放大看其內容:在我們體內,只有約百分之一到二編碼蛋白質;其餘是調控DNA、RNA基因,尤其是重複序列——人類基因組大約有一半是重複序列。
  4. 數一數基因:人類只有大約兩萬個蛋白質編碼基因——並且要抵制住把這個數字當成複雜度評分來讀的衝動,因為真正要緊的是編排,而非數目。

有了這套解剖在手,本階其餘的篇章就成了一次對你剛剛鋪開的這些部件的巡遊。接下來,你會放大到單個基因,近距離觀察它的外顯子、內含子和調控訊號。然後,你會正面迎擊「垃圾」DNA這個問題。最後,你會親眼看到那個打包戲法的運作——DNA如何纏繞組蛋白、摺疊成染色質,這正是「如何把這一切裝進細胞核、又仍能隨取隨讀」的答案。