一個基因的結構

一個基因是一片街區，而不僅僅是一句話

在上一篇裡，你認識了作為遺傳單位、同時又是一段實體 DNA 的基因，也知道了那個令人洩氣的事實：當一個人，只需要大約兩萬個蛋白質編碼基因。現在我們一路放大，沿著其中一段一個鹼基一個鹼基地走，看看它究竟由什麼構成。首先要忘掉的，是「基因不過是拼寫出某個蛋白質的那串字母」這種想法。編碼蛋白質的部分是標題，但一個真正的基因更像一整片街區：寫著蛋白質配方的那棟房子，再加上門鈴、門牌、門口附近的開關，以及一些可能位於街道遠處、出人意料的開關。

要在這片街區裡辨別方向，我們需要一個方位感。回想一下：一條 DNA 鏈從 5' 端走向 3' 端，就像一條單行道，而兩條鏈是反向平行、彼此朝相反方向延伸的。當轉錄讀取一個基因時，它把其中一條鏈抄寫成 RNA，並沿著新生 RNA 朝 5' 向 3' 的方向前進。按照慣例，我們把基因畫成起點在左，並以轉錄起始的位置為基準來標註座標：起點之前的一切叫「上游」（負數），起點之後的一切叫「下游」（正數）。記住這張地圖；接下來遇到的每個部件，都坐落在它上面某個確定的位置。

沿著一個真核基因從頭走到尾

讓我們從上游到下游，參觀一個典型的真核基因。在基因本體的正前方，是啟動子：一段不會被抄進信使、卻充當轉錄發射台的 DNA。它是負責製造 RNA 的機器被招募、被瞄準的地方。許多啟動子內部有一個著名的地標——TATA 盒（一段富含 A 與 T 的短序列，比如 TATAAA），它幫助定位起始點。啟動子要解決的問題是「這個基因該不該被讀取、又該從哪一個鹼基開始讀」，而它本身並不提供配方裡的任何內容。

在轉錄起始位點，抄寫開始，基因其餘部分被轉錄成一條長長的 RNA。但這條 RNA 最前面的一段同樣不是蛋白質配方：它是 5' 非翻譯區，也就是 5' UTR。核糖體稍後會降落在這裡，沿著它掃描，直到抵達起始密碼子（DNA 上的三個字母 A-T-G，在 RNA 上是 AUG），蛋白質的搭建才真正開始。可以把 UTR 想成這封信件上的封面附言和地址標籤：它攜帶著關於這條訊息該以多高效率、在何處被翻譯的訊號，但它本身並不屬於那個蛋白質。

現在來到真核佈局裡最奇怪的部分。編碼區並不是連續的。它被切成一段段叫作外顯子（最終留在訊息裡的部分）的片段，中間被內含子（會被剪掉的部分）隔開。在人類基因組裡，內含子往往遠遠長於它們所打斷的外顯子：一個基因可以橫跨數千個鹼基的 DNA，而其中只有一小部分最終指定蛋白質。正是這種外顯子—內含子的組織方式，使得剛剛合成的 RNA 必須先經過編輯才能被讀取——這正是後面轉錄各階將要詳細展開的主題。最後一個外顯子之後，是 3' UTR，又一條不被翻譯的尾巴，其中某處有一個多聚腺苷酸化訊號，告訴細胞在哪裡結束這條訊息、並接上一條保護性的尾巴。

upstream <----- transcription start (+1) -----> downstream

  [enhancer] .... [PROMOTER] | 5'UTR [EXON1]~intron~[EXON2]~intron~[EXON3] 3'UTR [polyA signal]
     far away      launch pad |  ATG (start codon).....stop codon
     not copied   not copied  |  <-------- transcribed into one long RNA -------->
                              |  <-- introns later cut out, exons spliced together -->

一個典型真核基因從上游到下游的佈局：只有外顯子（去掉 UTR 後）最終指定蛋白質。

那些遠離基因的開關

啟動子告訴你轉錄從哪裡開始，卻幾乎說不清它有多頻繁、在哪種組織裡、在生命的哪個階段發生。這個決定在很大程度上由另外一些調控元件來做出，其中最著名的就是增強子。一個增強子是一小段 DNA，它結合調控蛋白，把一個基因的轉錄調高。它驚人之處在於：它可以坐落在距離它所控制的啟動子數千、甚至數十萬個鹼基之外，有時在某個內含子裡面，有時在整個基因的下游。由於 DNA 是一種柔韌、可彎曲的分子，而不是一架僵硬的梯子，鏈條可以打彎成環，讓一個遙遠的增強子在物理上被帶到啟動子身旁——就像把一條長絲帶摺起來，讓相隔很遠的兩點彼此相觸。

增強子並非孤軍作戰。沉默子把轉錄調低，而絕緣子像一道道柵欄，阻止某個增強子伸手去夠它本不該觸碰的基因。一個基因常常同時受到好幾個這樣的元件管轄，每個元件回應著不同的訊號，它們的合票決定了最終的轉錄速率。這正是為什麼同一個基因在某種細胞裡高聲喧嘩、在另一種細胞裡卻沉默無言，儘管 DNA 字母完全相同：差別在於有哪些調控蛋白在場來讀取這些開關。我們將在調控各階看到，正是這種分散式的、組合式的控制，是一套並不龐大的基因之所以能造出豐富多樣生物體的主要原因。

細菌的做法不同——而且更緊湊

你在基礎階就遇到過原核與真核的分野；在這裡，它直接體現在一個基因的建築結構上。一個典型的細菌基因顯得格外精簡。幾乎沒有內含子，所以編碼區通常從起始密碼子一路連續地跑到終止密碼子。細菌基因組很緻密，幾乎沒有間隔 DNA，基因彼此挨得很近。啟動子也更簡單：它不是靠一個由眾多蛋白質組成的大委員會去閱讀的 TATA 盒，而是被製造 RNA 的酶上一個可更換的部件——叫作西格瑪因子（sigma 因子）——直接識別。

還有一個更深層的結構上的轉折。細菌常常把好幾個相關的基因排成一排、置於同一個啟動子之下，把它們一起轉錄到一條共享的 RNA 上。這種安排就是操縱子，它讓細胞能用一個決定，就把一整套相關的活計（比方說，消化某種糖所需的每一種酶）一起開或關。真核生物幾乎從不這麼做；它們的每個基因通常都有自己的啟動子和自己的訊息。於是對比十分鮮明：細菌的基因是一段精瘦、連續、常常被共享的指令；而真核基因是一段冗長、被打斷、被單獨調控的指令，它的開關散落在周圍的 DNA 之中。

為什麼要有這麼多額外的 DNA？基因不只是它的蛋白質

退一步把帳算清。啟動子、兩個 UTR、好幾個內含子，再加上一群分散的增強子、沉默子和絕緣子：在一個人類基因裡，真正指定那個蛋白質的字母，通常只佔所涉 DNA 的少數。這正是你上一篇遇到的那條鴻溝——編碼與非編碼 DNA之間的差距——在單個基因層面上的樣貌。那些額外的材料並不是廢料。它們是控制的裝置：決定一個基因是否開口、何時開口、在哪裡開口、開口多大聲。曾經，「垃圾 DNA」是給一切非編碼序列貼的時髦標籤；今天我們知道，其中很大一部分正是在做著上面這種調控的工作，儘管確實也有一部分是真正惰性的。

這種被切分的結構還帶來第二份紅利。正因為編碼區被分裝成一個個外顯子，細胞可以用不止一種方式把它們拼接起來。通過可變剪接，一個基因的外顯子能被組合成好幾種不同的最終訊息，每一種產出一個不同的蛋白質。這就是「一個基因，一個蛋白質」那句老口號被淘汰的分子層面的原因：平均而言，一個人類基因會產生不止一個蛋白質。內含子—外顯子的佈局並不只是被容忍的雜亂；它正是讓這種多面性成為可能的東西，使大約兩萬個基因得以編碼出一個大得多的蛋白質庫。

找到啟動子和各個增強子：決定這個基因是否被讀取、以及讀得多大聲的發射台與音量旋鈕。
標出轉錄起始點，再標出 5' UTR：在配方開始之前先被讀到的那段封面附言。
勾出外顯子與內含子：只有外顯子（去掉 UTR 後）攜帶蛋白質配方；內含子會被剪掉。
停在 3' UTR 和多聚腺苷酸化訊號處：那段收尾的標籤，說明在哪裡停止、以及這條訊息能存活多久。

為什麼現在就要在還沒看到轉錄發生之前，先糾纏於解剖結構？因為之後的每一章，講的都是這些部件的故事。轉錄，是機器在閱讀啟動子、把外顯子和內含子抄成 RNA。RNA 加工，是把內含子去掉、把外顯子拼接起來的那場編輯。調控，則是增強子、沉默子與讀取它們的蛋白質之間的對話。先學會這張佈局圖，等每位演員上台時你都能認出它——而且你已經領會了最深的那一點：一個基因不只是它那段編碼蛋白質的序列，它是那段序列再加上所有支配它「何時、如何被使用」的指令。