JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

一個基因的結構

一個基因遠不止它那串編碼蛋白質的字母。讓我們沿著 DNA 走一遍,認識啟動子、外顯子與內含子、不被翻譯的兩端,以及那些決定它何時開口的遠方增強子。

一個基因是一片街區,而不僅僅是一句話

在上一篇裡,你認識了作為遺傳單位、同時又是一段實體 DNA 的基因,也知道了那個令人洩氣的事實:當一個人,只需要大約兩萬個蛋白質編碼基因。現在我們一路放大,沿著其中一段一個鹼基一個鹼基地走,看看它究竟由什麼構成。首先要忘掉的,是「基因不過是拼寫出某個蛋白質的那串字母」這種想法。編碼蛋白質的部分是標題,但一個真正的基因更像一整片街區:寫著蛋白質配方的那棟房子,再加上門鈴、門牌、門口附近的開關,以及一些可能位於街道遠處、出人意料的開關。

要在這片街區裡辨別方向,我們需要一個方位感。回想一下:一條 DNA 鏈從 5' 端走向 3' 端,就像一條單行道,而兩條鏈是反向平行、彼此朝相反方向延伸的。當轉錄讀取一個基因時,它把其中一條鏈抄寫成 RNA,並沿著新生 RNA 朝 5' 向 3' 的方向前進。按照慣例,我們把基因畫成起點在左,並以轉錄起始的位置為基準來標註座標:起點之前的一切叫「上游」(負數),起點之後的一切叫「下游」(正數)。記住這張地圖;接下來遇到的每個部件,都坐落在它上面某個確定的位置。

沿著一個真核基因從頭走到尾

讓我們從上游到下游,參觀一個典型的真核基因。在基因本體的正前方,是啟動子:一段不會被抄進信使、卻充當轉錄發射台的 DNA。它是負責製造 RNA 的機器被招募、被瞄準的地方。許多啟動子內部有一個著名的地標——TATA 盒(一段富含 A 與 T 的短序列,比如 TATAAA),它幫助定位起始點。啟動子要解決的問題是「這個基因該不該被讀取、又該從哪一個鹼基開始讀」,而它本身並不提供配方裡的任何內容。

在轉錄起始位點,抄寫開始,基因其餘部分被轉錄成一條長長的 RNA。但這條 RNA 最前面的一段同樣不是蛋白質配方:它是 5' 非翻譯區,也就是 5' UTR。核糖體稍後會降落在這裡,沿著它掃描,直到抵達起始密碼子(DNA 上的三個字母 A-T-G,在 RNA 上是 AUG),蛋白質的搭建才真正開始。可以把 UTR 想成這封信件上的封面附言和地址標籤:它攜帶著關於這條訊息該以多高效率、在何處被翻譯的訊號,但它本身並不屬於那個蛋白質。

現在來到真核佈局裡最奇怪的部分。編碼區並不是連續的。它被切成一段段叫作外顯子(最終留在訊息裡的部分)的片段,中間被內含子(會被剪掉的部分)隔開。在人類基因組裡,內含子往往遠遠長於它們所打斷的外顯子:一個基因可以橫跨數千個鹼基的 DNA,而其中只有一小部分最終指定蛋白質。正是這種外顯子—內含子的組織方式,使得剛剛合成的 RNA 必須先經過編輯才能被讀取——這正是後面轉錄各階將要詳細展開的主題。最後一個外顯子之後,是 3' UTR,又一條不被翻譯的尾巴,其中某處有一個多聚腺苷酸化訊號,告訴細胞在哪裡結束這條訊息、並接上一條保護性的尾巴。

upstream <----- transcription start (+1) -----> downstream

  [enhancer] .... [PROMOTER] | 5'UTR [EXON1]~intron~[EXON2]~intron~[EXON3] 3'UTR [polyA signal]
     far away      launch pad |  ATG (start codon).....stop codon
     not copied   not copied  |  <-------- transcribed into one long RNA -------->
                              |  <-- introns later cut out, exons spliced together -->
一個典型真核基因從上游到下游的佈局:只有外顯子(去掉 UTR 後)最終指定蛋白質。

那些遠離基因的開關

啟動子告訴你轉錄從哪裡開始,卻幾乎說不清它有多頻繁、在哪種組織裡、在生命的哪個階段發生。這個決定在很大程度上由另外一些調控元件來做出,其中最著名的就是增強子。一個增強子是一小段 DNA,它結合調控蛋白,把一個基因的轉錄調高。它驚人之處在於:它可以坐落在距離它所控制的啟動子數千、甚至數十萬個鹼基之外,有時在某個內含子裡面,有時在整個基因的下游。由於 DNA 是一種柔韌、可彎曲的分子,而不是一架僵硬的梯子,鏈條可以打彎成環,讓一個遙遠的增強子在物理上被帶到啟動子身旁——就像把一條長絲帶摺起來,讓相隔很遠的兩點彼此相觸。

增強子並非孤軍作戰。沉默子把轉錄調低,而絕緣子像一道道柵欄,阻止某個增強子伸手去夠它本不該觸碰的基因。一個基因常常同時受到好幾個這樣的元件管轄,每個元件回應著不同的訊號,它們的合票決定了最終的轉錄速率。這正是為什麼同一個基因在某種細胞裡高聲喧嘩、在另一種細胞裡卻沉默無言,儘管 DNA 字母完全相同:差別在於有哪些調控蛋白在場來讀取這些開關。我們將在調控各階看到,正是這種分散式的、組合式的控制,是一套並不龐大的基因之所以能造出豐富多樣生物體的主要原因。

細菌的做法不同——而且更緊湊

你在基礎階就遇到過原核與真核的分野;在這裡,它直接體現在一個基因的建築結構上。一個典型的細菌基因顯得格外精簡。幾乎沒有內含子,所以編碼區通常從起始密碼子一路連續地跑到終止密碼子。細菌基因組很緻密,幾乎沒有間隔 DNA,基因彼此挨得很近。啟動子也更簡單:它不是靠一個由眾多蛋白質組成的大委員會去閱讀的 TATA 盒,而是被製造 RNA 的酶上一個可更換的部件——叫作西格瑪因子(sigma 因子)——直接識別。

還有一個更深層的結構上的轉折。細菌常常把好幾個相關的基因排成一排、置於同一個啟動子之下,把它們一起轉錄到一條共享的 RNA 上。這種安排就是操縱子,它讓細胞能用一個決定,就把一整套相關的活計(比方說,消化某種糖所需的每一種酶)一起開或關。真核生物幾乎從不這麼做;它們的每個基因通常都有自己的啟動子和自己的訊息。於是對比十分鮮明:細菌的基因是一段精瘦、連續、常常被共享的指令;而真核基因是一段冗長、被打斷、被單獨調控的指令,它的開關散落在周圍的 DNA 之中。

為什麼要有這麼多額外的 DNA?基因不只是它的蛋白質

退一步把帳算清。啟動子、兩個 UTR、好幾個內含子,再加上一群分散的增強子、沉默子和絕緣子:在一個人類基因裡,真正指定那個蛋白質的字母,通常只佔所涉 DNA 的少數。這正是你上一篇遇到的那條鴻溝——編碼與非編碼 DNA之間的差距——在單個基因層面上的樣貌。那些額外的材料並不是廢料。它們是控制的裝置:決定一個基因是否開口、何時開口、在哪裡開口、開口多大聲。曾經,「垃圾 DNA」是給一切非編碼序列貼的時髦標籤;今天我們知道,其中很大一部分正是在做著上面這種調控的工作,儘管確實也有一部分是真正惰性的。

這種被切分的結構還帶來第二份紅利。正因為編碼區被分裝成一個個外顯子,細胞可以用不止一種方式把它們拼接起來。通過可變剪接,一個基因的外顯子能被組合成好幾種不同的最終訊息,每一種產出一個不同的蛋白質。這就是「一個基因,一個蛋白質」那句老口號被淘汰的分子層面的原因:平均而言,一個人類基因會產生不止一個蛋白質。內含子—外顯子的佈局並不只是被容忍的雜亂;它正是讓這種多面性成為可能的東西,使大約兩萬個基因得以編碼出一個大得多的蛋白質庫。

  1. 找到啟動子和各個增強子:決定這個基因是否被讀取、以及讀得多大聲的發射台與音量旋鈕。
  2. 標出轉錄起始點,再標出 5' UTR:在配方開始之前先被讀到的那段封面附言。
  3. 勾出外顯子與內含子:只有外顯子(去掉 UTR 後)攜帶蛋白質配方;內含子會被剪掉。
  4. 停在 3' UTR 和多聚腺苷酸化訊號處:那段收尾的標籤,說明在哪裡停止、以及這條訊息能存活多久。

為什麼現在就要在還沒看到轉錄發生之前,先糾纏於解剖結構?因為之後的每一章,講的都是這些部件的故事。轉錄,是機器在閱讀啟動子、把外顯子和內含子抄成 RNA。RNA 加工,是把內含子去掉、把外顯子拼接起來的那場編輯。調控,則是增強子、沉默子與讀取它們的蛋白質之間的對話。先學會這張佈局圖,等每位演員上台時你都能認出它——而且你已經領會了最深的那一點:一個基因不只是它那段編碼蛋白質的序列,它是那段序列再加上所有支配它「何時、如何被使用」的指令。