RNA 聚合酶與啟動子

在十億字母的書裡找到一個地址

在上一篇指南裡，你從整體上認識了轉錄——DNA 被抄成 RNA，分起始、延伸、終止三幕——也認識了[[molbio-rna-polymerase|RNA 聚合酶]]，就是那個真正動筆書寫、形如蟹鉗的酶。但有一個真正棘手的問題被懸在了那裡。細菌的染色體長達數百萬鹼基對；人類的更是上億。這些鹼基對裡的每一個，化學上都是那寥寥幾個字母中的一個。那麼聚合酶到底怎麼知道一個基因*從哪裡*開始，從一片彼此相像的序列中認出它？它不可能把整個基因組讀一遍去找一個可能的位置——那會花掉太久太久。

答案是：基因並非悄無聲息地開始。在一個基因的緊前方，坐落著一小段可被識別的 DNA——一塊掛出來的門牌——而聚合酶天生就能認出那個特定的圖樣。這塊路標就是[[molbio-promoter|啟動子]]。它是一段 DNA，而不是蛋白質，而且它本身並不被抄進 RNA 的有用部分；它純粹是一條指令。一個啟動子同時說出三件事：*從這裡開始*、*讀這條鏈*、*朝這個方向走*。因為它有確定的取向，指明一個啟動子，也就自動決定了兩條鏈中哪一條是聚合酶要讀的模板，以及酶將朝哪個方向行進。

兩個框：近看細菌啟動子

學習啟動子如何運作，最乾淨俐落的地方是大腸桿菌之類的細菌——基礎那一級裡那個任勞任怨的模式生物。細菌啟動子很緊湊，它幾乎全部的識別都落在兩段短小的 DNA 模體上。一段位於起始位點上游約 10 個鹼基對處——-10 框，也叫 Pribnow 框，得名於發現它的科學家。另一段位於上游約 35 個鹼基對處——-35 框。聚合酶不必把整個基因讀一遍才能找到它的起點；它只需找到這兩個相隔合適距離的小地標，起始位點便可預料地落在它們緊下游處。

每個框都有一段細胞所追求的「典型」序列，叫做共有序列（consensus）。對常見的大腸桿菌啟動子而言，-10 框接近 5'-TATAAT-3'，-35 框接近 5'-TTGACA-3'，均寫在編碼鏈上。「共有」這個詞誠實地點出一件要緊事：幾乎沒有哪個真實啟動子與這些字母完全相符。共有序列是眾多啟動子的*平均*——每一個啟動子都或多或少與之相像。那個富含 A-T 的 -10 框絕非偶然。回想核酸那幾級講過的：A-T 對只靠兩個氫鍵相連，而 G-C 對有三個，所以富含 A-T 的一段是最容易把兩條鏈揭開的地方——而要讓複製在此起步，正需要這件事在這裡發生。

       -35 box        17 bp spacer        -10 box       +1
  5'...T T G A C A....................T A T A A T....N N N...gene-->3'  coding strand
  3'...A A C T G T....................A T A T T A....N N N...gene-->5'  template strand
        ^^^^^^                          ^^^^^^        ^
     sigma reads here              Pribnow box    start site (first RNA base)

  upstream  <----------------------------------------> downstream

一個典型的細菌啟動子：一個 -35 框和一個 -10（Pribnow）框，相隔約 17 個鹼基對，緊位於 +1 起始位點的上游。

留意那張草圖裡兩個框之間的間隔。這個間距和序列本身一樣要緊。兩段模體相隔大約 17 個鹼基對，而這個距離同樣不是巧合：正是這個間距讓同一個聚合酶分子能*同時*觸到兩個框，就好比一隻手只有在兩根梯檔相隔恰當時才能同時抓住它們。如果一個啟動子的兩個框靠得太近或離得太遠，即便兩段序列在其他方面都堪稱完美，它結合聚合酶的能力也會很差。

西格瑪：負責讀取的那個部件

這裡有一處常常把人絆住的微妙之處：核心 RNA 聚合酶，也就是負責構建 RNA 的那部分，其實沒法自己找到啟動子。任由它自行其是，核心酶幾乎會貼在 DNA 的任何地方，全然不知基因從哪裡開始。讀取啟動子的活兒，是由一個可拆卸的獨立蛋白完成的，它叫[[sigma-factor|西格瑪因子]]（用希臘字母 σ 表示）。把一個西格瑪因子扣到核心酶上，你就得到了那台完整、具備搜索能力的機器——[[bacterial-promoter-and-sigma-factor|全酶]]。核心負責書寫；西格瑪負責讀門牌。

西格瑪會從物理上識別 -10 框和 -35 框。它的一些部位探進 DNA 的大溝——也就是你在雙螺旋那篇裡見過的兩條螺旋凹槽中較寬的那條，在那裡不必把兩條鏈撬開，從外面就能讀到鹼基對的邊緣——並接觸上去「摸出」正確的序列，很像一把鑰匙摸索鎖的形狀。關鍵在於，西格瑪之所以可拆卸是有原因的：同一個核心酶可以與*不同的*西格瑪因子搭配，而每種西格瑪讀取一類不同風味的啟動子。大腸桿菌的日常西格瑪（叫 σ70）打理大多數管家基因，但當細胞受到熱擊或處於飢餓時，它會派出能識別不同框的備用西格瑪，一舉開啟整套應急的基因程序。更換讀門牌的那個部件，本身就是控制哪些基因被轉錄的一種辦法。

強、弱，以及一個基因的音量

現在來說收穫，這也是本篇最深的一個想法。啟動子並非只有「有」或「無」兩種。一個啟動子與共有序列*相符的程度*，決定了全酶抓住它的難易——也因此決定了那個基因被轉錄的頻率。一個啟動子，若它的框近乎完美地複刻了 TATAAT 和 TTGACA、相隔恰好 17 個鹼基對，那就是一個強啟動子：聚合酶迫不及待地結合它、一遍又一遍地發動，源源不斷地產出大量 RNA 副本。一個啟動子若它的框只是馬馬虎虎地相符，那就是一個弱啟動子：聚合酶很少結合它，於是那個基因只偶爾被轉錄。序列本身，就是一個音量旋鈕。

正因如此，一個啟動子的*序列本身*就是一層內建的調控，早在任何調控蛋白現身之前就已設定。細胞時刻都想要成桶的核糖體 RNA，於是編碼它的基因就守在極其強勁的啟動子之後。它只想要某些調控蛋白涓滴般的一點點，於是這些就藏在刻意做弱的啟動子背後。而這個旋鈕也並非固定在某一檔：你很快會遇到的調控蛋白——幫助聚合酶結合的激活蛋白、擋住它的阻遏蛋白——大都靠微調聚合酶與同一個啟動子結合的好壞來起作用。這正是轉錄的起步是細胞主要控制點的具體緣由：改變一個基因的起點被讀取的難易，你就改變了細胞製造這個基因產物的多少。

工程師們毫不客氣地借用這個旋鈕。當一個實驗室想讓細菌大量產出某種有用的蛋白——比如胰島素——他們會把那個基因放在一個出了名強的啟動子之後；為了讓它可開關，他們往往再加上一個細胞可以擋住的操縱基因，使這個基因保持關閉，直到他們把它撥開。這整套把戲，你會在基因調控那一級裡看到細節，它之所以行得通，正是因為啟動子強度是一個真實的、可調的、由序列編碼的量。

打開螺旋：氣泡與雜合鏈

識別啟動子只是第一步。找到門牌還沒抄到任何東西——要讀一個鹼基，你必須把它暴露出來，而鹼基藏在雙螺旋的內側，配對、堆疊著，就像埋在一架擰扭梯子中央的橫檔。所以全酶一旦鎖定在啟動子上，它就在一小段範圍內——大約十幾個鹼基對——把兩條鏈撬開，把閉合的雙鏈 DNA 變成一個由未配對單鏈構成的張開的小口袋。那個熔開的口袋，就是[[molbio-transcription-bubble|轉錄泡]]。

關於這個氣泡，有兩個誠實的細節。第一，聚合酶是靠自己把它打開的——與 DNA 複製不同，轉錄不需要單獨的解旋酶來解鏈；這個酶本身就是它自己的解旋器。第二，這個氣泡不會停在原地不動。複製一旦開始，整個氣泡便隨著酶沿基因前行，在它的前緣熔開新的 DNA，讓兩條鏈在它身後重新合攏，因此任何時刻都只有一個短短的窗口是張開的。想像一小塊移動的、被拉開的布料區域，沿著一條長長的、閉合的拉鏈滑動——前方剛剛拉開，後方隨即重新合上。

在氣泡內部，發生了一件很精巧的事。當聚合酶讀取模板鏈、鋪下 RNA 時，最新的那幾個 RNA 字母仍與它們剛剛抄自的模板保持配對。在大約 8 到 9 個鹼基對的一段範圍裡，你得到一條 DNA 鏈與一條 RNA 鏈配對——一小段 RNA-DNA 雜合鏈。它由與普通 DNA 相同的 A-U、G-C 鹼基配對邏輯維繫，只不過用 RNA 的尿嘧啶頂替了胸腺嘧啶。正是這段雜合鏈，在化學鍵尚在形成的當口，讓新生的 RNA 始終與它的模板正確對齊。再往後一點，RNA 從模板上剝離、穿出酶外，兩條 DNA 鏈在氣泡後方重新配對——而那條單鏈 RNA 則自顧自地上路了。

串起來：從門牌到第一個字母

我們把整套起步流程按它在一個細菌基因處發生的順序走一遍。每一步都為下一步鋪路，合在一起，正是轉錄起始在分子層面上的全部含義。

核心酶撿起一個西格瑪因子，組成全酶——那台能識別啟動子的完整機器。
全酶沿 DNA 滑動、跳躍，直到西格瑪識別出相隔合適距離的 -35 框和 -10 框，並結合上去——這種在閉合雙鏈 DNA 上的鬆散停靠，就是「閉合複合物」。
酶在起始位點周圍熔開約十幾個鹼基對，暴露出模板鏈——這就是「開放複合物」，也就是轉錄泡。
聚合酶讀取暴露的模板，把頭幾個核糖核苷酸連成 RNA，沿 5' 到 3' 方向構建，通常在 +1 處以一個嘌呤（A 或 G）開頭——氣泡內部隨之形成一小段 RNA-DNA 雜合鏈。
一旦真正的轉錄本啟動，西格瑪便鬆手離去，飄去尋找另一個核心酶；核心酶此時已下定決心，清離啟動子，切換到沿基因穩步進行的延伸。

最後還有一處誠實的細微之處，因為它是個經典的絆腳石。起步才是緩慢而艱難的部分——找到啟動子、熔開 DNA、再脫離啟動子，才是限速的關卡，聚合酶常在這裡結巴，造出又丟掉幾條沒用的小 RNA，之後才成功。一旦越過這一關、順利進入延伸，它每秒可添加幾十個核苷酸。這正是為什麼調控集中在起始而非延伸：起始是瓶頸，而瓶頸正是安裝閥門的天然位置。隨著西格瑪離去、核心酶邁進基因，下一篇將接續這個故事——延伸中的聚合酶如何一路讀下去，又如何最終知道該停下來。