JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

RNA 聚合酶与启动子

书写 RNA 的那个酶,以及告诉它从哪里开始的那块路牌。认识细菌启动子的 -10 框与 -35 框、读取它们的西格玛因子,以及复制真正起步的那个熔开的小气泡。

在十亿字母的书里找到一个地址

在上一篇指南里,你从整体上认识了转录——DNA 被抄成 RNA,分起始、延伸、终止三幕——也认识了[[molbio-rna-polymerase|RNA 聚合酶]],就是那个真正动笔书写、形如蟹钳的酶。但有一个真正棘手的问题被悬在了那里。细菌的染色体长达数百万碱基对;人类的更是上亿。这些碱基对里的每一个,化学上都是那寥寥几个字母中的一个。那么聚合酶到底怎么知道一个基因*从哪里*开始,从一片彼此相像的序列中认出它?它不可能把整个基因组读一遍去找一个可能的位置——那会花掉太久太久。

答案是:基因并非悄无声息地开始。在一个基因的紧前方,坐落着一小段可被识别的 DNA——一块挂出来的门牌——而聚合酶天生就能认出那个特定的图样。这块路标就是[[molbio-promoter|启动子]]。它是一段 DNA,而不是蛋白质,而且它本身并不被抄进 RNA 的有用部分;它纯粹是一条指令。一个启动子同时说出三件事:*从这里开始*、*读这条链*、*朝这个方向走*。因为它有确定的取向,指明一个启动子,也就自动决定了两条链中哪一条是聚合酶要读的模板,以及酶将朝哪个方向行进。

两个框:近看细菌启动子

学习启动子如何运作,最干净利落的地方是大肠杆菌之类的细菌——基础那一级里那个任劳任怨的模式生物。细菌启动子很紧凑,它几乎全部的识别都落在两段短小的 DNA 模体上。一段位于起始位点上游约 10 个碱基对处——-10 框,也叫 Pribnow 框,得名于发现它的科学家。另一段位于上游约 35 个碱基对处——-35 框。聚合酶不必把整个基因读一遍才能找到它的起点;它只需找到这两个相隔合适距离的小地标,起始位点便可预料地落在它们紧下游处。

每个框都有一段细胞所追求的“典型”序列,叫做共有序列(consensus)。对常见的大肠杆菌启动子而言,-10 框接近 5'-TATAAT-3',-35 框接近 5'-TTGACA-3',均写在编码链上。“共有”这个词诚实地点出一件要紧事:几乎没有哪个真实启动子与这些字母完全相符。共有序列是众多启动子的*平均*——每一个启动子都或多或少与之相像。那个富含 A-T 的 -10 框绝非偶然。回想核酸那几级讲过的:A-T 对只靠两个氢键相连,而 G-C 对有三个,所以富含 A-T 的一段是最容易把两条链揭开的地方——而要让复制在此起步,正需要这件事在这里发生。

       -35 box        17 bp spacer        -10 box       +1
  5'...T T G A C A....................T A T A A T....N N N...gene-->3'  coding strand
  3'...A A C T G T....................A T A T T A....N N N...gene-->5'  template strand
        ^^^^^^                          ^^^^^^        ^
     sigma reads here              Pribnow box    start site (first RNA base)

  upstream  <----------------------------------------> downstream
一个典型的细菌启动子:一个 -35 框和一个 -10(Pribnow)框,相隔约 17 个碱基对,紧位于 +1 起始位点的上游。

留意那张草图里两个框之间的间隔。这个间距和序列本身一样要紧。两段模体相隔大约 17 个碱基对,而这个距离同样不是巧合:正是这个间距让同一个聚合酶分子能*同时*触到两个框,就好比一只手只有在两根梯档相隔恰当时才能同时抓住它们。如果一个启动子的两个框靠得太近或离得太远,即便两段序列在其他方面都堪称完美,它结合聚合酶的能力也会很差。

西格玛:负责读取的那个部件

这里有一处常常把人绊住的微妙之处:核心 RNA 聚合酶,也就是负责构建 RNA 的那部分,其实没法自己找到启动子。任由它自行其是,核心酶几乎会贴在 DNA 的任何地方,全然不知基因从哪里开始。读取启动子的活儿,是由一个可拆卸的独立蛋白完成的,它叫[[sigma-factor|西格玛因子]](用希腊字母 σ 表示)。把一个西格玛因子扣到核心酶上,你就得到了那台完整、具备搜索能力的机器——[[bacterial-promoter-and-sigma-factor|全酶]]。核心负责书写;西格玛负责读门牌。

西格玛会从物理上识别 -10 框和 -35 框。它的一些部位探进 DNA 的大沟——也就是你在双螺旋那篇里见过的两条螺旋凹槽中较宽的那条,在那里不必把两条链撬开,从外面就能读到碱基对的边缘——并接触上去“摸出”正确的序列,很像一把钥匙摸索锁的形状。关键在于,西格玛之所以可拆卸是有原因的:同一个核心酶可以与*不同的*西格玛因子搭配,而每种西格玛读取一类不同风味的启动子。大肠杆菌的日常西格玛(叫 σ70)打理大多数管家基因,但当细胞受到热击或处于饥饿时,它会派出能识别不同框的备用西格玛,一举开启整套应急的基因程序。更换读门牌的那个部件,本身就是控制哪些基因被转录的一种办法。

强、弱,以及一个基因的音量

现在来说收获,这也是本篇最深的一个想法。启动子并非只有“有”或“无”两种。一个启动子与共有序列*相符的程度*,决定了全酶抓住它的难易——也因此决定了那个基因被转录的频率。一个启动子,若它的框近乎完美地复刻了 TATAAT 和 TTGACA、相隔恰好 17 个碱基对,那就是一个强启动子:聚合酶迫不及待地结合它、一遍又一遍地发动,源源不断地产出大量 RNA 副本。一个启动子若它的框只是马马虎虎地相符,那就是一个弱启动子:聚合酶很少结合它,于是那个基因只偶尔被转录。序列本身,就是一个音量旋钮。

正因如此,一个启动子的*序列本身*就是一层内建的调控,早在任何调控蛋白现身之前就已设定。细胞时刻都想要成桶的核糖体 RNA,于是编码它的基因就守在极其强劲的启动子之后。它只想要某些调控蛋白涓滴般的一点点,于是这些就藏在刻意做弱的启动子背后。而这个旋钮也并非固定在某一档:你很快会遇到的调控蛋白——帮助聚合酶结合的激活蛋白、挡住它的阻遏蛋白——大都靠微调聚合酶与同一个启动子结合的好坏来起作用。这正是转录的起步是细胞主要控制点的具体缘由:改变一个基因的起点被读取的难易,你就改变了细胞制造这个基因产物的多少。

工程师们毫不客气地借用这个旋钮。当一个实验室想让细菌大量产出某种有用的蛋白——比如胰岛素——他们会把那个基因放在一个出了名强的启动子之后;为了让它可开关,他们往往再加上一个细胞可以挡住的操纵基因,使这个基因保持关闭,直到他们把它拨开。这整套把戏,你会在基因调控那一级里看到细节,它之所以行得通,正是因为启动子强度是一个真实的、可调的、由序列编码的量。

打开螺旋:气泡与杂合链

识别启动子只是第一步。找到门牌还没抄到任何东西——要读一个碱基,你必须把它暴露出来,而碱基藏在双螺旋的内侧,配对、堆叠着,就像埋在一架拧扭梯子中央的横档。所以全酶一旦锁定在启动子上,它就在一小段范围内——大约十几个碱基对——把两条链撬开,把闭合的双链 DNA 变成一个由未配对单链构成的张开的小口袋。那个熔开的口袋,就是[[molbio-transcription-bubble|转录泡]]

关于这个气泡,有两个诚实的细节。第一,聚合酶是靠自己把它打开的——与 DNA 复制不同,转录不需要单独的解旋酶来解链;这个酶本身就是它自己的解旋器。第二,这个气泡不会停在原地不动。复制一旦开始,整个气泡便随着酶沿基因前行,在它的前缘熔开新的 DNA,让两条链在它身后重新合拢,因此任何时刻都只有一个短短的窗口是张开的。想象一小块移动的、被拉开的布料区域,沿着一条长长的、闭合的拉链滑动——前方刚刚拉开,后方随即重新合上。

在气泡内部,发生了一件很精巧的事。当聚合酶读取模板链、铺下 RNA 时,最新的那几个 RNA 字母仍与它们刚刚抄自的模板保持配对。在大约 8 到 9 个碱基对的一段范围里,你得到一条 DNA 链与一条 RNA 链配对——一小段 RNA-DNA 杂合链。它由与普通 DNA 相同的 A-U、G-C 碱基配对逻辑维系,只不过用 RNA 的尿嘧啶顶替了胸腺嘧啶。正是这段杂合链,在化学键尚在形成的当口,让新生的 RNA 始终与它的模板正确对齐。再往后一点,RNA 从模板上剥离、穿出酶外,两条 DNA 链在气泡后方重新配对——而那条单链 RNA 则自顾自地上路了。

串起来:从门牌到第一个字母

我们把整套起步流程按它在一个细菌基因处发生的顺序走一遍。每一步都为下一步铺路,合在一起,正是转录起始在分子层面上的全部含义。

  1. 核心酶捡起一个西格玛因子,组成全酶——那台能识别启动子的完整机器。
  2. 全酶沿 DNA 滑动、跳跃,直到西格玛识别出相隔合适距离的 -35 框和 -10 框,并结合上去——这种在闭合双链 DNA 上的松散停靠,就是“闭合复合物”。
  3. 酶在起始位点周围熔开约十几个碱基对,暴露出模板链——这就是“开放复合物”,也就是转录泡。
  4. 聚合酶读取暴露的模板,把头几个核糖核苷酸连成 RNA,沿 5' 到 3' 方向构建,通常在 +1 处以一个嘌呤(A 或 G)开头——气泡内部随之形成一小段 RNA-DNA 杂合链。
  5. 一旦真正的转录本启动,西格玛便松手离去,飘去寻找另一个核心酶;核心酶此时已下定决心,清离启动子,切换到沿基因稳步进行的延伸。

最后还有一处诚实的细微之处,因为它是个经典的绊脚石。起步才是缓慢而艰难的部分——找到启动子、熔开 DNA、再脱离启动子,才是限速的关卡,聚合酶常在这里结巴,造出又丢掉几条没用的小 RNA,之后才成功。一旦越过这一关、顺利进入延伸,它每秒可添加几十个核苷酸。这正是为什么调控集中在起始而非延伸:起始是瓶颈,而瓶颈正是安装阀门的天然位置。随着西格玛离去、核心酶迈进基因,下一篇将接续这个故事——延伸中的聚合酶如何一路读下去,又如何最终知道该停下来。