RNA 聚合酶与启动子

在十亿字母的书里找到一个地址

在上一篇指南里，你从整体上认识了转录——DNA 被抄成 RNA，分起始、延伸、终止三幕——也认识了[[molbio-rna-polymerase|RNA 聚合酶]]，就是那个真正动笔书写、形如蟹钳的酶。但有一个真正棘手的问题被悬在了那里。细菌的染色体长达数百万碱基对；人类的更是上亿。这些碱基对里的每一个，化学上都是那寥寥几个字母中的一个。那么聚合酶到底怎么知道一个基因*从哪里*开始，从一片彼此相像的序列中认出它？它不可能把整个基因组读一遍去找一个可能的位置——那会花掉太久太久。

答案是：基因并非悄无声息地开始。在一个基因的紧前方，坐落着一小段可被识别的 DNA——一块挂出来的门牌——而聚合酶天生就能认出那个特定的图样。这块路标就是[[molbio-promoter|启动子]]。它是一段 DNA，而不是蛋白质，而且它本身并不被抄进 RNA 的有用部分；它纯粹是一条指令。一个启动子同时说出三件事：*从这里开始*、*读这条链*、*朝这个方向走*。因为它有确定的取向，指明一个启动子，也就自动决定了两条链中哪一条是聚合酶要读的模板，以及酶将朝哪个方向行进。

两个框：近看细菌启动子

学习启动子如何运作，最干净利落的地方是大肠杆菌之类的细菌——基础那一级里那个任劳任怨的模式生物。细菌启动子很紧凑，它几乎全部的识别都落在两段短小的 DNA 模体上。一段位于起始位点上游约 10 个碱基对处——-10 框，也叫 Pribnow 框，得名于发现它的科学家。另一段位于上游约 35 个碱基对处——-35 框。聚合酶不必把整个基因读一遍才能找到它的起点；它只需找到这两个相隔合适距离的小地标，起始位点便可预料地落在它们紧下游处。

每个框都有一段细胞所追求的“典型”序列，叫做共有序列（consensus）。对常见的大肠杆菌启动子而言，-10 框接近 5'-TATAAT-3'，-35 框接近 5'-TTGACA-3'，均写在编码链上。“共有”这个词诚实地点出一件要紧事：几乎没有哪个真实启动子与这些字母完全相符。共有序列是众多启动子的*平均*——每一个启动子都或多或少与之相像。那个富含 A-T 的 -10 框绝非偶然。回想核酸那几级讲过的：A-T 对只靠两个氢键相连，而 G-C 对有三个，所以富含 A-T 的一段是最容易把两条链揭开的地方——而要让复制在此起步，正需要这件事在这里发生。

       -35 box        17 bp spacer        -10 box       +1
  5'...T T G A C A....................T A T A A T....N N N...gene-->3'  coding strand
  3'...A A C T G T....................A T A T T A....N N N...gene-->5'  template strand
        ^^^^^^                          ^^^^^^        ^
     sigma reads here              Pribnow box    start site (first RNA base)

  upstream  <----------------------------------------> downstream

一个典型的细菌启动子：一个 -35 框和一个 -10（Pribnow）框，相隔约 17 个碱基对，紧位于 +1 起始位点的上游。

留意那张草图里两个框之间的间隔。这个间距和序列本身一样要紧。两段模体相隔大约 17 个碱基对，而这个距离同样不是巧合：正是这个间距让同一个聚合酶分子能*同时*触到两个框，就好比一只手只有在两根梯档相隔恰当时才能同时抓住它们。如果一个启动子的两个框靠得太近或离得太远，即便两段序列在其他方面都堪称完美，它结合聚合酶的能力也会很差。

西格玛：负责读取的那个部件

这里有一处常常把人绊住的微妙之处：核心 RNA 聚合酶，也就是负责构建 RNA 的那部分，其实没法自己找到启动子。任由它自行其是，核心酶几乎会贴在 DNA 的任何地方，全然不知基因从哪里开始。读取启动子的活儿，是由一个可拆卸的独立蛋白完成的，它叫[[sigma-factor|西格玛因子]]（用希腊字母 σ 表示）。把一个西格玛因子扣到核心酶上，你就得到了那台完整、具备搜索能力的机器——[[bacterial-promoter-and-sigma-factor|全酶]]。核心负责书写；西格玛负责读门牌。

西格玛会从物理上识别 -10 框和 -35 框。它的一些部位探进 DNA 的大沟——也就是你在双螺旋那篇里见过的两条螺旋凹槽中较宽的那条，在那里不必把两条链撬开，从外面就能读到碱基对的边缘——并接触上去“摸出”正确的序列，很像一把钥匙摸索锁的形状。关键在于，西格玛之所以可拆卸是有原因的：同一个核心酶可以与*不同的*西格玛因子搭配，而每种西格玛读取一类不同风味的启动子。大肠杆菌的日常西格玛（叫 σ70）打理大多数管家基因，但当细胞受到热击或处于饥饿时，它会派出能识别不同框的备用西格玛，一举开启整套应急的基因程序。更换读门牌的那个部件，本身就是控制哪些基因被转录的一种办法。

强、弱，以及一个基因的音量

现在来说收获，这也是本篇最深的一个想法。启动子并非只有“有”或“无”两种。一个启动子与共有序列*相符的程度*，决定了全酶抓住它的难易——也因此决定了那个基因被转录的频率。一个启动子，若它的框近乎完美地复刻了 TATAAT 和 TTGACA、相隔恰好 17 个碱基对，那就是一个强启动子：聚合酶迫不及待地结合它、一遍又一遍地发动，源源不断地产出大量 RNA 副本。一个启动子若它的框只是马马虎虎地相符，那就是一个弱启动子：聚合酶很少结合它，于是那个基因只偶尔被转录。序列本身，就是一个音量旋钮。

正因如此，一个启动子的*序列本身*就是一层内建的调控，早在任何调控蛋白现身之前就已设定。细胞时刻都想要成桶的核糖体 RNA，于是编码它的基因就守在极其强劲的启动子之后。它只想要某些调控蛋白涓滴般的一点点，于是这些就藏在刻意做弱的启动子背后。而这个旋钮也并非固定在某一档：你很快会遇到的调控蛋白——帮助聚合酶结合的激活蛋白、挡住它的阻遏蛋白——大都靠微调聚合酶与同一个启动子结合的好坏来起作用。这正是转录的起步是细胞主要控制点的具体缘由：改变一个基因的起点被读取的难易，你就改变了细胞制造这个基因产物的多少。

工程师们毫不客气地借用这个旋钮。当一个实验室想让细菌大量产出某种有用的蛋白——比如胰岛素——他们会把那个基因放在一个出了名强的启动子之后；为了让它可开关，他们往往再加上一个细胞可以挡住的操纵基因，使这个基因保持关闭，直到他们把它拨开。这整套把戏，你会在基因调控那一级里看到细节，它之所以行得通，正是因为启动子强度是一个真实的、可调的、由序列编码的量。

打开螺旋：气泡与杂合链

识别启动子只是第一步。找到门牌还没抄到任何东西——要读一个碱基，你必须把它暴露出来，而碱基藏在双螺旋的内侧，配对、堆叠着，就像埋在一架拧扭梯子中央的横档。所以全酶一旦锁定在启动子上，它就在一小段范围内——大约十几个碱基对——把两条链撬开，把闭合的双链 DNA 变成一个由未配对单链构成的张开的小口袋。那个熔开的口袋，就是[[molbio-transcription-bubble|转录泡]]。

关于这个气泡，有两个诚实的细节。第一，聚合酶是靠自己把它打开的——与 DNA 复制不同，转录不需要单独的解旋酶来解链；这个酶本身就是它自己的解旋器。第二，这个气泡不会停在原地不动。复制一旦开始，整个气泡便随着酶沿基因前行，在它的前缘熔开新的 DNA，让两条链在它身后重新合拢，因此任何时刻都只有一个短短的窗口是张开的。想象一小块移动的、被拉开的布料区域，沿着一条长长的、闭合的拉链滑动——前方刚刚拉开，后方随即重新合上。

在气泡内部，发生了一件很精巧的事。当聚合酶读取模板链、铺下 RNA 时，最新的那几个 RNA 字母仍与它们刚刚抄自的模板保持配对。在大约 8 到 9 个碱基对的一段范围里，你得到一条 DNA 链与一条 RNA 链配对——一小段 RNA-DNA 杂合链。它由与普通 DNA 相同的 A-U、G-C 碱基配对逻辑维系，只不过用 RNA 的尿嘧啶顶替了胸腺嘧啶。正是这段杂合链，在化学键尚在形成的当口，让新生的 RNA 始终与它的模板正确对齐。再往后一点，RNA 从模板上剥离、穿出酶外，两条 DNA 链在气泡后方重新配对——而那条单链 RNA 则自顾自地上路了。

串起来：从门牌到第一个字母

我们把整套起步流程按它在一个细菌基因处发生的顺序走一遍。每一步都为下一步铺路，合在一起，正是转录起始在分子层面上的全部含义。

核心酶捡起一个西格玛因子，组成全酶——那台能识别启动子的完整机器。
全酶沿 DNA 滑动、跳跃，直到西格玛识别出相隔合适距离的 -35 框和 -10 框，并结合上去——这种在闭合双链 DNA 上的松散停靠，就是“闭合复合物”。
酶在起始位点周围熔开约十几个碱基对，暴露出模板链——这就是“开放复合物”，也就是转录泡。
聚合酶读取暴露的模板，把头几个核糖核苷酸连成 RNA，沿 5' 到 3' 方向构建，通常在 +1 处以一个嘌呤（A 或 G）开头——气泡内部随之形成一小段 RNA-DNA 杂合链。
一旦真正的转录本启动，西格玛便松手离去，飘去寻找另一个核心酶；核心酶此时已下定决心，清离启动子，切换到沿基因稳步进行的延伸。

最后还有一处诚实的细微之处，因为它是个经典的绊脚石。起步才是缓慢而艰难的部分——找到启动子、熔开 DNA、再脱离启动子，才是限速的关卡，聚合酶常在这里结巴，造出又丢掉几条没用的小 RNA，之后才成功。一旦越过这一关、顺利进入延伸，它每秒可添加几十个核苷酸。这正是为什么调控集中在起始而非延伸：起始是瓶颈，而瓶颈正是安装阀门的天然位置。随着西格玛离去、核心酶迈进基因，下一篇将接续这个故事——延伸中的聚合酶如何一路读下去，又如何最终知道该停下来。