一场演出的三幕
到现在为止,演员你都见过了。你知道转录把某个基因的 DNA 抄成 RNA,知道RNA 聚合酶是动笔的那台机器,知道它读的是模板链而不是编码链,也知道它合成 RNA 总是沿 5′ 到 3′ 的方向。这一篇不再点名演员,而是看着他们干活——它跟随一个聚合酶分子走完一次完整的抄写,从它认定一个基因的那一刻,到它松手的那一刻。整场演出自然分成三幕:起始(把头开起来)、延伸(平稳的中段)、和终止(知道何时停下)。
动笔之前,先把尺度定下来会有帮助。这三幕的难度悬殊得离谱。起始缓慢、繁琐、又被严密管控——它可能要试上几秒到几分钟,而细胞几乎所有关于一个基因要不要被启用的决定,都在这里做出。延伸则相反,又快又干练:细菌聚合酶一旦转起来,每秒添加几十个核苷酸,一口气抄上几千个碱基不带停的。终止短暂却果断——一个干净的句号,界定转录本在哪里结束。整篇我会反复借用一个画面:一位抄写员,必须在一本大书里找到正确的那一页、落入书写的节奏,然后知道该把笔放下。
第一幕——起始:找到起点,磕绊着启动
起始从一场搜寻开始。一个基因组有数百万个碱基对那么长,化学性质又相当均一,所以聚合酶必须找出那寥寥几个标记着基因起点的碱基。在细菌里,完整的酶(核心加上一个可替换的西格玛因子)沿 DNA 滑动、碰撞,直到西格玛因子认出一个启动子——那块紧靠上游的路牌,写着“从这里、在这条链上、朝这个方向开始”。启动子你在上一篇里见过了;这里关键的新观念是:找到它正是整个过程中限速的关卡。下游的一切都很快;时间都花在这第一步上。
聚合酶一旦停靠在启动子上,在它能写出哪怕一个字母之前,必须先发生两件事。它先落座在闭合的双螺旋上——这个状态叫*闭合复合物*,此时 DNA 仍完全合拢。接着它把两条链在一小段上撬开,约十几个碱基对,露出模板——即*开放复合物*,也叫转录泡。直到此刻,催化位点才够得着模板碱基。酶把头两个进来的核糖核苷酸对着模板排好、连起来,开始建造 RNA。按惯例,被抄的第一个碱基编号为 +1,即转录起始位点;它之前(朝启动子方向)的碱基叫“上游”、记负数,它之后的碱基叫“下游”。
下面这个意外,初学者很少料到:开头并不是一锤定音的干净事件。当聚合酶还紧扣在启动子上时,它往往会*结巴*——它造出一条几个核苷酸的短 RNA、任其滑脱、然后再来一次,一遍又一遍,就像一个作者把开头的废稿一张张揉掉。这种浪费的扑腾叫做[[abortive-initiation-and-promoter-clearance|流产式起始]]。酶不情愿松开它对启动子的紧握,于是把下游 DNA 往里搓,好在不移动的情况下继续造 RNA——而那些小转录本大多散掉了。直到某一条转录本长得够长(约 8 到 12 个核苷酸),酶才终于挣脱它对西格玛因子和启动子的把持,这一事件叫做启动子逃逸或*启动子清离*。这次逃逸,才是“只是在试”与“真的在转录”之间真正的门槛。
第二幕——延伸:读一个碱基,加一个碱基,往前滑
把启动子甩在身后,聚合酶便放松进入延伸那种平稳的节奏。在细菌里,西格玛因子此刻脱落(它只是用来找起点的),留下更精简的核心酶去做长程抄写。把这台酶想象成一个沿基因滑行的移动气泡:它前方的双螺旋被解开,露出新鲜的模板,它后方的两条 DNA 链重新合拢,造好的 RNA 则剥离出来。这个泡不会变大——它在*行走*,前方打开新 DNA 的速度,恰好等于后方合拢旧 DNA 的速度,是一台自成一体、随身带着自己那一小片熔开 DNA 的机器。
气泡内部,化学反应像钟表一样重复。每走一步,酶读取下一个模板碱基,让一个匹配的核糖核苷三磷酸(ATP、GTP、CTP 或 UTP)对着它试配——A 与模板的 T 配成 U、G 与 C 配,依此类推——若配得上,就在增长中的 RNA 的 3′ 端锻造一个磷酸二酯键,释放出两个磷酸作为能量来源。然后整台酶恰好往前棘进一个碱基,再重复。最新合成的一小段 RNA,约 8 到 9 个核苷酸,在脱离之前与模板保持配对、构成一段 RNA-DNA 杂合链;转录本其余部分则拖在后面。而且很快——细菌聚合酶大约每秒能处理几十个核苷酸。
moving ---> bubble travels along the gene
rewound DNA | transcription bubble | DNA to be read
============= ( unwound, ~13 bp open ) =================
3'...A T G C [ T A C G G A T ] G C A...5' <- template (read 3'->5')
| | | | | |
5'...U A U G C C U-OH (3' growing end) <- new RNA
============= =================
(re-zipped) RNA peels off here (still paired)延伸并非完美无瑕,它也不假装如此。聚合酶只带着*中等*的校对能力:若它错加了一个碱基,它能暂停、倒退一步、剪掉那个出错的末端,再重新尝试。这把出错率削减到大约每一万到十万个碱基出一次错——明显比 DNA 复制的近乎完美要马虎。而这种松懈完全可以接受,理由很诚实、值得记住:一条 RNA 副本是用完即弃、且成批制造的,所以几千条里有一条出瑕疵不算灾难;而复制错误却会被每一个后代细胞继承。细胞把它的精确度预算花在错误一旦发生便无可挽回的地方。
第三幕——终止:细菌停下来的两种方式
知道何时停下,与知道何时开始同样要紧。没有一个可靠的句号,聚合酶就会一头冲进下一个基因、再下一个,造出一条庞大缠结、毫无用处的转录本。终止就是细胞在句末点下的那个句号:让聚合酶释放它的 RNA、放开 DNA、就此收手的信号与机制。细菌用两种不同的方式解决这个问题,两种都值得一看,因为它们展示了同一个目标如何被截然不同的花招所达成。
第一种是内在终止,也叫不依赖因子的终止,因为它不需要任何额外的蛋白——停止信号就写在 RNA 自身里。当聚合酶转录到某一特定段落时,刚造好的 RNA 含有一段自身互补、富含 GC 的序列,它会立刻自我回折、叠成一个紧密的发夹(茎环)。紧跟在发夹之后是一串约六个或更多的尿嘧啶,于是 RNA 的 3′ 端只靠弱弱的 rU-dA 碱基对系在模板上。这一组合对“抓握”是致命的:发夹拉扯、动摇聚合酶,而那些孱弱的 U-A 配对恰好让 RNA 滑脱。酶停顿,RNA 剥离,转录结束。无需外援——转录本自带停止牌。
第二种是[[rho-dependent-termination|依赖 Rho 的终止]],它确实需要一个帮手:一种环状蛋白,叫 Rho。Rho 在一处特定的着陆区扣住正在增长的 RNA,然后沿转录本追赶聚合酶,借助 ATP 把自己沿 RNA 拉过去——想象一个奔跑的人冲刺去赶一列火车。与此同时,聚合酶在前面跑,但会周期性地暂停(往往在一个类似终止子的序列处)。当 Rho 追上一个停顿的聚合酶时,它把 RNA-DNA 杂合链撬开,迫使转录本松脱。结果与发夹那条路相同——RNA 被释放、酶被解放——但靠的是一个主动追捕聚合酶的蛋白,而不是 RNA 里的一道折叠。
退一步——整个过程的形状
- 搜寻并结合:聚合酶(在细菌里带着西格玛因子)沿 DNA 扫描,认出一个启动子——这是缓慢、限速、受到重重调控的一步。
- 打开并起头:它熔出一个小气泡,露出模板,连上头几个核苷酸——磕磕绊绊地经历流产式起始,直到终于逃离启动子。
- 一路滚动:此刻进入延伸,气泡向前行进,按 3′→5′ 读取、按 5′→3′ 写出 RNA,每秒几十个碱基,后方重新合拢 DNA,并做中等程度的校对。
- 停下并释放:到了终点便终止——靠内在的发夹加尿嘧啶信号,或靠 Rho 蛋白追上酶——把造好的转录本放出去。
在你继续向上攀登之前,有两点诚实的提醒。其一,真核生物并不完全照这样运作。它们的起始繁复得多——一群通用转录因子和一个前起始复合物必须先组装好,RNA 聚合酶 II 才能开始——而它们的终止则相对*草率*:Pol II 没有干净利落的发夹停止牌,常常在信息真正的末端之后再跑几百个碱基,其终止与切割、加尾 RNA 挂钩,而非系于一个利落的信号。上面那个干净的三幕故事是细菌的版本;把它当作最清晰的范例,而不是一张普适的蓝图。
其二,别被这干净的三幕框架骗了,以为这三幕分量相等、彼此独立。调控压倒性地存在于起始——激活蛋白、阻遏蛋白、西格玛因子,以及(在真核生物中)转录因子,全都把力气堆在“到底开不开始”这个决定上,正因如此,这一阶段才是细胞调控基因表达的主开关。延伸和终止大多只是机器按部就班地走完流程,尽管即便它们也留有调控的余地(可以让聚合酶暂停,或提早触发终止以把转录本截短)。掌握了这三个阶段,你就为下一级阶梯的问题做好了准备:当聚合酶把原始 RNA 放掉*之后*,它会经历什么。