转录：写出一份 RNA 副本

为什么非要抄一份？工作便条的意义

上一篇留给我们一组张力：基因组装着一切，可一本搁在书架上的书做不出饭来。细胞的答案，就是中心法则的第一步，从 DNA 到 RNA：与其把那份主档案拖到车间去，细胞只把此刻真正需要的那一个基因抄出一份短小、用完即弃的副本。这个抄录过程就是转录，而这个动作恰如其字面所言——你抄录一段文字，是把它在新的载体上重新写一遍，而不是把那一页从原书里撕下来。

有两点让这一招显得高明，而非浪费。其一，原始 DNA 始终不离开细胞核（或细胞内部）的安全地带——档案保持原封不动，让用完即弃的副本到机器所在之处去干粗活。其二，细胞可以为一个忙碌的基因抄出*许多*份副本，而对一个难得用到的基因只抄一份，于是这个抄录步骤本身就成了控制每种产物造多少的“音量旋钮”。一份 DNA 蓝图能甩出成千上万张一模一样的便条，而每张便条在任务完成后都可以扔掉。

机器与它的起点：RNA 聚合酶遇上启动子

做这件“写”的活儿的机器，是 RNA 聚合酶——一种蛋白质复合体，它的全部职责就是沿着 DNA 爬行，把一份 RNA 副本一个字母一个字母地串起来。（它是你在复制那一级里认识的 DNA 聚合酶的表亲；两者都读取一条 DNA 模板、造出一条新链，只不过这一位写的是 RNA。）它面对的深层难题，是*找到起点*。你的 DNA 长达数十亿个字母，某个基因就埋在其中的某处。这台机器要怎样从浩如烟海的文本里，知道某个基因从哪里起头——又该抄成千上万个基因中的哪一个？

答案，是写在每个基因上游 DNA 里的一个地标：启动子。启动子并不属于那条信息本身；它是一段短短的特征序列，意思是“基因从这里开始，朝这个方向读”。把它想成一道菜谱顶端的标题和起跑箭头。RNA 聚合酶（常常由一些辅助蛋白引导着）识别出某个启动子、停靠上去，而这一结合既把机器*定位*在正确的位置，又给它*指明*了正确的方向。没有启动子，就没有转录——这也正是为什么，当细胞要决定开启哪些基因时，启动子会成为一个总开关。

抄哪一条链——以及那个会移动的气泡

这里有一个几乎绊倒所有人的点，所以我们慢慢来。DNA 有两条链，彼此反向平行，靠碱基配对结合在一起。RNA 聚合酶*只把其中一条*当作样板来读——那就是模板链（也叫反义链）。它读这条模板，铺下与之配对的 RNA 字母。而*另一条*、被它忽略的链，是编码链（或称有义链）——妙就妙在这里：正因为碱基配对，那份 RNA 副本最终读起来几乎和这条编码链一模一样，只是把 T 换成了 U。所以，机器从不碰的那条链，恰恰是信息在序列上与之相像的那条。

  coding strand (sense)    5'- A T G  C G  A  T  T  C -3'   <- RNA reads like this (U for T)
                               | | |  | |  |  |  |  |
  template strand (antisense) 3'- T A C  G C  T  A  A  G -5'   <- the machine actually reads THIS
                                  |
                                  v   RNA polymerase pairs A->U, C->G, G->C, T->A
  RNA transcript           5'- A U G  C G  A  U  U  C ...     (matches coding strand, T -> U)

机器读的是模板链，但产出的 RNA 却与编码链相符（其中 U 取代了 T）。“编码链”与“模板链”的身份是逐个基因决定的，而非整条链固定不变：螺旋上更远处的另一个基因，可能反过来用对面那条链当模板。

要读取一条模板，机器必须先把两条链撬开——DNA 的字母是藏在双螺旋*内侧*的，配着对时根本读不到。于是 RNA 聚合酶在局部拉开约十几个碱基对，打开一个小小的转录气泡：一小段两条 DNA 链彼此分开、模板暴露在外的区域。美妙之处在于，这个气泡会跟着机器移动。聚合酶一边往前走，一边在它前缘解开新的 DNA，又让身后的两条链重新合拢，所以任何时刻都只开着一扇很小的窗。螺旋只被打开到刚好够用、且恰在需要之处，随即又被重新拉合——档案绝不会被危险地长时间散开。

起始、延伸、终止

和大多数分子过程一样，转录分三幕展开：它必须开始、进行、停止。这些可不是官僚式的标签——每一幕都在解决一个真实的难题。开始，是要*找对地方并下定决心*；进行，是要*又快又准地抄录*；停止，是要*知道基因在哪里结束并松手放开*。把这三幕走一遍，整个过程就会一下子拼合到一起。

起始。RNA 聚合酶携同它的辅助蛋白，识别并钳住启动子，随即打开转录气泡的第一段。它不需要引物——与 DNA 聚合酶不同，它能从零开始一条 RNA 链。一旦铺下头几个 RNA 字母，它便下定决心、挣脱启动子，把那个起始信号留在身后。
延伸。机器此刻沿着模板平稳滑行，气泡随之移动。每走一步，它就读出模板上的下一个碱基，添上与之相配的 RNA 字母（A 配 U、G 配 C，依此类推），让链朝一个方向生长，速度大约是每秒几十个字母。新造出的 RNA 在身后剥离开来，与此同时 DNA 重新合拢。
终止。当机器抵达 DNA 里写好的一个停止信号时，它便释放出造好的 RNA、从模板上脱落下来，气泡也彻底合上。DNA 被原样留下——毫发无损，随时可以再被抄录一次——而一条崭新的 RNA 链则自由地飘走了。

最后飘走的那条链，就是初级转录本——直接从基因上抄下来的、未经加工的初稿 RNA。这三幕的合称，起始、延伸与终止，值得记牢，因为当你走到下一级的翻译时，*同样这一组三幕*还会再度登场。不过，有一处简化要诚实交代：在真核生物里，这是一桩需要许多辅助蛋白参与、受到引导和调控的事，而产出的初稿几乎总是还要经过编辑才算就绪——这正是下一篇要讲的内容。

为什么是 RNA，而不是更多 DNA？工作副本天生不同

把 DNA 抄成更多 DNA，看上去会更省事。可细胞偏偏要抄成 RNA，而这两者之间的差异，恰恰正是让 RNA 成为一份好的*用完即弃的工作副本*、而非第二份档案的原因。有三处差异要紧。RNA 在 DNA 用胸腺嘧啶（T）的地方改用碱基尿嘧啶（U）——化学上几乎相同，却是一个把 RNA 标记为 RNA 的记号。RNA 的糖是核糖，比 DNA 的脱氧核糖多带一个氧；这个多出来的氧让 RNA 在化学上更活泼，因而也更不稳定。还有，RNA 通常是单链的，而 DNA 是那条著名的双螺旋。

请把这些特性读成优点，而非缺陷。DNA 是为了*持久*而生的——用两条链，好让信息有备份、受保护；用稳定的糖，好让它伴随一生而不坏。RNA 则是为了*用完即弃*而生的——单链，所以它灵活轻便，能被自由地读取和折叠；不那么稳定，所以一旦信息送达，它便不会赖着不走、堆在细胞里碍事。一份短命、易降解的副本，正是按需工作便条所需要的：造出来、用一用、让它分解掉。这份脆弱，本身就是关键所在。

把它串起来：一份初稿，而非定稿

退后一步，把整场戏重放一遍。RNA 聚合酶找到一个启动子并锁定上去（起始）；它撬开一个会移动的转录气泡、读取模板链，铺下与编码链相符、只是以 U 代 T 的 RNA 字母（延伸）；它撞上一个停止信号，释放出自己的产物，让身后的 DNA 重新合拢（终止）。飘走的，是一条单链的 RNA 初级转录本——某个基因一份崭新、用完即弃的副本，而原件在整个过程中毫发无损。

但请留意*初级*、或者说*初稿*这个词。在真核生物里，聚合酶产出的，还不是一条干净、可直接使用的信息。它仍带着一些必须被剪掉的片段，而且在它能安全地离开细胞核、被读取之前，还需要加上保护性的帽子和尾巴。把它称作基因组的初稿，在两个方向上都是诚实的：它是这个基因一份货真价实的副本，同时它又尚未完成。把这条未经加工的转录本，编辑成一条成熟、可用的信使 RNA的过程，是下一篇的主题——RNA 加工那套出人意料的“剪刀加胶带”活计，就从那里开始。