读取一个基因：转录概览

从母本档案到一份工作副本

你已经认识了中心法则及其日常往来 DNA -> RNA -> 蛋白质，也在复制那一级里看着细胞在分裂前抄完了自己全部的 DNA。这一级，把放大镜对准最前面的那个箭头 DNA -> RNA。把单个基因抄成 RNA 的这个动作，就叫做[[transcription-overview|转录]]，它也正是基因表达的起点——一段安静的 DNA 终于被大声读出的那一刻。

请记住这样一幅画面。把 DNA 想成一本珍贵到从不离开厨房的主菜谱。当细胞真要照着某道菜下厨时，它不会把整本厚书搬到操作台，而是把那一页抄到一张纸条上，照着纸条做。转录就是细胞在做这张纸条。原本的基因仍锁在双螺旋里，安然无恙；被带到工作台去的，是一份崭新的、单链的 RNA 副本。由于母本永不被消耗，同一个基因可以按需被转录上千次。

请留意它与你刚刚离开的复制之间的对比。复制是把*整个*基因组抄一遍，在细胞分裂前抄那么一次，而新造的 DNA 是永久的——会被每一个后代继承。转录则是把*单个基因*一遍又一遍地抄，而它造出的 RNA 注定是临时的，用完即弃。一个是细胞在为自己整座图书馆存档；另一个是细胞因为此刻就需要某一页，而去复印那一页。

动笔的那台机器

动笔抄写的那只“手”，是一种叫做 [[molbio-rna-polymerase|RNA 聚合酶]]的酶。它是一台大型分子机器，形状有点像蟹钳，能夹住 DNA、在一小段范围内把两条链撬开、读取其中一条，并一次添加一个原料、缝合出一条匹配的 RNA 链。没有它，转录寸步难行。RNA 的原料是核糖核苷酸——DNA 字母的 RNA 表亲——它们以富能的三磷酸形式（ATP、GTP、CTP、UTP）到来，扣上去并在每形成一个连接时释放能量。

下面就是那个让大多数初学者吃惊、值得停下来想想的、与复制唯一的不同。回想复制那一级：DNA 聚合酶无法从零开始造链——它只能*延伸*一个已有的 3' 端，正因如此，细胞得先为它铺下一小段 RNA 引物。RNA 聚合酶却没有这样的限制。它能从零起始一条全新的链，自己把头两个核苷酸连起来。所以转录根本不需要引物。这正是细胞为何保留两种不同聚合酶、而不是一种的原因之一：复制机器为保真与遗传而生，依赖引物；转录机器则为“凡基因说‘从这里开始’便能在那里起始”、并写出一份用完即弃的副本而生。

读的是哪条链，以及为何 RNA 看起来像另一条

DNA 有两条缠绕在一起的链，但对任意给定的基因，RNA 聚合酶只读其中一条。它真正读取的那条叫模板链；聚合酶造出与之互补的 RNA，按 A 对 T、U 对 A、G 对 C、C 对 G 配对——正是你已经熟悉的那套碱基配对逻辑，只有一处替换：RNA 在 DNA 本会用胸腺嘧啶（T）的地方，一律改用尿嘧啶（U）。U 像 T 一样与 A 配对，所以规则几乎没变；RNA 只是把那个字母拼写得不同罢了。

现在来看那个让人恍然、也常把人绊倒的转折。因为碱基配对是对称的，造出来的 RNA 最终匹配的，不是它被读取的那条链，而是*另一条*——[[template-versus-coding-strand|编码链]]（也叫有义链），逐字相同，只是用 U 代替 T。所以若编码链读作 5'-ATGCCT-3'，模板链就是它的互补链 3'-TACGGA-5'，而聚合酶造出的 RNA 是 5'-AUGCCU-3'——除了 T 变成 U，与编码链一模一样。这正是为何你在数据库里查一个基因的“序列”时，看到的是编码链：它读起来像那条 RNA，尽管聚合酶从未碰过它。它读的是镜像。

coding strand    5'-A T G C C T A G-3'   (matches the RNA; T->U)
template strand  3'-T A C G G A T C-5'   (the strand actually read)
                          |  base-pairing
RNA made         5'-A U G C C U A G-3'   (built 5'->3', read 3'->5')

RNA 等于编码链把 T 换成 U，并与它所读取的模板链互补。

有一处需要诚实说明：哪条链充当模板，并非整条染色体一成不变，而是一个基因一个基因地决定。相邻的基因可以朝相反方向，于是对某个基因来说某条链是模板，而沿着*同一条物理链*再往前一点，它可能就是邻近基因的编码链。“模板”和“编码”这两个标签描述的是某一个基因之内的角色，而不是一条链永久的性质。

它朝哪个方向跑：方向性

读和写都有方向，而转录严格遵守一个方向。回想核酸那一级：每条链都有两个化学上不同的末端，按糖上碳原子的位置命名为 5' 端和 3' 端，而双螺旋的两条链是反向平行的——走向相反，就像两条方向相反的车道。RNA 聚合酶只能把新核苷酸添加到正在增长的 RNA 的游离 3' 端，所以 RNA 总是沿 5' 到 3' 的方向造出。

因为模板与正在合成的 RNA 反向平行，聚合酶就必须沿*相反*方向扫描模板：它按 3' 到 5' 读取模板。想象一位打字员，从一页的最底行往上读、却从一张新纸的顶部往下打——两者方向相反，却始终完全合拍。最新的核苷酸总在 RNA 的最前缘，也就是 3' 端不断增长之处。一个常见的口误是说“聚合酶沿 5' 到 3' 移动”。要说准确：是 *RNA* 沿 5' 到 3' 增长；而*酶*沿模板朝模板的 5' 端方向行进，也就是它按 3' 到 5' 读取。

这个固定的方向并非仅仅是记账。它界定了一个基因从哪里“开始”（其 5' 端，即聚合酶最先落脚的那一侧）、又到哪里“结束”，它定下了对该基因而言哪条链能作模板，也正是我们按惯例把序列写成 5' 到 3' 的原因。同样这套化学——新核苷酸只能在 3' 端附着——支配着复制，往后也支配着翻译，使分子信息的整个流动呈现出一致的纹理。

三幕戏，以及为何这是细胞的主要开关

整件事分三幕展开，本级接下来的几篇指南会一幕幕地把它们打开。眼下，先把这个故事的轮廓记住——对任何生物的任何基因，都是同一条弧线。

起始：RNA 聚合酶通过识别一段叫做启动子的“路牌”序列找到基因的起点，在那里结合，并熔开一小段 DNA 气泡以暴露模板——随后落实头几个 RNA 字母。
延伸：此时已下定决心的聚合酶沿基因稳步前行，按 3' 到 5' 读取模板，每秒往 RNA 的 3' 端添加几十个核糖核苷酸，与此同时身后的 DNA 重新合拢，造好的 RNA 则脱离出来。
终止：遇到停止信号时，聚合酶释放出造好的 RNA、放开 DNA、就此收手——让每个基因产出一条长度恰当、彼此分立的 RNA，而不是读穿进相邻基因的长链。

三幕之中，起始无疑是最具决定性的，这也把我们引向：这一级为何被放在阶梯的此处。你体内几乎每个细胞都带着同一份 DNA，可神经元与皮肤细胞却天差地别——因为它们转录的是*不同*的基因。细胞主要靠控制转录究竟开不开始来掌控一个基因，这使起始成为基因表达的主要控制点。我们之后会遇到的激活蛋白、阻遏蛋白和其他调控因子，大都靠加速或阻断这第一步起作用。决定抄什么，在很大程度上，就是决定要做哪种细胞。