JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

读取一个基因:转录概览

要用上一个基因,细胞先得把它抄成 RNA。来认识一下 RNA 聚合酶吧——正是这台机器找到基因、读取一条 DNA 链、写出一份匹配的 RNA 副本;也来看看为何这第一步正是细胞主要的控制开关。

从母本档案到一份工作副本

你已经认识了中心法则及其日常往来 DNA -> RNA -> 蛋白质,也在复制那一级里看着细胞在分裂前抄完了自己全部的 DNA。这一级,把放大镜对准最前面的那个箭头 DNA -> RNA。把单个基因抄成 RNA 的这个动作,就叫做[[transcription-overview|转录]],它也正是基因表达的起点——一段安静的 DNA 终于被大声读出的那一刻。

请记住这样一幅画面。把 DNA 想成一本珍贵到从不离开厨房的主菜谱。当细胞真要照着某道菜下厨时,它不会把整本厚书搬到操作台,而是把那一页抄到一张纸条上,照着纸条做。转录就是细胞在做这张纸条。原本的基因仍锁在双螺旋里,安然无恙;被带到工作台去的,是一份崭新的、单链的 RNA 副本。由于母本永不被消耗,同一个基因可以按需被转录上千次。

请留意它与你刚刚离开的复制之间的对比。复制是把*整个*基因组抄一遍,在细胞分裂前抄那么一次,而新造的 DNA 是永久的——会被每一个后代继承。转录则是把*单个基因*一遍又一遍地抄,而它造出的 RNA 注定是临时的,用完即弃。一个是细胞在为自己整座图书馆存档;另一个是细胞因为此刻就需要某一页,而去复印那一页。

动笔的那台机器

动笔抄写的那只“手”,是一种叫做 [[molbio-rna-polymerase|RNA 聚合酶]]的酶。它是一台大型分子机器,形状有点像蟹钳,能夹住 DNA、在一小段范围内把两条链撬开、读取其中一条,并一次添加一个原料、缝合出一条匹配的 RNA 链。没有它,转录寸步难行。RNA 的原料是核糖核苷酸——DNA 字母的 RNA 表亲——它们以富能的三磷酸形式(ATP、GTP、CTP、UTP)到来,扣上去并在每形成一个连接时释放能量。

下面就是那个让大多数初学者吃惊、值得停下来想想的、与复制唯一的不同。回想复制那一级:DNA 聚合酶无法从零开始造链——它只能*延伸*一个已有的 3' 端,正因如此,细胞得先为它铺下一小段 RNA 引物。RNA 聚合酶却没有这样的限制。它能从零起始一条全新的链,自己把头两个核苷酸连起来。所以转录根本不需要引物。这正是细胞为何保留两种不同聚合酶、而不是一种的原因之一:复制机器为保真与遗传而生,依赖引物;转录机器则为“凡基因说‘从这里开始’便能在那里起始”、并写出一份用完即弃的副本而生。

读的是哪条链,以及为何 RNA 看起来像另一条

DNA 有两条缠绕在一起的链,但对任意给定的基因,RNA 聚合酶只读其中一条。它真正读取的那条叫模板链;聚合酶造出与之互补的 RNA,按 A 对 T、U 对 A、G 对 C、C 对 G 配对——正是你已经熟悉的那套碱基配对逻辑,只有一处替换:RNA 在 DNA 本会用胸腺嘧啶(T)的地方,一律改用尿嘧啶(U)。U 像 T 一样与 A 配对,所以规则几乎没变;RNA 只是把那个字母拼写得不同罢了。

现在来看那个让人恍然、也常把人绊倒的转折。因为碱基配对是对称的,造出来的 RNA 最终匹配的,不是它被读取的那条链,而是*另一条*——[[template-versus-coding-strand|编码链]](也叫有义链),逐字相同,只是用 U 代替 T。所以若编码链读作 5'-ATGCCT-3',模板链就是它的互补链 3'-TACGGA-5',而聚合酶造出的 RNA 是 5'-AUGCCU-3'——除了 T 变成 U,与编码链一模一样。这正是为何你在数据库里查一个基因的“序列”时,看到的是编码链:它读起来像那条 RNA,尽管聚合酶从未碰过它。它读的是镜像。

coding strand    5'-A T G C C T A G-3'   (matches the RNA; T->U)
template strand  3'-T A C G G A T C-5'   (the strand actually read)
                          |  base-pairing
RNA made         5'-A U G C C U A G-3'   (built 5'->3', read 3'->5')
RNA 等于编码链把 T 换成 U,并与它所读取的模板链互补。

有一处需要诚实说明:哪条链充当模板,并非整条染色体一成不变,而是一个基因一个基因地决定。相邻的基因可以朝相反方向,于是对某个基因来说某条链是模板,而沿着*同一条物理链*再往前一点,它可能就是邻近基因的编码链。“模板”和“编码”这两个标签描述的是某一个基因之内的角色,而不是一条链永久的性质。

它朝哪个方向跑:方向性

读和写都有方向,而转录严格遵守一个方向。回想核酸那一级:每条链都有两个化学上不同的末端,按糖上碳原子的位置命名为 5' 端和 3' 端,而双螺旋的两条链是反向平行的——走向相反,就像两条方向相反的车道。RNA 聚合酶只能把新核苷酸添加到正在增长的 RNA 的游离 3' 端,所以 RNA 总是沿 5' 到 3' 的方向造出。

因为模板与正在合成的 RNA 反向平行,聚合酶就必须沿*相反*方向扫描模板:它按 3' 到 5' 读取模板。想象一位打字员,从一页的最底行往上读、却从一张新纸的顶部往下打——两者方向相反,却始终完全合拍。最新的核苷酸总在 RNA 的最前缘,也就是 3' 端不断增长之处。一个常见的口误是说“聚合酶沿 5' 到 3' 移动”。要说准确:是 *RNA* 沿 5' 到 3' 增长;而*酶*沿模板朝模板的 5' 端方向行进,也就是它按 3' 到 5' 读取。

这个固定的方向并非仅仅是记账。它界定了一个基因从哪里“开始”(其 5' 端,即聚合酶最先落脚的那一侧)、又到哪里“结束”,它定下了对该基因而言哪条链能作模板,也正是我们按惯例把序列写成 5' 到 3' 的原因。同样这套化学——新核苷酸只能在 3' 端附着——支配着复制,往后也支配着翻译,使分子信息的整个流动呈现出一致的纹理。

三幕戏,以及为何这是细胞的主要开关

整件事分三幕展开,本级接下来的几篇指南会一幕幕地把它们打开。眼下,先把这个故事的轮廓记住——对任何生物的任何基因,都是同一条弧线。

  1. 起始:RNA 聚合酶通过识别一段叫做启动子的“路牌”序列找到基因的起点,在那里结合,并熔开一小段 DNA 气泡以暴露模板——随后落实头几个 RNA 字母。
  2. 延伸:此时已下定决心的聚合酶沿基因稳步前行,按 3' 到 5' 读取模板,每秒往 RNA 的 3' 端添加几十个核糖核苷酸,与此同时身后的 DNA 重新合拢,造好的 RNA 则脱离出来。
  3. 终止:遇到停止信号时,聚合酶释放出造好的 RNA、放开 DNA、就此收手——让每个基因产出一条长度恰当、彼此分立的 RNA,而不是读穿进相邻基因的长链。

三幕之中,起始无疑是最具决定性的,这也把我们引向:这一级为何被放在阶梯的此处。你体内几乎每个细胞都带着同一份 DNA,可神经元与皮肤细胞却天差地别——因为它们转录的是*不同*的基因。细胞主要靠控制转录究竟开不开始来掌控一个基因,这使起始成为基因表达的主要控制点。我们之后会遇到的激活蛋白、阻遏蛋白和其他调控因子,大都靠加速或阻断这第一步起作用。决定抄什么,在很大程度上,就是决定要做哪种细胞。