JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

转录因子与增强子

认识那些决定哪些基因开启的蛋白质,以及它们所读取的那一段段 DNA——并看清为什么仅凭一小套因子、以不同的组合搭配,就足以指定你体内成百上千种细胞类型。

从通用班组到基因专属的决策者

在上一阶里,你看着一个真核细胞仅仅为了启动一个基因就召集起一个委员会:通用转录因子和 RNA 聚合酶 II 在起点上方组装成一个前起始复合物。但那些通用因子在几乎每个基因上都是同一套——它们是“发射班组”,而不是决策者。它们解释的是一个基因*如何*点火,而不是它*该不该*点火。细胞仍然需要一些蛋白质,能盯着某一个特定的基因,说“是”或“否”。这些蛋白质就是基因专属的[[molbio-transcription-factor|转录因子]],也是本篇的主题。

在最干净的情形下,一个基因专属的转录因子,就是一个蛋白质,它身上有两个各司其职、彼此相连的工作部件。一个部件抓住 DNA 上某一段特定的短序列;另一个部件则伸出去影响转录机器——要么帮它组装(激活因子),要么把它拽住(阻遏因子)。可以把它想成一个有两只手的工人:一只手夹住染色体上一个精确的“地址”,另一只手则去拉扯那个启动班组。这种“两只手”的设计是贯穿全篇的主线,所以让我们一只手一只手地来看。

第一只手:不拆开 DNA 也能读它

那只抓 DNA 的手,就是[[dna-binding-domain|DNA 结合域]]。精妙之处在于:它读取一段特定序列,却根本不去把双螺旋拉开。回想结构那几阶:两条链缠成一个螺旋,沿着它跑着两条沟槽——一条宽的大沟和一条窄的小沟。碱基对的边缘朝外、暴露在这些沟槽里,而排列在大沟内壁上的那些化学“凸起”和氢键供受体,对于 A-T 对和 G-C 对来说是*不一样*的。于是一根伸进大沟里的蛋白质“手指”,就能摸出序列来——就像靠书脊上凸起的字读出一本合着的书的书名——全程不必把两条链撬开。

演化为这只“读手”找到了寥寥几种可靠的形状,而同样的三种在所有真核生物里反复出现。螺旋-转角-螺旋是最简单的:两段成一定角度摆放的短 α 螺旋,其中一段——识别螺旋——躺进大沟里负责读取。[[zinc-finger-motif|锌指]]是一小段蛋白质围着一个锌离子捏成的环,环尖伸进沟里;由于每一根指头大约读三个碱基对,你可以像串珠子一样把好几根指头串起来,去读一个更长的地址。[[leucine-zipper|亮氨酸拉链]]的工作方式则不同——两个蛋白质沿着一段彼此扣合,那段上的亮氨酸像拉链齿一样对齐咬合,而扣合处下方的两端则张开成一个“Y”字,跨在 DNA 上,每条臂各伸进一条沟里。

第二只手:拉扯转录机器

光是结合到 DNA 上,本身什么也成就不了——一个蛋白质可以永远坐在它的地址上,而基因照样沉默。真正干活的是第二只手,[[activation-domain|激活域]]。当这个因子是激活因子时,这只手便伸出去,招募那些能让基因开跑的帮手:它可以抓住中介体这座桥和通用转录因子,加快前起始复合物的组装;也可以召来一些酶,把染色质的打包松开,好让起点变得可触及。激活域不像锌指那样有一副固定雕琢出来的形状;它往往是一片松软、黏黏的表面,活计就是去建立各种接触。它传达的讯息很短:*来这儿开工。*

这两只手是真的可以拆开来用的——这不只是一个讲得整齐的故事,而是一个经典实验。如果你取来一个因子的“DNA 结合手”,再把另一个完全不同的因子的“激活手”嫁接上去,这个杂交体照样工作:它停在第一个因子的地址上,把那里的基因打开。要是把激活手换成一只反而起阻遏作用的手,同一个地址如今就会被沉默掉。DNA 结合域是*邮政编码*,激活(或阻遏)域是*指令*——正因为它们是模块化的,细胞才能把它们随意拼搭。正是这种模块化,让这套调控系统如此灵活;也正因如此,生物学家才能在实验室里造出“定制开关”。

DNA 那一侧:启动子、增强子、沉默子、绝缘子

一个转录因子只有在有一段 DNA 供它读取时才有意义,而基因组里正星罗棋布地散布着这样的片段——顺式调控元件,之所以叫“顺式”,是因为它们与自己所调控的基因位于同一条 DNA 分子上。你已经认识的那个,是基因起始处、发射班组在此组装的启动子。更令人吃惊的元件是[[molbio-enhancer|增强子]]:它是一簇供因子结合的位点,能增强一个基因的转录——哪怕它坐落在几千、有时甚至上百万个碱基对之外,无论在上游还是下游,也无论它被翻转成哪个方向都照样管用。

一个在百万个字母之外的开关,怎么能够碰到一个基因?答案是本篇里最重要的一幅图景:DNA 成环。记住,DNA 不是一架僵硬的梯子,而是一根柔韧、可弯曲的丝线。当中间那段 DNA 鼓出来弯成一个环时,结合在远处增强子上的激活因子,和待在启动子上的机器,就被实实在在地拉到了一起——就像抓住一根松弛绳子上相距很远的两点、把它们捏拢,让中间的松弛部分鼓成一个圈。一旦它们碰上,中介体这座桥便把增强子那条“开启”讯号转达给前起始复合物。沿 DNA 量出来的直线距离不再要紧;要紧的是在三维空间里,什么折叠到了什么的旁边。

还有两个元件让这套工具齐备,而正是“成环”使得这两者变得必要。沉默子是增强子的镜像:在这个位点上结合的阻遏因子会*压低*转录,同样常常是远程作用。而正因为增强子伸手伸得如此不挑对象,细胞需要篱笆——[[silencer-insulator|绝缘子]]是一种边界元件,它挡住增强子越过自己去起作用,免得某个基因的强力增强子一不留神把邻居的基因也打开。绝缘子帮助把基因组划分成你曾认识过的、以“拓扑关联结构域”形式存在的那些成环“街区”,让每个增强子只和自己的基因说话。

  ...one chromosome, one gene under control...

  [SILENCER]    [ENHANCER]              [INSULATOR] | [neighbour gene]
      |             |                                 (protected)
   repressors    activators
        \           |
         \          | DNA bends into a loop
          \         v
  ====[ PROMOTER + Pol II machinery ]====>  >>> transcription

  distance along the DNA is irrelevant once the loop forms
一个基因的输出,是由 DNA 成环聚拢到一起的各个远程元件之和:增强子往上推、沉默子往回拉,而绝缘子把邻居隔在外面。

组合控制:小小一套工具,浩瀚的结果

现在来看回报。一个典型的基因并不是由单一一个因子来开关的;它的增强子和启动子上同时带有供*许多*因子结合的位点,而只有当合适的*组合*齐备时,这个基因才会点火。这就是[[molbio-combinatorial-control|组合控制]],它解决了一个“数量”难题。人类拥有的转录因子的种类不过几百乃至上千,却造出了成百上千种细胞类型——远多于因子的数目。怎么做到的?正如寥寥几个字母就能拼出数不清的词:意义来自组合,而不是给每一种结果都配一个独一无二的符号。

具体来说:假设某个基因的增强子,必须被因子 A *且* B *且* C 占据、同时又没有阻遏因子 D,它才会点火。一个恰好正在制造 A、B、C 而不造 D 的细胞,就会把这个基因打开;而一个哪怕只缺其中一个的细胞,就让它保持关闭。仅凭一套规模不大的因子工具箱,不同的“开/关”格局数目便组合式地暴涨。每一种细胞类型,本质上都是由*它正在表达哪一组转录因子*来定义的,而这一组反过来又开启那些制造下一组因子的基因——一种自我强化的格局。这正是为什么一个肝细胞和一个神经元,读着你从“基础”那一阶起就一直携带的*完全相同*的基因组,最终却天差地别:不是基因不同,而是读取同一批基因的因子组合不同。