JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

真核生物中的转录因子与增强子

细菌开关基因,就像按下区区几个电灯开关那样。而你,则是由一块装着成千上万个旋钮的控制面板搭建起来的——能结合 DNA 的蛋白质、从远处就能起作用的开关,还有一层决定哪些内容根本读不读得到的“包装”。这一篇要讲的,正是为什么你的基因调控会是分层的、组合式的,又精准得惊人。

从几个电灯开关,到一张调音台

上一篇里,你看到细菌用一种精简而迅捷的方式来控制基因:一个 乳糖操纵子把相关的基因归在同一个开关之下,而一个坐在操纵基因上的阻遏蛋白,要么挡住转录,要么——当合适的分子出现时——放它进行。这很优雅、很利落——正是一个每二十分钟就翻一倍的细胞所需要的。可细菌一次只有一件事要做:活下去、吃东西、分裂。而你的身体,问的是一个难得多的问题。*同一份*基因组,必须既造得出神经元,又造得出皮肤细胞、一个会跳动的心肌细胞,还有数百种别的类型——每一种都读取这同样约两万个基因里不同的一小撮,而且要把这套模式稳稳保持一辈子。

光靠区区几个开/关开关,是做不到这一点的。于是真核生物用简单换来了控制力。如果说细菌实际上是每个基因配一个电灯开关,那么你拥有的,更像一张录音棚的调音台——每个基因配着许多个推子,每一个都把音量往上或往下推一点,而最终的输出,取决于所有推子位置的*整体组合*。这正是贯穿本篇、最要紧的一个转变:真核生物的基因调控不是一个决定,而是一次投票,是把许多路输入汇总起来的结果——它与细菌方案的差异之深,足以让生物学家给它单独起个名字,即 原核与真核转录之分。

转录因子:会读 DNA 的蛋白质

这张调音台上的推子,是一类叫做转录因子的蛋白质。一个转录因子,就是一种能结合 DNA 上某一段特定短序列的蛋白质——这段识别序列通常只有寥寥几个字母长——而它仅仅坐在那里,就改变了附近某个基因被转录的难易程度。这里的关键观念,是*序列特异性结合*:转录因子的形状只配某一个 DNA“单词”,就像钥匙配一把锁,所以它只落在拼出它那段序列的位点上,而无视其余数十亿个并不匹配的字母。正是靠这一点,一个可以在整个基因组里四处游走的蛋白质,最终偏偏作用在那些恰到好处的基因上。

转录因子有两副脾气。激活物(激活子)会*提高*它所靶向基因的转录;阻遏物(阻遏子)则会*降低*它。(这一对激活物/阻遏物,你在细菌操纵子那里已经见过——零件是一样的,只不过接线方式变得更丰富了。)但请注意激活物*不*做什么:它并不亲自去写 RNA。回想转录那一级,真正负责抄录基因的机器,是 RNA 聚合酶。激活物真正的活儿,是帮忙把那台聚合酶(连同它一大群辅助蛋白)招募并稳定在基因的启动子上——也就是你早已熟悉的那个起点地标。阻遏物则反其道而行:它要么挡住这场组装,要么招来一些把基因锁死的蛋白质。换句话说,转录因子是管理者,而不是干活的工人。

增强子与沉默子:从远处起作用的开关

在细菌操纵子里,那段控制序列就紧挨着它所管辖的基因。而真核生物玩出了一招乍听上去近乎不可能的把戏:能从*数千*个字母之外、有时甚至从基因另一头起作用的调控 DNA。这些远处的控制小块,就是增强子(把基因调高)与沉默子(把基因调低)。一个增强子,不过是一段携带着一簇激活型转录因子结合位点的 DNA——可它也许位于基因上游、下游五万个碱基对之外,或者干脆埋在基因当中,却依然能控制它。

一个开关怎么能跨越那么长的 DNA 去够到基因呢?不是靠沿着 DNA 滑过去——而是靠成环。DNA 是一根柔软的线,而非僵硬的杆。结合在远处增强子上的那些转录因子,会抓住聚集在基因启动子处的那套蛋白机器,于是夹在中间的 DNA 干脆弯成一个环,把相隔甚远的两个位点拉到面对面。中间那数千个字母,则像旁观者一样鼓在环外。这与其说像拨动台灯旁墙上的开关,不如说更像一根长长的接线板,让房间另一头的一个开关,够到了同一个插座。

  enhancer (far away)                              promoter + gene
   [ TF ][ TF ][ TF ]                               [ ===> gene ====>
  ----====================  ... thousands of bp ... ====------------------
                          \                        /
         DNA bends into a   \____ loops around ___/   the bound factors
         loop, bringing          (the in-between          touch the polymerase
         enhancer + promoter      DNA bulges out)          machinery at the
         physically together                               promoter -> gene ON
增强子靠成环来远程起作用:DNA 弯折起来,让结合在远处的转录因子,与启动子处的机器发生实打实的接触。沉默子的工作方式相同,只是它招来的是阻遏型蛋白,于是把基因调低,而不是调高。

正是这种成环的几何关系,让一个基因能听命于许多个增强子,而每个增强子各自在不同的组织或时刻活跃。一个基因或许带着一个只在神经元里点火的增强子、另一个只在肝脏里点火、还有一个只在发育早期点火——而究竟形成哪些环,就决定了这个基因在何处、何时开口。沉默子则是它的镜像:同样的远程成环,只不过它送来的是阻遏物,而非激活物。不过这里有一处微妙之处要诚实交代:在实际中,增强子和启动子并不是来者不拒地乱配。一些绝缘子序列,以及基因组在三维空间里的折叠方式,会把每个增强子圈拢向它该去的那个基因,所以这些环是受到引导的,而非随机形成——这是一个活跃的研究领域,也提醒我们:那张整洁的示意图,其实藏着实打实的机制。

组合调控:意义来自组合

调音台这个比方的好处,正是在这里兑现的。一个增强子几乎从不只带一个结合位点;它带着一簇,供好几个*不同的*转录因子结合。一个基因通常只在*恰当的那一组*转录因子同时到场时才会强力开启——比方说,要因子 A、因子 B 和因子 C 全都结合上去,同时还没有阻遏物坐在沉默子上。其中任何一个因子单独存在,可能几乎不起作用,甚至毫无作用。这就是组合调控:输出是从输入的*组合*里读出来的,而非取决于任何单一的输入。细胞问的不是一个是/否的问题;它在运行一道逻辑门。

组合,正是为什么一套并不庞大的工具箱,就能指定出极其丰富的多样性。比方说,哪怕只有几百个转录因子,你能点亮的*不同组合*数目也是天文数字——远远多于你所需要的细胞类型数。所以细胞并不需要专门弄一个“神经元因子”或“皮肤因子”。相反,每一种细胞类型,都是由恰好到场的那一*组*共享、可复用的因子来定义的。想想区区 26 个字母,是怎样拼出字典里每一个单词的:力量不在字母本身,而在它们的组合。转录因子,就是细胞用来书写“身份”的字母表。

守门人:染色质决定哪些内容根本读不读得到

前面这一切——因子、增强子、成环——都默认一个转录因子真的*够得到*它在 DNA 上的位点。可回想一下基因组那一级讲染色质的那一篇:真核 DNA 并不是裸露的。它缠绕在蛋白质“线轴”上、被打包起来,有时松散,有时则被压成密实、几乎完全读不出来的一团。这层包装,位于我们刚讨论过的每一个开关的下面,因为一个埋在紧实包装里的结合位点,根本就是隐形的——没有哪个因子能停靠在它碰都碰不到的 DNA 上。

于是,打包的密实程度,就充当了一道总闸门。松散打包、敞开着的染色质(常染色质)是可及的:因子能结合、聚合酶能干活、基因能被读取。密实打包的染色质(异染色质)则是关闭的、大体沉默的——基因被实实在在地锁了起来。细胞用染色质重塑来控制这件事:一些机器消耗能量去推动、松开或赶走那些“线轴”,从而把某个区域打开,或把它关上。一台重塑机器能清出一条通路,让一个激活物终于够得着它的增强子——这也正是为什么,打开染色质往往是开启一个基因的*第一步*,发生在任何转录因子起作用之前。

这里有一个漂亮的“先有鸡还是先有蛋”的循环,值得看个清楚。有一些特殊的转录因子——“先锋”因子——甚至能结合到关闭的染色质上,并招来重塑机器把它撬开;这一打开,又让*别的*因子得以蜂拥而入。所以,可及性与因子结合,是彼此塑造的。眼下,先把那个简单而诚实的版本记住:在真核生物里,DNA 的开放与关闭状态,本身就是一个独立的调控层,凌驾于那些开关之上——而细胞究竟是*如何*设定并记住这套开/关模式的,正是下一篇讲表观遗传学时要接手的问题。

把它串起来:分层的控制,一个细胞、一个细胞地实现

退后一步,把这几层叠起来看。首先,染色质必须被打开,DNA 才谈得上读不读得到。然后,转录因子——激活物与阻遏物——结合到它们各自特定的序列上,既在启动子处,也在那些也许相隔甚远、靠成环够进来的增强子和沉默子处。最后,基因依据在场因子的*整体组合*——也就是细胞那道逻辑门——而开启(或关闭)。每一层都是一个关卡;唯有当它们全部对齐,转录才会发生。这种层层叠加,正是“分层而组合式”这句话真正的含义。

现在,本级开篇的那个谜题就解开了。一个神经元和一个皮肤细胞带着完全相同的 DNA,却天差地别,原因在于它们拥有*不同的染色质地貌*,以及*不同的转录因子组合*——于是被打开、被开启的,是不同的一套基因。基因表达——究竟哪些基因被读取、读得有多响——才是细胞身份真正的来源,而这套组合式、分层式的方案,正是一份基因组造出数百种稳定而各异细胞类型的办法。这个主题,会一路把你领向阶梯后面的细胞分化