真核生物调控的层层关卡

一份基因组，几百种细胞：这一级要解开的谜题

请先在心里记住一个奇怪的事实。你脑中放电的一个神经元，和铺在你肠道里的一个细胞，都源自同一个受精卵，而且——除少数罕见例外——它们带着*完全相同*的 DNA，正是我们讨论基因组时见过的那约两万个蛋白质编码基因。可神经元长出长达一米的“电线”，肠道细胞却拼命泵出消化酶。它们的外观、行为、乃至化学本质都天差地别。如果每个细胞里的说明书都一样，那是什么让这些细胞走向分岔？

答案正是这整整一级的核心：细胞之间的差别，不在于它们*拥有哪些*基因，而在于它们*开启哪些*基因。每种细胞从同一本书里读取不同的页码组合。神经元表达它的神经元基因、让肠道基因保持沉默；肠道细胞则反过来。这把基因型与表型之间的鸿沟活生生地展现出来——一种基因型，多种表型，全由[[gene-regulation-principle|基因调控]]雕琢而成。分化，即一个通用细胞最终决定要做肝细胞还是神经元的过程，归根结底就是一长串关于“表达什么、抑制什么”的调控决策。

为何真核生物比细菌需要更多旋钮

在上一级里，你见识了细菌如何以令人钦佩的节俭解决调控。操纵子把相关基因归在同一个开关之下，一个阻遏蛋白在操纵基因上滑进或滑出，就能让整条通路停摆或运转——lac 与 trp 开关正是干净利落的教科书范例。细菌负担得起这种极简。它没有细胞核，于是核糖体在 mRNA 还在被转录时就开始翻译它；它那条单一的环状染色体相对裸露地漂着；而它的主要任务，是对所泡身其中的“汤水”作出快速反应。

真核细胞在每条战线上都面对更难的问题，这正是为何原核与真核之分在调控上表现得如此鲜明。它的基因组庞大、紧紧缠绕在蛋白质上，所以一个基因可能在物理上被深埋、够不着。它的 mRNA 在细胞核里造出，必须先经加工、再被运出，才能让任何一个核糖体见到它——这就开辟出整整几个细菌根本没有的环节。而且它不只是在对一处食物源作反应：它在搭建一具拥有几百种细胞类型的身体，每一种都得开启一套精确、稳定、长久的程序，并把它*记住*一辈子。要求越多，可供介入的关卡也就越多。

从 DNA 到工作蛋白的调控阶梯

下面就是那个统摄全局的想法，要带着它走过本级的每一篇指南。回想你从一开始就熟知的那条流向 DNA -> RNA -> 蛋白质。真核细胞可以在*这条路上的每一步、乃至这条路之后*去微调产出。所有这些介入点合在一起，就是我们所说的[[levels-of-gene-control|基因调控的层级]]。想象一条河上设着一连串水坝：细胞可以在其中任何一座拦下水流，而最终造出的工作蛋白有多少，取决于穿过了所有这些闸门之后还剩下多少。

DNA in chromatin
   |  (1) chromatin access  -- is the gene reachable at all?
   v
gene + regulators
   |  (2) transcription     -- is RNA polymerase switched on here?  <-- biggest dam
   v
pre-mRNA
   |  (3) RNA processing     -- splicing, cap, tail: which mRNA is made?
   v
mature mRNA  --export-->  cytoplasm
   |  (4) mRNA stability     -- how long does the message survive?
   v
ribosome
   |  (5) translation        -- is the message actually read?
   v
protein
   |  (6) protein activity   -- modified, folded, switched on?
   |  (7) protein turnover   -- and when is it destroyed?
   v
working protein (the real output)

从基因到工作蛋白这条河上的七座水坝。本级后续的每篇指南，都会打开其中一两座。

染色质可及性——一个基因要被读取之前，必先在物理上被暴露出来。DNA 缠绕在组蛋白上，紧密堆叠的异染色质把基因藏起来，而疏松的常染色质则把它们呈现出来。滑动并解开这些“线轴”，是第一道把门的决策。
转录——迄今最大的一座水坝。叫做转录因子的蛋白质结合在 DNA 上，或招募 RNA 聚合酶、或阻挡它，从而决定一个基因究竟要不要被抄、抄得多勤。大多数调控就发生在这里。
RNA 加工——原始转录本会被加帽、加尾、并剪接。通过可变剪接，一个基因能被剪贴成好几种不同的 mRNA，于是同一个基因在不同细胞里产出不同的蛋白质。
mRNA 的稳定性与定位——一条能存留几个小时的信息，所造出的蛋白质远多于一条几分钟就被销毁的；细胞还能先把一条 mRNA 运到某个精确的角落，再放它被读取。
翻译——即便是一条稳定的 mRNA，也可能被搁置不读。细胞能调节核糖体上信息的难易程度，从而在不动基因的情况下，迅速把整批蛋白质开启或关闭。
蛋白质的活性与周转——一个造好的蛋白质仍不是定论。各种修饰把它开启或关闭，而泛素—蛋白酶体系统给老旧或多余的蛋白质打上标签、送去销毁，于是其工作水平既取决于造得多快、也取决于清除得多快。

两点需要诚实说明。第一，这些水坝并不等量齐观：转录、尤其是“是否*开始*转录”这个决定，无疑是占主导地位的一座，因为在投入资源去抄录之前先把一个基因拦下，代价最低。后面的几座水坝确有其用，但多半是微调。第二，这些闸门并非彼此独立——它们会相互对话。打开染色质的那套机器，往往同时招募转录因子；而一条转录本被制造的方式，也可能为它在下游标定某种命运。请把这套阶梯看作一个相互连通的控制系统，而非七个孤立的水龙头。

组合调控：为何寥寥几个因子能造出那么多种细胞

这里潜伏着一个合理的疑问。如果人类只有约两万个蛋白质编码基因，而转录因子本身也不过是蛋白质，那么如此朴素的一套工具，怎能指明几百种各不相同的细胞类型？答案是[[molbio-combinatorial-control|组合调控]]：一个基因很少由某个总开关单独拨动，它的开关状态，是从当下同时在场的调控因子*组合*中读出的——因子 A 加 B 加 C 也许能点燃一个基因，而单凭 A 或 B 它仍保持沉默。这就像一把锁，只有正确的一组钥匙一齐转动才能打开。

算术才是这话的妙处所在。仅凭约 20 个因子，每个只取“在场”或“缺席”，原则上你就能区分出 2 的 20 次方——一百多万——种不同的组合，远多于一具身体里的细胞类型。这正是为何基因组的大小和基因的数目并不与复杂度挂钩：力量不在于拥有更多基因，而在于一套固定的基因可被组合、连线在一起的方式多到天文数字。这些连线构成一张基因调控网络，其中一些因子去拨动另一些因子，而细胞的身份，就是整张网络最终稳定下来的那个状态格局。

记忆：细胞如何守住自己是谁

还有一块拼图补全了整幅图景，也正是它给了这一级它的名字。一个肝细胞并非一次性地*成为*肝细胞就完事；它必须在无数次分裂中*始终是*肝细胞，哪怕当初为它选定命运的那些转录因子早已来了又走。细胞需要记忆。这份记忆寄居在[[molbio-epigenetics|表观遗传]]之中——这是叠加在 DNA 序列之上的可遗传标记（前缀 *epi-* 意为“在……之上”），它们在不改动遗传密码任何一个字母的前提下，调整基因被读取的方式。基因型纹丝未动；被遗传下去的，是加在它上面的一项设定。

这些标记是化学的“便利贴”——加在 DNA 上、或加在它所缠绕的组蛋白上的小标签——而关键的诀窍在于：它们能在每次分裂时把自己复制给子代细胞。于是一套“读这个、静默那个”的格局，被沿着一支细胞谱系传递下去，肝细胞的后代因此可靠地仍是肝细胞。我们很快就会细看这些具体的标记，但现在先记住它的轮廓：转录因子*做出*决定；表观遗传标记*记住*这个决定。

接下来的路线图

你现在已经握住了框架；这一级余下的内容会把它填满。接下来的几篇指南，沿着这套调控阶梯一层一层往下走：转录因子及其结合的增强子，决定一个基因被暴露还是被深埋的染色质包装，最后是那些让细胞记住自己选择、并传递下去的表观遗传标记——DNA 甲基化与组蛋白密码。每当后面某篇指南深钻进某一种机制时，请把它放回本篇这条“水坝之河”，并每次都问同一个问题：这道闸门处在哪一步，它又是如何抬高或压低最终造出的工作蛋白之量的？

凌驾于这一切之上，请守住一颗北极星。你即将研习的每一个层级，都是为了回答细胞对它那约两万个基因中的每一个、时时刻刻发出的同一个问题：这一个该不该开，又该开多少？把这个决定在整个基因组上成千上万倍地放大，让它稳定下来，再让它可被遗传——你就解释清楚了：一份固定的基因组，如何舒展成肝细胞、神经元，以及每一个无疑就是“你”的其他细胞。