一份基因组,几百种细胞:这一级要解开的谜题
请先在心里记住一个奇怪的事实。你脑中放电的一个神经元,和铺在你肠道里的一个细胞,都源自同一个受精卵,而且——除少数罕见例外——它们带着*完全相同*的 DNA,正是我们讨论基因组时见过的那约两万个蛋白质编码基因。可神经元长出长达一米的“电线”,肠道细胞却拼命泵出消化酶。它们的外观、行为、乃至化学本质都天差地别。如果每个细胞里的说明书都一样,那是什么让这些细胞走向分岔?
答案正是这整整一级的核心:细胞之间的差别,不在于它们*拥有哪些*基因,而在于它们*开启哪些*基因。每种细胞从同一本书里读取不同的页码组合。神经元表达它的神经元基因、让肠道基因保持沉默;肠道细胞则反过来。这把基因型与表型之间的鸿沟活生生地展现出来——一种基因型,多种表型,全由[[gene-regulation-principle|基因调控]]雕琢而成。分化,即一个通用细胞最终决定要做肝细胞还是神经元的过程,归根结底就是一长串关于“表达什么、抑制什么”的调控决策。
为何真核生物比细菌需要更多旋钮
在上一级里,你见识了细菌如何以令人钦佩的节俭解决调控。操纵子把相关基因归在同一个开关之下,一个阻遏蛋白在操纵基因上滑进或滑出,就能让整条通路停摆或运转——lac 与 trp 开关正是干净利落的教科书范例。细菌负担得起这种极简。它没有细胞核,于是核糖体在 mRNA 还在被转录时就开始翻译它;它那条单一的环状染色体相对裸露地漂着;而它的主要任务,是对所泡身其中的“汤水”作出快速反应。
真核细胞在每条战线上都面对更难的问题,这正是为何原核与真核之分在调控上表现得如此鲜明。它的基因组庞大、紧紧缠绕在蛋白质上,所以一个基因可能在物理上被深埋、够不着。它的 mRNA 在细胞核里造出,必须先经加工、再被运出,才能让任何一个核糖体见到它——这就开辟出整整几个细菌根本没有的环节。而且它不只是在对一处食物源作反应:它在搭建一具拥有几百种细胞类型的身体,每一种都得开启一套精确、稳定、长久的程序,并把它*记住*一辈子。要求越多,可供介入的关卡也就越多。
从 DNA 到工作蛋白的调控阶梯
下面就是那个统摄全局的想法,要带着它走过本级的每一篇指南。回想你从一开始就熟知的那条流向 DNA -> RNA -> 蛋白质。真核细胞可以在*这条路上的每一步、乃至这条路之后*去微调产出。所有这些介入点合在一起,就是我们所说的[[levels-of-gene-control|基因调控的层级]]。想象一条河上设着一连串水坝:细胞可以在其中任何一座拦下水流,而最终造出的工作蛋白有多少,取决于穿过了所有这些闸门之后还剩下多少。
DNA in chromatin | (1) chromatin access -- is the gene reachable at all? v gene + regulators | (2) transcription -- is RNA polymerase switched on here? <-- biggest dam v pre-mRNA | (3) RNA processing -- splicing, cap, tail: which mRNA is made? v mature mRNA --export--> cytoplasm | (4) mRNA stability -- how long does the message survive? v ribosome | (5) translation -- is the message actually read? v protein | (6) protein activity -- modified, folded, switched on? | (7) protein turnover -- and when is it destroyed? v working protein (the real output)
- 染色质可及性——一个基因要被读取之前,必先在物理上被暴露出来。DNA 缠绕在组蛋白上,紧密堆叠的异染色质把基因藏起来,而疏松的常染色质则把它们呈现出来。滑动并解开这些“线轴”,是第一道把门的决策。
- 转录——迄今最大的一座水坝。叫做转录因子的蛋白质结合在 DNA 上,或招募 RNA 聚合酶、或阻挡它,从而决定一个基因究竟要不要被抄、抄得多勤。大多数调控就发生在这里。
- RNA 加工——原始转录本会被加帽、加尾、并剪接。通过可变剪接,一个基因能被剪贴成好几种不同的 mRNA,于是同一个基因在不同细胞里产出不同的蛋白质。
- mRNA 的稳定性与定位——一条能存留几个小时的信息,所造出的蛋白质远多于一条几分钟就被销毁的;细胞还能先把一条 mRNA 运到某个精确的角落,再放它被读取。
- 翻译——即便是一条稳定的 mRNA,也可能被搁置不读。细胞能调节核糖体上信息的难易程度,从而在不动基因的情况下,迅速把整批蛋白质开启或关闭。
- 蛋白质的活性与周转——一个造好的蛋白质仍不是定论。各种修饰把它开启或关闭,而泛素—蛋白酶体系统给老旧或多余的蛋白质打上标签、送去销毁,于是其工作水平既取决于造得多快、也取决于清除得多快。
两点需要诚实说明。第一,这些水坝并不等量齐观:转录、尤其是“是否*开始*转录”这个决定,无疑是占主导地位的一座,因为在投入资源去抄录之前先把一个基因拦下,代价最低。后面的几座水坝确有其用,但多半是微调。第二,这些闸门并非彼此独立——它们会相互对话。打开染色质的那套机器,往往同时招募转录因子;而一条转录本被制造的方式,也可能为它在下游标定某种命运。请把这套阶梯看作一个相互连通的控制系统,而非七个孤立的水龙头。
组合调控:为何寥寥几个因子能造出那么多种细胞
这里潜伏着一个合理的疑问。如果人类只有约两万个蛋白质编码基因,而转录因子本身也不过是蛋白质,那么如此朴素的一套工具,怎能指明几百种各不相同的细胞类型?答案是[[molbio-combinatorial-control|组合调控]]:一个基因很少由某个总开关单独拨动,它的开关状态,是从当下同时在场的调控因子*组合*中读出的——因子 A 加 B 加 C 也许能点燃一个基因,而单凭 A 或 B 它仍保持沉默。这就像一把锁,只有正确的一组钥匙一齐转动才能打开。
算术才是这话的妙处所在。仅凭约 20 个因子,每个只取“在场”或“缺席”,原则上你就能区分出 2 的 20 次方——一百多万——种不同的组合,远多于一具身体里的细胞类型。这正是为何基因组的大小和基因的数目并不与复杂度挂钩:力量不在于拥有更多基因,而在于一套固定的基因可被组合、连线在一起的方式多到天文数字。这些连线构成一张基因调控网络,其中一些因子去拨动另一些因子,而细胞的身份,就是整张网络最终稳定下来的那个状态格局。
记忆:细胞如何守住自己是谁
还有一块拼图补全了整幅图景,也正是它给了这一级它的名字。一个肝细胞并非一次性地*成为*肝细胞就完事;它必须在无数次分裂中*始终是*肝细胞,哪怕当初为它选定命运的那些转录因子早已来了又走。细胞需要记忆。这份记忆寄居在[[molbio-epigenetics|表观遗传]]之中——这是叠加在 DNA 序列之上的可遗传标记(前缀 *epi-* 意为“在……之上”),它们在不改动遗传密码任何一个字母的前提下,调整基因被读取的方式。基因型纹丝未动;被遗传下去的,是加在它上面的一项设定。
这些标记是化学的“便利贴”——加在 DNA 上、或加在它所缠绕的组蛋白上的小标签——而关键的诀窍在于:它们能在每次分裂时把自己复制给子代细胞。于是一套“读这个、静默那个”的格局,被沿着一支细胞谱系传递下去,肝细胞的后代因此可靠地仍是肝细胞。我们很快就会细看这些具体的标记,但现在先记住它的轮廓:转录因子*做出*决定;表观遗传标记*记住*这个决定。
接下来的路线图
你现在已经握住了框架;这一级余下的内容会把它填满。接下来的几篇指南,沿着这套调控阶梯一层一层往下走:转录因子及其结合的增强子,决定一个基因被暴露还是被深埋的染色质包装,最后是那些让细胞记住自己选择、并传递下去的表观遗传标记——DNA 甲基化与组蛋白密码。每当后面某篇指南深钻进某一种机制时,请把它放回本篇这条“水坝之河”,并每次都问同一个问题:这道闸门处在哪一步,它又是如何抬高或压低最终造出的工作蛋白之量的?
凌驾于这一切之上,请守住一颗北极星。你即将研习的每一个层级,都是为了回答细胞对它那约两万个基因中的每一个、时时刻刻发出的同一个问题:这一个该不该开,又该开多少?把这个决定在整个基因组上成千上万倍地放大,让它稳定下来,再让它可被遗传——你就解释清楚了:一份固定的基因组,如何舒展成肝细胞、神经元,以及每一个无疑就是“你”的其他细胞。