JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

染色体、端粒与基因组的建筑结构

把染色体当作一个完整打包、可被复制的单元来认识——它的着丝粒、端粒和复制起点——再退后一步,看看DNA在三维空间中的折叠如何决定哪些基因被读取。

从折叠的纤维到成型的染色体

走到本阶这一步,你已经跟着DNA一路从一根赤裸的两米长线,经过核小体——缠绕在组蛋白线轴上的DNA——进入那把整个基因组塞进细胞核的高级折叠。本篇走最后一步:再次拉远视角,看看那个成型的包裹——染色体。染色体不只是“一大团盘绕的DNA”;它是一个完整、能自我维持的单元,由一条长长的DNA分子加上它全部的包装蛋白构成,携带着它被复制并完好无损地传下去所需的一切。

这里有第一个常把人绊倒的地方:那个标志性的X形、两条臂在“腰”处被掐紧的样子,并不是染色体平时的模样。那个整齐的X,是一条染色体被逮在细胞分裂当口的样子——已完全凝缩、且已复制完毕,所以这个X其实是两份一模一样的姐妹拷贝在腰部粘在一起。在细胞一生的大部分时间里,DNA都松散得多——松到足以被读取和复制——在显微镜下看上去会是一团弥散的乱麻,而不是一个工整的字母。记住这点:X形是某个戏剧性瞬间的快照,而不是日常状态。

让DNA成为真正染色体的三个地标

一段DNA本身还算不上一条能工作的染色体。要想一代又一代地经得起被复制、被拉扯分开,它需要三类功能性的地标。想象一条你得粗手粗脚操作的长丝带:它需要中间一个结实的夹子供抓握,两端的保护帽以免散开,以及若干标好的、可以开始复制的起点。这三者就是着丝粒、端粒和复制起点——它们如此不可或缺,以至于任何想从零构建人工染色体的人,都必须把这三者全都备齐。

着丝粒就是那个“腰”——一个特化区域,在细胞分裂时,一种叫动粒的蛋白质平台在此组装,让细胞的纺锤丝得以抓住染色体、把两份姐妹拷贝拖向相反的两端。一旦出错,子细胞就会落得染色体数目不对,唐氏综合征这类状况背后正是这种错误。有一个需要诚实点出的微妙之处:在人类中,着丝粒坐落在大块重复的卫星DNA之中,但定义它的与其说是某段精确序列,不如说是一种特殊的组蛋白和染色质状态——所以“着丝粒就是某段特定序列”是一种过度简化。

最后,复制起点是那些标好的位点,复制机器在此被装载、开始复制DNA。细菌的环状染色体通常只有一个起点,而每条巨大的真核染色体则有许多个、并行启动,因为若只从单个起点去复制三十亿碱基对,根本来不及在细胞需要分裂之前完成。于是着丝粒负责分配,端粒保护末端,复制起点让及时的复制成为可能——三个安静的结构特征,做着三件各不相同却都不可或缺的工作。

端粒:为什么末端需要帽子

端粒值得单独说一段,因为“线性”制造了一个环状结构从不会遇到的奇特难题:末端。端粒是每条染色体臂的尖端,由一小段一遍遍重复的序列构成——在人类中是六字母单元TTAGGG,叠成上千个拷贝——并被保护性蛋白包裹。它们的第一项工作是伪装。细胞时刻在扫描断裂的DNA,而一个赤裸的染色体末端,看起来恰恰像一个危险的双链断裂。若任其裸露,修复机器就会试图通过把两条染色体融合在一起来“修好”它,这是灾难性的。端粒帽发出的信号是:“这是一个正经的末端,不是损伤——别动它。”

它们的第二项工作,解决的是所谓的末端复制问题。回想复制那几篇:DNA复制需要一小段RNA引物来起头,而且只朝5'到3'的方向进行。在线性染色体的最尖端,下游已没有空间去铺下那最后一段引物,于是每个末端都有一小段无法被复制。因此每当细胞分裂一次,染色体末端就略微变短一点——就像一句话每被复述一遍,末尾就掉一两个词。若没有补救,关键的基因终将被一点点啃掉。

细胞的解法是一种叫端粒酶的酶,它自带一小段RNA模板,并用它把新鲜的TTAGGG重复重新添回末端,给缓冲区补货。这里的诚实很重要:端粒酶在生殖细胞和干细胞中高度活跃,但在普通体细胞中大体被关闭,所以我们大多数细胞确实会随年龄增长而缩短端粒,而这是衰老生物学的一条线索——仅仅是一条。更糟的是,许多癌症存活下来,靠的恰恰是把端粒酶重新打开,逃脱那个本该阻止受损细胞永远分裂下去的限制。端粒不是一个你能往回拨的简单“青春时钟”;它们正处在衰老与癌症的真正交叉口上。

核型:基因组的目录

从一条染色体拉远到整一套,你就来到了核型:一张把细胞全部凝缩染色体拍下、剪出、再按大小和形状整理成一对对的照片,像是基因组在整条染色体层面的一幅全家福。人类的核型是46:二十二对相互配对的常染色体,加上一对性染色体,典型女性写作46,XX,典型男性写作46,XY。由于每条染色体都呈现出可重现的带型,受过训练的眼睛一眼就能看出缺失、多出或重排的染色体——这正是核型分析成为临床遗传学主力工具的原因。

对染色体进行计数和配对,引出一个相伴的概念:倍性,即一个细胞携带多少套完整的染色体组。你大多数体细胞是二倍体(2n)——每种染色体两份,分别遗传自父母双方——而卵子和精子是单倍体(n),各携带一套,从而让受精恢复二倍体的数目。值得直接点明:一个常见的误解是“一条染色体就等于一份基因组”。并非如此;在一个二倍体细胞里,基因组以两份存在,分散在那一对对配对的染色体上。许多植物和一些动物是多倍体,携带三套、四套或更多完整组——比如面包小麦就携带六套。

基因组建筑:基因在三维空间中所处的位置

到目前为止,我们几乎一直把染色体当作一条一维的丝带来对待。但在活细胞核内,它被折叠成一个三维形状,而这个形状并不是随机的杂乱——它本身就是一层信息。你已经见过它的一个后果:一个区域被包装得多紧,决定了其中的基因究竟能否被读取。松散、易接近的常染色质容纳着大多数活跃的基因;致密盘绕的异染色质则大多沉默。一个基因在折叠后的基因组中的“地址”,可以在不改变它序列中任何一个字母的情况下把它开或关。

折叠还做了一件更微妙的事:它把DNA上相距遥远的片段拉到物理上的接触。一个增强子——提升某基因表达的调控开关——在线性序列上也许远在数十万个字母之外,然而一个环可以把它折叠到它所控制的基因正旁边,就像把一根线绕成环、让线上相隔很远的两个点凑到一起。基因组把这些环组织成叫拓扑关联结构域(TAD)的“邻里”:这些区域内部的DNA彼此接触的频率,远高于它们与隔壁区域的接触。在一个TAD之内,增强子找到它们应有的靶基因;跨过边界,它们就与那些本不该被它们控制的基因相隔绝。

一个环是怎么形成的?目前主流的图景是环挤出:一种环状蛋白(黏连蛋白)抓住DNA、把它穿过自身卷动,卷出一个不断增大的环,直到撞上由一种叫CTCF的蛋白结合的边界标记,后者就像挡块。回报既真实又关乎临床:当一个边界被删除,增强子就可能溢入相邻的结构域、开启一个它本不该触及的基因——这种“重新接线”与发育障碍及某些癌症相关联。不过,要对这个前沿诚实:TAD是在大量细胞上平均得到的统计性、动态性特征,而非在每个细胞、每一刻都一模一样存在的刚性隔墙。三维基因组组织是一个年轻、高速发展的领域,其定义和细节仍在争论之中。

Linear sequence:   ...[enhancer]-----------------(500 kb)-----------------[gene]...

Folded in 3D (one TAD):
        [enhancer]                                   loop brings them together
              \                                     /
               \___________ loop __________________/
                              ||  <-- enhancer now touches the gene -> ON

   CTCF boundary   |==== TAD ====|   CTCF boundary   |==== next TAD ====|
   (a stopper)                       (a stopper)

   Delete a boundary  ->  enhancer spills into the next TAD  ->  wrong gene switched ON
折叠把一个遥远的增强子带到它在TAD内的基因旁;边界则阻止它伸进下一个TAD。

为什么建筑结构是信息,而不只是收纳

退后一步,本阶的主线便骤然清晰。把两米长的DNA塞进细胞核,从来就不只是一个收纳整洁的问题;在每一个层级——核小体、纤维、环、TAD、染色体领地——包装都兼任调控。那把存储问题解决了的同一种折叠,也决定了哪些基因能被够到、哪些增强子遇见哪些启动子、哪些片段被锁着不放。这在很大程度上解释了为什么一个神经元和一个白细胞、携带着完全相同的DNA序列,外形和行为却毫不相像:它们的差别不在于存了什么,而在于这份共享的基因组如何被折叠、被包装、被读取。

把真核生物的故事与细菌的故事作个对照也很值得。细菌把它紧凑、基因密集的基因组放在拟核里一条环状染色体上,几乎没有非编码DNA,不需要端粒,通常也只有一个复制起点——一种精简的设计,没有细胞核可供折叠成繁复的领地。而那庞大、用染色质包装、端粒封盖、由TAD组织的真核染色体,是对“存储并使用一个基因组”这同一难题的一种根本不同的解法。两者谁都不“更先进”;它们是适应两种生活方式的两种建筑结构。