从一个核苷酸到两米长的丝线
你在化学那一级已经见过它的构件:核苷酸——一个由糖、磷酸基团和一个含氮碱基组成的三部分小单元。单独一个核苷酸毫不起眼。真正的魔法始于细胞把数百万个核苷酸串成一条长链。这条链就是 DNA 的一条单链——在人体细胞里,如果把它全部解开首尾相接,长度约为两米。这就是整个基因组,是你细胞完整的说明书,被塞进一个小到根本看不见的细胞核里。
这些核苷酸是怎么彼此牵手的?每个糖都与下一个核苷酸的磷酸相连,形成一条糖—磷酸—糖—磷酸不断重复的长链。这就是糖磷酸骨架——单链的结构脊梁。关键在于,骨架本身从不变化:它从头到尾都是同一条单调的轨道。信息根本不在骨架里。信息完全藏在从骨架侧向伸出的碱基中,每个核苷酸带一个碱基,就像串在线上的一颗颗珠子。
四个字母,两种配对
碱基只有四种,我们用它们的首字母来称呼:A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)和 C(胞嘧啶)。这就是基因组的全部字母表——四个,不多不少。它显得几乎太少了。但要记住,这个顺序可以延伸数亿个字母,因此可能的讯息数量实际上是无穷的,正如 26 个字母足以拼出有史以来所有的书。
现在来看整个分子生物学中最深刻的规则:四个字母并不是可以随意互换的搭档。A 总是与 T 配对,G 总是与 C 配对。这就是互补碱基配对,它并非某人选定的约定——而是由化学强制决定的。A 与 T 之间靠两条弱氢键结合;G 与 C 之间靠三条。它们的形状和成键位点如同钥匙插进锁孔般吻合。A 根本无法与 G 或 C 紧密配对,T 也无法与 G 配对。配对之所以挑剔,是因为这些分子确实只能以一种方式相互契合。
strand 1: A T G G C A T
| | | | | | | <- base pairs
strand 2: T A C C G T A
A=T : 2 hydrogen bonds
G(C) : 3 hydrogen bonds扭曲的梯子——以及它为何如此扭曲
把这两个想法合在一起。两条骨架并排延伸;碱基向内伸出,在中间的空隙处彼此配对。结果就是一架梯子:两条糖磷酸骨架是两侧的扶手,每一对碱基是一级横档。然后整架梯子轻柔地拧成螺旋。这条螺旋就是著名的双螺旋——可以说是地球上最容易辨认的分子。这种扭转并非装饰;把怕水的碱基藏到内侧、远离细胞内部的水环境,而让亲水的骨架朝外,对这个分子来说不过是最舒适、最稳定的安顿姿态。
还有一个结构事实,它远比看上去重要:两条链的走向相反。每条骨架都有内在的方向(化学家把它的两端标为 5′ 端和 3′ 端),两条链头尾相错地叠放——一条朝上,它的搭档朝下。我们称之为反向平行。可以想象一条公路的两条车道,车流方向相反。这听起来像吹毛求疵的细节,但在接下来的几篇里,正是这一个事实,会逼着细胞在复制 DNA 时做出一些真正巧妙的“体操动作”。
为什么配对是复制生命的秘密
现在迎来让整个结构令人叹为观止的回报。因为 A 永远面对 T、G 永远面对 C,两条链不仅仅是搭档——每一条都是重建另一条的完整配方。哪怕你只知道一条链读作 …ATGGCAT…,你也能在黑暗中、不需要任何额外信息,写出它的搭档:…TACCGTA…。只留一边,什么都不会丢失。
沃森和克里克在弄对结构的那一刻就明白了这一点,他们写下了那句名言:这种配对“立即暗示了一种可能的复制机制”。要从一个 DNA 分子造出两个,细胞只需把螺旋从中间“拉开拉链”,打断碱基之间那些弱氢键,同时让骨架保持完整。随后每条旧链都充当模板:游离的核苷酸漂移进来,按照 A-T、G-C 规则配对,每一半都被重建成一条完整的双螺旋。结果是两份完全相同的拷贝,每一份都保留一条原来的旧链和一条新造的链。这种“一旧一新”的方案叫做半保留复制,我们将在下一篇里一步步追踪执行它的那套机器。
沃森、克里克、富兰克林——诚实地归功
双螺旋于 1953 年由詹姆斯·沃森和弗朗西斯·克里克发表,他们的名字是大多数人记住的那两个。但这一结构并非凭空降临到他们头上。它的决定性证据来自 DNA 的 X 射线衍射图像,由伦敦国王学院的罗莎琳德·富兰克林及其学生雷蒙德·戈斯林拍摄。富兰克林是一位一丝不苟的实验科学家;她那张著名的“51 号照片”显示出一种 X 形图样,几乎是在高喊“螺旋”,而她精确的测量则锁定了骨架在外的排布方式与螺旋的尺寸。
令人不安的事实是:沃森和克里克在富兰克林本人并不知情、也未同意的情况下,看到了 51 号照片以及她未发表数据的摘要——而这对他们的模型至关重要。1962 年的诺贝尔奖授予了沃森、克里克和莫里斯·威尔金斯;富兰克林已于 1958 年因卵巢癌去世,年仅 37 岁,而诺奖不追授给已故者。她是否本会分享这一荣誉,是历史无法回答的问题,但今天人们普遍认同:她的贡献是奠基性的,而在当时被严重低估了。诚实地讲述这段故事,本身就是理解这门科学的一部分。
基因究竟是什么——以及一次快速的现实校准
如果说基因组是整本说明书,那么一个基因大致就是其中一段有意义的段落——一段拼写出某个产物(通常是一种蛋白质)指令的碱基序列。你那两米长的 DNA 大约含有两万个编码蛋白质的基因。但这里有一个让大多数人意外的现实校准:这些基因只占总量很小的一部分。人类 DNA 的大部分根本不编码蛋白质,而要厘清其余部分究竟在做什么——其中有些起调控作用,有些至今仍知之甚少——这仍是一门活跃的科学,而非已经盖棺定论的故事。
在继续之前,再做两处诚实的纠正。第一,DNA 并不“想要”任何东西,基因也不是一个决定你命运的微型小人;它只是一段惰性的序列,在被细胞机器读取之前什么都不做。第二,基因并非命运——哪些基因被开启、何时开启,在很大程度上取决于细胞类型和环境,这是我们将在基因调控那一级重新探讨的主题。眼下,请记住这幅核心图景:一段四字母序列,配对成一条反向平行的双螺旋,而正是它的互补性,使它既能被读取、又能被忠实地复制。