氨基酸与肽键

二十种珠子，一副共享的形状

来到这一阶梯时，你已经掌握了大图景：基因组保管着指令，信息按 DNA -> RNA -> protein 的方向流动。但最后那个词——蛋白质——至今还是一个贴着“干活的”标签的黑箱。是时候打开这个箱子了。蛋白质是细胞的机器：剪切和连接的酶、拖运货物的马达、撑起细胞形状的支柱、镶在膜上的门。而它们每一个，都由你早先作为单体认识过的同一套启动套件搭成——叫做[[amino-acid-structure|氨基酸]]的小零件，串成一条链。

意外之处在于：标准的种类只有二十种。同一套固定的字母表——[[twenty-standard-amino-acids|二十种氨基酸]]——拼出了消化你午餐的酶、你头发里的角蛋白，还有蜘蛛吐出的丝；这都是同一套零件的不同排序，正如二十几个字母写出了每一本书。而这二十种都共享一个完全相同的内核。想象一个小小的中枢：一个中心碳原子（α碳），上面挂着四样东西——一个氢、一个酸性的羧基（-COOH）、一个碱性的氨基（-NH2），以及一个叫做侧链的可变基团。

请留意这套巧妙的“一身两职”设计。一个氨基酸上的酸性羧基与下一个氨基酸上的碱性氨基，是彼此匹配的挂钩，让氨基酸能扣进一条链里——它们在二十种里都一模一样，就像每节火车车厢上标准的挂钩。与此同时，侧链是各不相同的那部分，赋予每个单元独有的个性。于是同一个分子既是标准接头，又是独特角色。（一句诚实的脚注：“二十”是经典集合，而非铁律——像硒代半胱氨酸这样少见的额外成员，在某些生物中确实是被编码的，另有更多氨基酸只作为后续的化学微调出现。）

侧链才是个性所在

如果说骨架是一身相同的制服，那么[[amino-acid-side-chain|侧链]]（写作 R）就是每个氨基酸随身携带的不同工具——一个拿磁铁，一个拿油抹布，一个拿钩子。侧链可以几乎什么都没有（甘氨酸的 R 只是一个氢），也可以是一个精巧的双环（色氨酸）。关键不在它的大小，而在它的化学性格：它亲水还是怕水，带不带电，能不能形成某种特殊连接。把侧链的性格摸准了，你几乎就能预测蛋白质的一切作为。

一下子记住二十种太多，于是化学家按侧链的性格把它们分成四个家族——这就是标准的[[amino-acid-classification|氨基酸分类]]。这四类很好想象。非极性（疏水）侧链油腻、怕水——像油滴一样躲着水，彼此抱团。极性（不带电）侧链能与水形成氢键，乐意待在潮湿处。酸性侧链会失去一个质子，在体内的酸碱度下带负电。碱性侧链会抓住一个质子，最终带正电。还有几个“怪胎”（甘氨酸、脯氨酸、半胱氨酸）略在这一体系之外。

这种分类为何如此重要？因为它悄悄地预测着形状。怕水的侧链把自己埋进蛋白质内部，亲水的朝外，所以链上非极性与极性残基的排布模式，正是折叠的主要引擎——你会认出，这就是化学阶梯里讲过的疏水效应，如今正在真刀真枪地干活。电荷相反的侧链彼此伸过去形成盐桥，这种离子相互作用把折叠钉牢在原处。读懂家族，你就开始读懂蛋白质了。

肽键：把珠子扣成一条链

现在来把珠子扣到一起。化学阶梯里那个通用的把戏你已经知道：单体靠缩合相连，每接一处就脱去一个水分子。对氨基酸而言，这个扣子有自己的名字——[[molbio-peptide-bond|肽键]]。它形成于一个氨基酸的羧基（-COOH）遇上下一个氨基酸的氨基（-NH2）之时；这一对脱去一个水（H2O），留下一个 -C(=O)-N(H)- 的连接把二者相连。它正是普通化学里的酰胺键。一遍遍地重复，一堆松散的氨基酸珠子就变成了一条相连的项链。

  amino acid 1            amino acid 2
  H2N-CH(R1)-C(=O)-OH  +  H-N(H)-CH(R2)-COOH
        |                      |
        +------ condensation --+  ( - H2O )
                  v
  H2N-CH(R1)-C(=O)-N(H)-CH(R2)-COOH
               ^^^^^^^^^^^
              the peptide bond  (a flat, rigid plate)

   N-terminus  >>>>>> read this way >>>>>>  C-terminus

两个氨基酸结合、一个水离开，一根平直的肽键把它们连起来；这条链从 N 端读到 C 端。

这根键有两个特点悄悄起着决定性作用。其一，虽然我们把 C-N 画作普通单键，电子其实在它与相邻的 C=O 之间共享——这让肽键带有部分双键性质。实际后果是：它不能自由旋转，周围的六个原子被锁定在一个平面内，像一块僵硬的小平板。骨架只能在平板之间的关节处转动，这就大大限制了它的折叠方式——而正是这个限制，才让螺旋、折叠片这类整齐重复的形状成为可能。其二，这根键很结实；它在体温下不会自行散开，这正是蛋白质稳定的原因，也是为什么要把它重新拆回氨基酸，需要强酸或专门的酶。

一条有头有尾的链

用这种方式把许多氨基酸串起来，你就得到一条[[polypeptide-chain|多肽链]]——一根细长的分子丝线，是蛋白质折叠之前那种原始的一维形式。凑近看，它有两部分。沿其长度延伸的是一根重复的脊梁，即骨架：同样的原子一遍遍出现——氮、α碳、羰基碳、又是氮——由每个单元的氨基与羧基部分经肽键相连。从这根脊梁上伸出来的，每个单元一个，是可变的侧链。（氨基酸一旦进入链中就称为“残基”，因为它已“留下”了成键时脱去的那个水。）

关键在于，这条链有方向，像一条单行道。由于每根连接键都是把一个羧基接到一个氨基上，成品链的一端总有一个游离的氨基——N 端——另一端则有一个游离的羧基——C 端。这并非单纯的约定：核糖体确实是沿一个方向搭建这条链的，从 N 端起始，朝 C 端逐个添加残基，正如信使 RNA 是按 5'-到-3' 的方向读取的一样。按约定，我们总是从 N 端向 C 端书写和读取序列，所以“第一个残基”指的就是 N 端那一个。

关于名称，再谨慎说一句。多肽指的是作为化学实体的那条链；蛋白质通常指那条链（或几条链）折叠成可工作形态之后的样子。许多蛋白质是单条折叠的多肽，另一些是几条链装配在一起。很短的链就直接叫肽——激素胰岛素被加工成相连的两条短链，有些信号肽只有五个残基长。同一类分子，区别只在长度和后加工。

顺序就是全部的讯息

在你能就一个蛋白质说出的所有事情里，最基本的是：哪些氨基酸，按什么顺序？这份从 N 端读到 C 端的有序清单，就是蛋白质的[[primary-structure|一级结构]]——把蛋白质一个字母一个字母地拼出来，就像你在脑中浮现那只动物之前先写下 C-A-T。它用单字母代号书写，所以一个片段可能写成 MVLSPADKT。而这个顺序不是蛋白质自己发明的；它由基因的信使 RNA 上的密码子逐个残基地决定，而后者又来自 DNA。一级结构正是遗传信息越界进入蛋白质世界的那个确切节点。

下面是这一整段阶梯所倚靠的深层观念：单凭这赤裸裸的顺序，就承载了整个三维形状的指令。这就是[[anfinsen-principle|安芬森原理]]——在他那个经典实验里，一个被解开成软绵绵长串的纯化蛋白质，一旦条件恢复正常，便自发地重新折叠成恰恰是它工作时的那个形状，没有任何外援，也没有额外信息。折叠方式早已写在序列里了。侧链可以自由地寻水或避水、可以让自己的电荷配对，于是找到那个最稳定的唯一排布，而僵硬的肽键平板只允许少数几条可折叠的路径通往那里。

如果顺序就是一切，那么单个错误的字母也可能影响巨大。在镰状细胞病里，血红蛋白链 146 个残基中仅有一个被替换——谷氨酸（酸性、带电）变成了缬氨酸（非极性、油腻）——这单单一处改变就让分子结块，使整个红细胞变形。数百个字母中的一个，便是健康与疾病之别。但有两点诚实的提醒能让我们保持分寸。多数改变并不致命——许多单个替换是沉默的或无害的，而正是这种寻常的变异，构成了演化赖以工作的原材料。还有，从序列读出折叠，尽管因 AlphaFold 这类工具如今已好得多，却仍是一种预测，而非一条已被攻克的自然定律。