保真性与校对

一种本不该可能的准确度

到现在，你已经看着整个工地运转起来：复制叉张开，引物酶铺下引物，复制型聚合酶飞驰而过，前导链和后随链合到一处。这一篇要问的，是一个本该一直在你心头打转的问题——*这份拷贝有多好？* 复制以半保留著称，所以每个新分子都保留一条旧链作模板；可是复制一条模板，其用处全看它有多准确。那么，它究竟有多准确？

这个核心数字令人咋舌。人的细胞每分裂一次，就要复制约 60 亿个碱基对，而在这全部之中，它只留下大约每十亿个左右复制的碱基出一个差错——保真度接近 10⁻⁹。换成人的尺度来感受：这就像把一座大图书馆里的每一本书逐字逐母地抄一遍，而整批藏书里只打错约一个字。没有哪个人类打字员、哪台复印机能与之相近。谜题在于，细胞起步时所用的化学，远没有这么可靠。一定有什么东西，把粗糙、马虎的化学提升到了近乎完美。

第一层：配对很挑剔，却挑剔得不够

第一道防线，就是你早已熟悉的碱基配对。沃森–克里克配对之所以有选择性，是因为对的搭档合得来、错的搭档合不来：A 隔着伸过去与 T 结两个氢键，G 与 C 结三个（A-T / G-C），而一对正确的配对，还恰好有不偏不倚的*形状*和宽度，能严丝合缝地嵌进螺旋。聚合酶并不只是信任那些氢键；它的活性位点是一个紧凑的口袋，会从物理上抓住进来的核苷酸，检验它与模板碱基是否构成几何上完美的一对。一对形状正确的配对，会让酶围着它合拢、把碱基加上；一对走样的配对则合得很差，通常在键还没形成之前就被拒之门外。

但这里有一个诚实的隐情：光靠配对*还*不够挑剔。一对正确配对与一对错误配对之间的稳定性之差，不过几个单位的自由能（一个不大的 delta G），而碱基偶尔会闪进一些罕见的化学形态——叫互变异构体——短暂地模仿另一种碱基的形状，把那个口袋骗过去。结果，靠形状来挑选，平均每加入 1 万到 10 万次就会放进一个错误核苷酸。那意味着每复制一份基因组就有数以万计的差错——单凭这一点就是灾难。细胞显然需要第二道检查，在一个碱基*已经*被加上*之后*运行。

第二层：一个会倒回去擦掉自己错误的聚合酶

这是整个故事的核心——也是[[replication-fidelity-proofreading|校对]]一词的来源。复制型聚合酶不是一台机器，而是焊在同一个蛋白里的两种活性。你熟悉的那一半负责建造 DNA，沿 5′ 到 3′ 加碱基。另一半是嵌进同一个蛋白里的一个独立的酶：一个 3′ 到 5′ 外切核酸酶，一把微小的分子剪刀，把核苷酸从新链的 *3′ 端*咬下来——恰恰就是聚合酶刚刚加上最新一个碱基的那一端。想象一支笔，另一端嵌着橡皮：一边向前写，一旦察觉写错，就翻过来把最后一个字擦掉。

如果酶读不懂遗传含义，它又怎么*知道*自己刚出了错？它是感觉到的。一个配对正确的 3′ 端，端端正正地配着对，顺滑地滑进聚合位点，准备好接下一个碱基。一个错配的 3′ 端则配得很差，散开、摇晃——尖端处的螺旋是扭曲而不稳定的。这份松动会拖慢下一次加碱基，而更要紧的是，它让散开的末端更容易翻进旁边的外切酶口袋。在那里，剪刀剪掉那个错误碱基，被纠正的 3′ 端再荡回聚合位点，合成于是恢复。酶从不“理解”这个错误；它只是对一种合得不好的*手感*做出反应。

加一个碱基。聚合位点让进来的核苷酸与模板配对，锻造骨架键，在新链的 3′ 端把它延长一个。
感受配合。如果最新这一对是正确的，它会贴得很紧，酶顺滑地继续往前。如果是错的，3′ 尖端就会散开、摇晃，下一次加碱基随之卡住。
交给剪刀。散开的 3′ 端翻进 3′ 到 5′ 外切酶位点，由它剪掉最近加上的那个（错误）核苷酸。
恢复。被修剪好、配对正确的 3′ 端荡回聚合位点，酶再试一次加碱基——这一回通常就加对了。

这也恰恰说明了，为什么聚合酶只能 5′ 到 3′ 地建造——你在上一篇里遇到的那条规则。校对住在 3′ 端、并从那里修剪；一条朝*另一个*方向生长的链，会把它高能的生长尖端带在 5′ 端，而在那里去掉一个碱基，就会把驱动下一次加碱基的那些磷酸一并剥走。合成方向与校对，是同一套设计的两个面。校对很有力，却不是免费的——它要花时间，还会顺手丢掉一些好构件——所以那些复制短的、不那么关键片段的聚合酶（以及许多 RNA 聚合酶）干脆跳过它。复制机器肯下这份功夫，正是因为基因组值得。

第三层：最后一道检查——错配修复

即便有校对，仍有少数错误碱基溜过去——大约千万分之一。第三支队伍在复制叉*身后*清扫道路：[[mismatch-repair|错配修复]]，你将在 DNA 修复那一级阶梯里完整地认识它。它扫描刚做好的 DNA，寻找错配碱基那个露馅的鼓包——那是两条链贴不平的地方——把错误周围那一段*新*链切掉，再让聚合酶照着模板重新正确地合成出来。

那句话里藏着一个深刻的问题，值得停下来想一想。当修复队伍找到一处错配——比方说一个 A 对着一个 C——*哪一个*碱基才是错的呢？模板仍然保有原来的真相；新链则带着那个笔误。要是修了错的那一个，就会把错误永远锁死。所以错配修复必须分辨出哪条是崭新的链、哪条是旧的模板链，而它靠一个暂时性的*标记*来做到。在像大肠杆菌这样的细菌里，旧链被化学标记（它在某些位点的 A 带着一个甲基），而新链暂时未被甲基化，于是系统信任有标记的那条、重写没标记的那条。真核生物用别的线索——比如尚未封合的新链上还留着的切口——但原理一样：*朝着你信得过的那条链去纠正。*

selectivity  ~10^-5   pairing fits / wrong base rejected
   x  proofreading ~10^-2   3'->5' exonuclease trims the bad 3' base
   x  mismatch     ~10^-2   repairs new strand using the old as truth
  ----------------------------------------------------------------
   = overall      ~10^-9   about one error per billion bases

三道并不出众的滤网相乘，化作近乎完美的保真度。

为什么不追求完美？错误是进化的燃料

下面这个反转，最让初学者意外。细胞本有能力做得比现在还准——可它偏偏不把保真度一路逼到零差错，而这并不是失败。每一个幸存下来的复制错误，都是一个[[molbio-point-mutation|点突变]]：序列上一处永久的改变，是一个突变的原材料。若是零突变，那么每个后代就永远是完美的克隆，而一个物种在面对变化的世界时——一种新的病原体、一段更冷的气候——就没有任何变异可供选择去施力。一个真的以完美保真度复制的谱系，会在进化上被冻结，灭绝的可能反而大得多。一点点马虎，是换取未来所付的代价。

还有一个令人宽心的诚实事实，能消解人们对突变的恐惧：大多数突变并不会怎么样。在突变效应谱上，绝大多数大致是中性的——无声的改变，或者发生在无关紧要区域里的微调。少数是有害的，极少数是有益的。突变并不是疾病的同义词；它是变异那缓慢的滴漏，经世代选择的过滤，造就了包括你在内的一切生命。细胞调校它的突变率，就像你调校任何一份差错预算：低到让有害错误保持罕见，却不为零，因为变异自有其价值。

最后有两点保留，带着它们继续上阶梯。其一，保真度并不是均匀的：有些生物故意跑得更“热”——RNA 病毒没有校对，突变快上数百万倍，这正是为什么流感疫苗每年都要重新配方，也是为什么某些病毒能跑赢我们的免疫力。其二，连我们自己体内的差错率也不是固定的；在压力之下，某些容易出错的聚合酶会被刻意开启，以便越过损伤继续复制，用准确度换取生存。“十亿分之一的差错”是一个漂亮的平均值，而不是一条铁打的常数——而这份灵活性，本身也是设计的一部分。