平均值与离散程度：你要掌握的头两个数字

五次尝试，五个答案

想象你用一台灵敏的天平把同一枚小硬币称了五次，记下：4.01、4.03、3.99、4.02、4.00 克。硬币没变——是你的读数变了。一些微小、不可预测的扰动（一阵气流、天平的稳定过程、你放硬币的确切位置）让每个数字都略有不同。这种无法避免的抖动叫作随机误差，而重复值彼此靠得很近这件事，叫作重复性。

把五个数字全报出来很诚实，但很笨拙。我们想要的是两个汇总数字：一个回答「中间在哪里？」，另一个回答「它们分散得有多开？」这两个数字——平均值和标准差——是分析化学里每一个结果的脊梁。

平均值：加起来，再除

平均值（日常说「平均」）是最简单的中间值。把数字加起来，除以它们的个数。对我们的硬币：4.01 + 4.03 + 3.99 + 4.02 + 4.00 = 20.05，再 20.05 ÷ 5 = 4.010 克。平均值是数据的平衡点——如果你把这些读数堆在跷跷板上，它正好在这里保持水平。

为什么求平均有用？因为随机误差把一些读数往上推、把另一些往下推。当你把它们相加时，向上的扰动和向下的扰动会部分抵消。你平均的重复次数越多，抵消得越彻底——这正是化学家不只测一次的根本原因。

当平均值说谎时：中位数

平均值有一个弱点：单个离谱的值会拖动它。假设你第五次称重得到 4.40（你撞到了台面）。即使有四个读数挤在 4.01 附近，平均值也会跳到 4.090。中位数——把数字按大小排好后正中间的那个值——几乎不动。排序后：4.01、4.02、4.03、4.40 加上其余；正中间那个仍在 4.02 附近。中位数不在乎那个离谱值偏多远，只在乎它落在哪一边。

所以中位数是稳健的：它对单个坏点满不在乎。对一组干净的重复数据，平均值和中位数会很接近，此时优先用平均值，因为它用上了每一个数字。但如果两者相差很大，那就是个警示——你可能有一个可疑读数值得调查（后面的指南会讲怎么检验它）。

标准差：量化抖动

现在轮到第二个数字。标准差（记作 s）回答「一个读数离平均值，通常有多远？」它几乎就是这些偏差的普通平均——只是有两个出于充分数学原因而存在的小转折。

求每个读数到平均值的距离（4.01 − 4.010 = 0.000，4.03 − 4.010 = +0.020，依此类推）。
把每个距离平方。平方让负数变正（这样它们不会相互抵消），并且对大偏差的惩罚比小偏差更重。
把这些平方相加再相除——但除以 (n − 1)，而不是 n。五个读数就除以 4。这个结果就是方差。
开平方根，回到克的单位。这个平方根就是标准差——这里约为 0.0158 克。

在开平方根之前，那个量就是方差。方差的单位是平方单位（克²），不好直观想象，所以我们通常改报标准差。为什么除以 (n − 1) 而不是 n？因为你用数据本身算出了平均值，已经「花掉」了一点信息；除以较小的那个数能温和地修正这一点，防止 s 算得偏小。你会在「自由度」里再次遇到这个概念。

把离散程度放进语境：%RSD

标准差 0.016 克到底是好是坏？取决于你称的是什么。对一枚 4 克的硬币，它微不足道；对一粒 0.02 克的微尘，它是灾难。要公平地评判离散程度，就把 s 除以平均值再乘以 100。这就是相对标准差（%RSD），也叫变异系数。对硬币：0.0158 ÷ 4.010 × 100 ≈ 0.39%——非常出色。