五次尝试,五个答案
想象你用一台灵敏的天平把同一枚小硬币称了五次,记下:4.01、4.03、3.99、4.02、4.00 克。硬币没变——是你的读数变了。一些微小、不可预测的扰动(一阵气流、天平的稳定过程、你放硬币的确切位置)让每个数字都略有不同。这种无法避免的抖动叫作随机误差,而重复值彼此靠得很近这件事,叫作重复性。
把五个数字全报出来很诚实,但很笨拙。我们想要的是两个汇总数字:一个回答「中间在哪里?」,另一个回答「它们分散得有多开?」这两个数字——平均值和标准差——是分析化学里每一个结果的脊梁。
平均值:加起来,再除
平均值(日常说「平均」)是最简单的中间值。把数字加起来,除以它们的个数。对我们的硬币:4.01 + 4.03 + 3.99 + 4.02 + 4.00 = 20.05,再 20.05 ÷ 5 = 4.010 克。平均值是数据的平衡点——如果你把这些读数堆在跷跷板上,它正好在这里保持水平。
为什么求平均有用?因为随机误差把一些读数往上推、把另一些往下推。当你把它们相加时,向上的扰动和向下的扰动会部分抵消。你平均的重复次数越多,抵消得越彻底——这正是化学家不只测一次的根本原因。
当平均值说谎时:中位数
平均值有一个弱点:单个离谱的值会拖动它。假设你第五次称重得到 4.40(你撞到了台面)。即使有四个读数挤在 4.01 附近,平均值也会跳到 4.090。中位数——把数字按大小排好后正中间的那个值——几乎不动。排序后:4.01、4.02、4.03、4.40 加上其余;正中间那个仍在 4.02 附近。中位数不在乎那个离谱值偏多远,只在乎它落在哪一边。
所以中位数是稳健的:它对单个坏点满不在乎。对一组干净的重复数据,平均值和中位数会很接近,此时优先用平均值,因为它用上了每一个数字。但如果两者相差很大,那就是个警示——你可能有一个可疑读数值得调查(后面的指南会讲怎么检验它)。
标准差:量化抖动
现在轮到第二个数字。标准差(记作 s)回答「一个读数离平均值,通常有多远?」它几乎就是这些偏差的普通平均——只是有两个出于充分数学原因而存在的小转折。
- 求每个读数到平均值的距离(4.01 − 4.010 = 0.000,4.03 − 4.010 = +0.020,依此类推)。
- 把每个距离平方。平方让负数变正(这样它们不会相互抵消),并且对大偏差的惩罚比小偏差更重。
- 把这些平方相加再相除——但除以 (n − 1),而不是 n。五个读数就除以 4。这个结果就是方差。
- 开平方根,回到克的单位。这个平方根就是标准差——这里约为 0.0158 克。
在开平方根之前,那个量就是方差。方差的单位是平方单位(克²),不好直观想象,所以我们通常改报标准差。为什么除以 (n − 1) 而不是 n?因为你用数据本身算出了平均值,已经「花掉」了一点信息;除以较小的那个数能温和地修正这一点,防止 s 算得偏小。你会在「自由度」里再次遇到这个概念。
把离散程度放进语境:%RSD
标准差 0.016 克到底是好是坏?取决于你称的是什么。对一枚 4 克的硬币,它微不足道;对一粒 0.02 克的微尘,它是灾难。要公平地评判离散程度,就把 s 除以平均值再乘以 100。这就是相对标准差(%RSD),也叫变异系数。对硬币:0.0158 ÷ 4.010 × 100 ≈ 0.39%——非常出色。