JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

平均值與離散程度:你要掌握的頭兩個數字

同一個東西你量了五次,得到五個不同的結果。別慌——這很正常。本文教你用一個數字代表「中間值」、另一個代表「抖動」,把一列重複數據馴服。

五次嘗試,五個答案

想像你用一台靈敏的天平把同一枚小硬幣稱了五次,記下:4.01、4.03、3.99、4.02、4.00 克。硬幣沒變——是你的讀數變了。一些微小、不可預測的擾動(一陣氣流、天平的穩定過程、你放硬幣的確切位置)讓每個數字都略有不同。這種無法避免的抖動叫作隨機誤差,而重複值彼此靠得很近這件事,叫作重複性

把五個數字全報出來很誠實,但很笨拙。我們想要的是兩個彙總數字:一個回答「中間在哪裡?」,另一個回答「它們分散得有多開?」這兩個數字——平均值和標準差——是分析化學裡每一個結果的脊樑。

平均值:加起來,再除

平均值(日常說「平均」)是最簡單的中間值。把數字加起來,除以它們的個數。對我們的硬幣:4.01 + 4.03 + 3.99 + 4.02 + 4.00 = 20.05,再 20.05 ÷ 5 = 4.010 克。平均值是數據的平衡點——如果你把這些讀數堆在蹺蹺板上,它正好在這裡保持水平。

為什麼求平均有用?因為隨機誤差把一些讀數往上推、把另一些往下推。當你把它們相加時,向上的擾動和向下的擾動會部分抵消。你平均的重複次數越多,抵消得越徹底——這正是化學家不只測一次的根本原因。

當平均值說謊時:中位數

平均值有一個弱點:單個離譜的值會拖動它。假設你第五次稱重得到 4.40(你撞到了檯面)。即使有四個讀數擠在 4.01 附近,平均值也會跳到 4.090。中位數——把數字按大小排好後正中間的那個值——幾乎不動。排序後:4.01、4.02、4.03、4.40 加上其餘;正中間那個仍在 4.02 附近。中位數不在乎那個離譜值偏多遠,只在乎它落在哪一邊。

所以中位數是穩健的:它對單個壞點滿不在乎。對一組乾淨的重複數據,平均值和中位數會很接近,此時優先用平均值,因為它用上了每一個數字。但如果兩者相差很大,那就是個警示——你可能有一個可疑讀數值得調查(後面的指南會講怎麼檢驗它)。

標準差:量化抖動

現在輪到第二個數字。標準差(記作 s)回答「一個讀數離平均值,通常有多遠?」它幾乎就是這些偏差的普通平均——只是有兩個出於充分數學原因而存在的小轉折。

  1. 求每個讀數到平均值的距離(4.01 − 4.010 = 0.000,4.03 − 4.010 = +0.020,依此類推)。
  2. 把每個距離平方。平方讓負數變正(這樣它們不會相互抵消),並且對大偏差的懲罰比小偏差更重。
  3. 把這些平方相加再相除——但除以 (n − 1),而不是 n。五個讀數就除以 4。這個結果就是變異數。
  4. 開平方根,回到克的單位。這個平方根就是標準差——這裡約為 0.0158 克。

在開平方根之前,那個量就是變異數。變異數的單位是平方單位(克²),不好直觀想像,所以我們通常改報標準差。為什麼除以 (n − 1) 而不是 n?因為你用數據本身算出了平均值,已經「花掉」了一點資訊;除以較小的那個數能溫和地修正這一點,防止 s 算得偏小。你會在「自由度」裡再次遇到這個概念。

把離散程度放進語境:%RSD

標準差 0.016 克到底是好是壞?取決於你稱的是什麼。對一枚 4 克的硬幣,它微不足道;對一粒 0.02 克的微塵,它是災難。要公平地評判離散程度,就把 s 除以平均值再乘以 100。這就是相對標準差(%RSD),也叫變異係數。對硬幣:0.0158 ÷ 4.010 × 100 ≈ 0.39%——非常出色。