JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

相同還是不同?t 檢驗、F 檢驗與相關性

兩種方法給出了略微不同的平均值——這個差距是真實的,還是只是雜訊?統計檢驗把這種主觀判斷變成誠實的「是」或「否」,做法是先假設「什麼有趣的事都沒發生」。

懷疑者的出發點

一種更便宜的新方法給出平均含鐵量 9.87%;受信賴的參比方法給出 9.91%。兩者相差 0.04——但兩種方法都有散布,所以任何兩個平均值都會因純粹偶然而略有不同。成熟的問題是:0.04 比單憑偶然所能產生的差異更大嗎?要回答它,統計學家從一個故意「無聊」的假設出發。

這個假設就是虛無假設:「不存在真實差異;這個差距只是隨機散布。」一開始我們既不相信也不否定它——而是把它送上審判。然後一個檢驗追問:如果虛無假設為真,我的數據會有多令人意外?如果在「沒有差異」的前提下數據會非常令人意外,我們就拒絕虛無假設,斷定差異是真實的。

多意外才算「太意外」?這個門檻你要事先定好:顯著性水準,通常是 5%(記作 α = 0.05)。它是你願意接受的「在其實沒有差異時卻高喊『有差異!』」的機率——一次假警報。更小的 α 讓你更謹慎,但也更容易被一個真實的效應矇混過去。

t 檢驗:兩個平均值不同嗎?

t 檢驗在考慮散布的前提下比較兩個平均值。它的邏輯是一個比值:兩個平均值之差,除以這個差的不確定度。大差異搭配小散布給出大的 t——有說服力。小差異淹沒在大散布裡給出小的 t——沒說服力。你把算出的 t 與表裡的臨界 t 作比較,就像 Q 檢驗那樣。

當兩種方法的散布相近時,我們把它們的兩個標準差合併成一個更好的估計,叫作合併標準差。合併是合理的,因為兩組數據都在告訴你同一個底層的隨機誤差,所以把它們合在一起會帶來更多自由度,檢驗比單用任何一組都更銳利。

F 檢驗:兩個離散度不同嗎?

有時真正有趣的問題不在於平均值,而在於離散度。這種便宜的新方法是不是精密度更差——散布更大?F 檢驗通過取兩個變異數(標準差的平方)的比值來比較兩種精密度,並總是把較大的變異數放在分子上,使 F ≥ 1。

如果兩種方法精密度相當,它們的變異數大致相等,F 落在 1 附近。如果一種散布大得多,F 就遠爬過 1;一旦它超過表裡的臨界 F,你就斷定兩者精密度確實不同。F 檢驗也是 t 檢驗的把關人:你通常先用 F 檢查兩個散布是否足夠相近,以判斷一開始是否有理由合併它們的標準差

相關性:兩件事是否一起變動?

另一類問題:當一個量上升時,另一個量會隨之上升嗎?把儀器訊號對已知濃度作圖,你希望得到一條直線。相關係數(r)衡量這些點貼近一條直線的緊密程度。它從 −1 到 +1:r 接近 +1 表示緊密的上升直線,r 接近 −1 表示緊密的下降直線,r 接近 0 則表示一團沒有線性趨勢的散雲。

這些工具共享一種安靜的紀律。在看到結果之前就選好你的檢驗和顯著性水準,把虛無假設明白地寫出來,並如實報告結論,不管它是不是你期望的那個。正是這種紀律,把一堆數字變成了別人能夠信賴的結論。