相同還是不同？t 檢驗、F 檢驗與相關性

懷疑者的出發點

一種更便宜的新方法給出平均含鐵量 9.87%；受信賴的參比方法給出 9.91%。兩者相差 0.04——但兩種方法都有散布，所以任何兩個平均值都會因純粹偶然而略有不同。成熟的問題是：0.04 比單憑偶然所能產生的差異更大嗎？要回答它，統計學家從一個故意「無聊」的假設出發。

這個假設就是虛無假設：「不存在真實差異；這個差距只是隨機散布。」一開始我們既不相信也不否定它——而是把它送上審判。然後一個檢驗追問：如果虛無假設為真，我的數據會有多令人意外？如果在「沒有差異」的前提下數據會非常令人意外，我們就拒絕虛無假設，斷定差異是真實的。

多意外才算「太意外」？這個門檻你要事先定好：顯著性水準，通常是 5%（記作 α = 0.05）。它是你願意接受的「在其實沒有差異時卻高喊『有差異！』」的機率——一次假警報。更小的 α 讓你更謹慎，但也更容易被一個真實的效應矇混過去。

t 檢驗在考慮散布的前提下比較兩個平均值。它的邏輯是一個比值：兩個平均值之差，除以這個差的不確定度。大差異搭配小散布給出大的 t——有說服力。小差異淹沒在大散布裡給出小的 t——沒說服力。你把算出的 t 與表裡的臨界 t 作比較，就像 Q 檢驗那樣。

當兩種方法的散布相近時，我們把它們的兩個標準差合併成一個更好的估計，叫作合併標準差。合併是合理的，因為兩組數據都在告訴你同一個底層的隨機誤差，所以把它們合在一起會帶來更多自由度，檢驗比單用任何一組都更銳利。

有時真正有趣的問題不在於平均值，而在於離散度。這種便宜的新方法是不是精密度更差——散布更大？F 檢驗通過取兩個變異數（標準差的平方）的比值來比較兩種精密度，並總是把較大的變異數放在分子上，使 F ≥ 1。

如果兩種方法精密度相當，它們的變異數大致相等，F 落在 1 附近。如果一種散布大得多，F 就遠爬過 1；一旦它超過表裡的臨界 F，你就斷定兩者精密度確實不同。F 檢驗也是 t 檢驗的把關人：你通常先用 F 檢查兩個散布是否足夠相近，以判斷一開始是否有理由合併它們的標準差。

另一類問題：當一個量上升時，另一個量會隨之上升嗎？把儀器訊號對已知濃度作圖，你希望得到一條直線。相關係數（r）衡量這些點貼近一條直線的緊密程度。它從 −1 到 +1：r 接近 +1 表示緊密的上升直線，r 接近 −1 表示緊密的下降直線，r 接近 0 則表示一團沒有線性趨勢的散雲。

這些工具共享一種安靜的紀律。在看到結果之前就選好你的檢驗和顯著性水準，把虛無假設明白地寫出來，並如實報告結論，不管它是不是你期望的那個。正是這種紀律，把一堆數字變成了別人能夠信賴的結論。