資料洩漏與其他陷阱

當漂亮的分數是個謊言

讀到這一階，你已經熟悉那套流程了：收集一個資料集，把它劃分開，訓練一個模型，然後讀出一個數字。陷阱在於：你相信了那個數字。一個模型可以在你的測試集上跑出耀眼的分數，卻在真正面對使用者的那一天慘敗——不是因為數學算錯了，而是因為評估悄悄騙了你。本指南講的，就是這種「騙局」悄悄潛入的那幾種微妙方式，以及如何在它讓你付出代價之前抓住它。

貫穿本指南所有陷阱的核心思想是這樣的：模型只會學到你的資料教給它的東西，而你的測試分數只有在測試誠實地模擬了未來時才有意義。只要破壞其中任何一條——給模型一個它在生產環境中根本拿不到的提示，或者用一份並不像真實世界的資料去測試它——分數就變成了一場戲。模型學到的不是這項任務，而是你的錯誤。

資料洩漏：來自未來的資訊

最危險的陷阱是資料洩漏：在預測時本不該拿到的資訊，偷偷溜進了模型訓練所用的特徵裡。模型歡歡喜喜地用上這個提示，在測試時跑出漂亮分數，然後到了生產環境就崩了——因為在生產環境裡，那個提示不見了。洩漏之所以危險，恰恰因為它看起來像是成功。什麼都沒崩，只是指標在悄悄撒謊。

一個經典例子：你做一個模型來預測病人是否患某種病，而你的某個特徵是「曾被開過這種病的藥」。這當然幾乎完美地預測了該疾病——但那只是因為診斷早已發生。這個特徵是答案的替身，而不是你事先能掌握的線索。洩漏常常藏在這類「代理變數」裡：預測客戶流失時用上「距離取消訂閱的天數」、一個恰好按結果排序的行號、或者一個只有在事件發生後才存在的時間戳。

還有一個更鬼祟的「近親」，叫預處理洩漏。假設你給特徵做縮放——減去均值、除以標準差，這一步你在本階的資料清洗指南裡見過。如果你在劃分資料集之前，在整份資料上計算這個均值和標準差，那麼這些統計量就悄悄把測試集那些行的資訊帶進了訓練。解法是一種紀律：每一個變換都只在訓練資料上「擬合」，然後把這些凍結下來的數字套用到驗證集和測試集上。

# WRONG — statistics see the whole dataset, leaking test info
mean, std = compute_stats(all_data)
all_data = (all_data - mean) / std
train, test = split(all_data)

# RIGHT — fit on train only, then apply the frozen numbers
train, test = split(all_data)
mean, std = compute_stats(train)        # learned from train alone
train = (train - mean) / std
test  = (test  - mean) / std            # reuse, do not recompute

先劃分，再讓任何變換只在訓練集上擬合——然後在別處原封不動地複用這些數字。

被汙染的劃分：當訓練集和測試集其實是同一批

訓練/驗證/測試集劃分的全部意義，就是給模型留一份它從沒見過的「封存考卷」。「汙染」就是這道封條破了，測試集的碎片漏進了訓練，於是這場「考試」其實成了一場對著背好的答案開卷作答。結果是一個小得討喜的訓練—測試差距：模型看起來很會泛化，實則只是在背誦。

最常見的成因，是重複或近乎重複的行落到了劃分的兩邊——同一篇新聞被抓取了兩次、同一個客戶出現在兩筆交易裡、同一個物體從略微不同角度拍的好幾張照片。如果一份副本進了訓練集、它的「孿生兄弟」進了測試集，模型實際上早就見過答案了。劃分之前先去重；而當記錄是成組的（同一位病人、同一個使用者、同一份文件的所有行），就按「組」來劃分，讓整組都留在同一邊。

時間序列要格外當心。如果你的資料帶有時間順序——價格、點擊、天氣——千萬別隨機打亂再劃分，因為那等於讓模型用未來去訓練、來預測過去。一定要按時間先後劃分：用較早的資料訓練，用較晚的資料測試。同樣的警告也適用於交叉驗證；那套方便的隨機摺疊版本，一旦你的行是成組的或帶時間順序的，就會悄然失效，所以這時該換成「按組」或「按時間」的變體。

類別不平衡：當準確率說謊

想像一個詐欺偵測器，99.5% 的交易都是正當的。一個無論何時都只回答「不是詐欺」的模型，能拿到 99.5% 的準確率——卻恰好一筆詐欺都沒抓到。這就是類別不平衡：當一個類別的數量遠遠輾壓另一個時，準確率就變成一個好看卻沒用的數字，因為那個無聊的多數派答案，幾乎總是對的。

對策從更好的指標開始。別看準確率，要專門看模型在那個稀有類別上的表現：精確率（在它標記出來的樣本裡，有多少真是詐欺？）和召回率（在所有真實的詐欺裡，它抓到了多少？）。這兩者彼此此消彼長，誰更重要，取決於每種錯誤的代價——漏診一個腫瘤和一次虛驚，可不是一回事。也要和一個最樸素的基線作比較：如果「永遠預測多數派」本身就能拿 99.5%，那你的模型得跨過一道很高的門檻，才算有意義。

除了指標，你還能用重採樣來給資料本身「再平衡」——把稀有類別複製或合成出更多，或者削減多數類。用得審慎，它能幫模型把注意力放到少數類上。但要誠實面對它的局限：重採樣變不出本來就不存在的資訊，它可能助長「過度自信」，而且你只能對訓練集重採樣——絕不能動測試集，測試集應當保持真實世界的比例，你的評估才不會失真。

抽樣偏差：當你的資料不等於世界

哪怕劃分得乾乾淨淨、毫無洩漏，只要資料採自現實中錯誤的那一片，照樣會失敗。抽樣偏差，是你的訓練集與你真正要部署的那個母體之間存在系統性差異——而模型會忠實地學會這種偏斜。一個主要用某種口音訓練的語音助手，會在別的口音上吃力；一個用淺膚色訓練的皮膚癌偵測器，在深膚色上表現更差；一份只調查「會接電話的人」的問卷，漏掉了所有不接電話的人。這與資料集偏差緊密相關，而且不像洩漏，它能挺過你在留出測試集上的每一次檢查——因為測試集是以一模一樣的方式偏掉的。

抽樣偏差有個陰險的「表親」：偽相關——一種在你的資料裡湊巧成立、在普遍情況下卻不成立的規律。有個著名案例：一個圖像分類器以很高的準確率區分了哈士奇和狼——靠的卻是偵測背景裡的雪，因為那些狼的照片恰好都是雪景。模型走了捷徑：它找到一個在這份資料上管用的輕鬆信號，而這個信號會在一隻哈士奇站到雪地裡的那一刻碎掉。捷徑之所以誘人，恰恰因為它一邊抬高你的測試分數，一邊卻教會了模型錯誤的東西。

針對這些的防禦，一半是統計的，一半是人的判斷。把你資料的構成與真實母體做核對；按子群體把指標拆開來看，而不是信賴一個全域數字；並在模型上線後留意分布偏移，因為世界會隨時間一點點漂離你當初的那張快照。但沒有任何公式能替代你直白地問一句：這份資料裡缺了誰、缺了什麼，而它又可能被部署到哪些我從未抽樣過的地方？

一份實用清單

要躲開這些陷阱，都不需要高深的數學——需要的是紀律和懷疑心。每當一個結果看起來不錯時，尤其是當它看起來好極了時，把這份清單過一遍：

先劃分，再動手處理任何東西。每一個變換、缺失值填補、編碼，都只在訓練資料上擬合，然後把凍結的數字套用到驗證集和測試集上。
審問每一個特徵：「在做預測的那一刻，我真的能拿到這個值嗎？」如果不能，那就是洩漏——刪掉它。
去重、按組劃分、時間序列按時間先後劃分——絕不讓某一行或它的「孿生」同時出現在兩邊。
對不平衡資料，拋開準確率：報告精確率、召回率，以及一個樸素基線的得分。只對訓練集重採樣。
問問資料裡缺了誰，按子群體拆分指標，並把任何好得過頭的分數都當成「有罪推定」，直到證明它清白。

這正是如今人們所說的以資料為中心的 AI的核心：人們意識到，過了某個臨界點，最大的收益不來自更花俏的模型，而來自更乾淨、更公平、無洩漏的資料，以及一份你信得過的評估。一個樸實的模型配上誠實的資料，每一次都勝過一個出色的模型配上一個謊言——因為它們當中，只有一個在離開你的筆記型電腦之後還能繼續運作。