解釋模型的預測

黑箱，以及我們一再追問的那個問題

走到這級階梯，你已經知道深度網路是如何把輸入變成輸出的：成百上千萬次乘法，流經一摞網路層，由梯度下降調好。你能描述每一步——卻依然不知道模型*為什麼*拒了這筆貸款、標記了這張片子。機制與意義之間的這道縫，正是可解釋人工智慧想要彌合的。它問的是一個謙卑而務實的問題：能不能給人講一個關於某個決定的故事，幫他去信任、去核查、去質疑它？

答案有兩種風味。有些模型「天生可解釋」——一棵短小的決策樹、一個線性公式，邏輯你能直接讀出來，誠實卻往往不那麼準。其餘的則是「事後」被解釋的：你保留那個不透明的模型，再外掛一些工具，編出一個故事，靈活，卻始終只是一個近似。本指南講的多半是後一種，因為我們對著大模型用的正是它——而它自帶一重危險，我們會一再回到這上頭。

模型倚重了什麼？特徵重要性

最基本的問題莫過於此：在模型*本可以*關注的一切之中，究竟是什麼真正撬動了它的答案？特徵重要性給出一份名次。用面積、地段、房齡和油漆顏色來預測房價，一張好的重要性圖會告訴你：面積和地段在驅動，而油漆顏色幾乎排不上號。有兩種誠實的問法。一種讀模型內部——一棵樹有多頻繁地依某個特徵來分叉。另一種，「置換重要性」，與模型無關：把某個特徵的取值在整個資料集裡打亂重排，看看準確率掉了多少。掉得多，說明模型是真的需要它。

這往往是團隊最先抓到模型「作弊」的地方。如果「病人編號」竟成了預測疾病的頭號因子，那一定出了岔子——模型攀附上的是一處資料洩漏，而非醫學。這類捷徑，正是本階梯裡穩健性工作要追獵的東西。但告誡很鋒利：重要性告訴你的是模型*用了*什麼，絕不是什麼*導致了*結果。當特徵彼此相關時，重要性會被令人困惑地抹勻在它們之間，而一個真正具因果性的特徵，也可能因為某個與之虛假相關的鄰居「搶了功勞」而排得很低。

為何是這一個決定？SHAP 與 LIME

特徵重要性是*全域*的——它描述模型的總體。可那位被拒貸的人想要一個*局部*答案：為什麼是我這一樁？這裡有兩種主導方法。SHAP借來博弈論的一道食譜：把預測當作獎金，每個特徵當作一名隊員，再把功勞公平地分下去——辦法是，對隊員加入的每一種可能順序，把各自的邊際貢獻做平均。對某一個特定個案，SHAP報告每個特徵相對於一個基準、把預測往上推或往下拉了多少——而這些推拉加起來*恰好*等於輸出，這正是它被稱為「加性」的緣由。

baseline churn        0.30
+ recent complaints  +0.25
+ month-to-month     +0.18
+ short tenure       +0.05
--------------------------
prediction            0.78  (= sum, exactly)

SHAP 對某一位客戶的「加性」：每個特徵一推一拉，加總起來精確等於那個預測。

LIME走的是另一條路：它搭一個小巧、簡單的模型去模仿那個龐大的——但*只*在你這一個個案的緊鄰處模仿。一條彎路，你若只盯著其中幾英尺，它看上去是直的。於是 LIME 把你的輸入反覆抖動成許多略加改動的版本，去問黑箱對每一個的預測，再用一個易讀的線性模型去擬合這些局部答案。出來的是一份簡短清單：「被標為垃圾，主要因為『中獎』和『免費』，儘管也有『會議』。」關鍵在於：LIME 完全不需要模型的內部構造——它適用於*任何*模型，哪怕是一個你只能查詢的大語言模型。

注意力的圖像：顯著性圖與注意力陷阱

對影像而言，最直觀的解釋是一張顯著性圖：鋪在輸入之上的熱力圖，模型看得最用力的地方亮起來。最簡單的版本問的是——我若把每個像素輕輕一推，答案會變多少？——它從模型的梯度讀出，而那正是訓練時所用的同一批導數。對一個把照片標成「狗」的卷積網路，你*希望*狗被點亮、草坪保持昏暗。當亮斑反落在背景上，你就抓到了一條捷徑——那個著名的「狼還是雪」分類器，其實在檢測的是雪。

領域在此學到了一份艱難的謙卑。有些流行的顯著性方法，即便你把模型權重隨機化成一堆胡言亂語，仍能產出看上去幾乎一模一樣的圖——這意味著那張漂亮的圖壓根沒在解釋那個訓練好的模型。所以請做這道健全性檢查：如果隨機化權重後圖幾乎沒變，那這張圖反映的是輸入、或方法自身的怪癖，而不是模型。一張鮮明的熱力圖，並不自動就忠實；它可能是一扇真窗，也可能是一塊羅夏墨跡，單憑「它看起來多合理」，你分辨不出。

Transformer 用一個免費的版本來誘惑我們。它的注意力機制早已算出一組權重，說明每個詞對其他每個詞「聚焦」多少——一張整齊的方格圖就現成地擺在那兒，無需構造。把它讀成注意力即解釋，幾乎讓人無法抗拒：「模型把『bank』譯成河岸，是因為它注意到了『river』。」可審慎研究發現，你常常能構造出完全*不同*的注意力模式，卻產出一模一樣的預測。如果兩張互相矛盾的圖給出同一個答案，那它們誰也當不成那答案的緣由。資訊還會經由其他路徑流動；注意力顯示的是模型*關聯了*什麼，而非它*為何*決定。

人最關心的問題：反事實

至此每一種方法都試圖剖解模型。反事實解釋偏不，它回答的是人真正會問的那個問題：「得改變什麼，決定才會翻轉？」不是「這是你的特徵權重」，而是「你的貸款被拒了；倘若你的年收入再高 5000 美元，它本會獲批。」它解釋一個決定，靠的不是打開箱子，而是給你看「答案翻轉過來的那個最近的世界」——這正合人推敲事情的方式：靠一個個小小的「要是……會怎樣」。

一個好的反事實是*最小的*（改動盡可能少）、*現實的*（你不能要求一個人去改年齡）、且*可行動的*（它指向某件那人真能去做的事）。當這三點都成立，它就成了*補救之道*——一條「下回如何拿到不同結果」的實用建議。它甚至能暴露偏見：「再多一年經驗，就錄取」是有用的；「倘若你再年輕五歲，就錄取」則是年齡歧視的一面紅旗，也是本階梯同樣要處理的演算法偏見問題的一個對象。

反事實往往是最少誤導的解釋形式，因為它不假裝揭示模型真正的內在邏輯——它只描述模型在某一個輸入附近的行為，而這恰是受影響者所需要的。但誠實的告誡還是那一條：反事實告訴你的，是如何翻轉*模型的*判決，而非如何改變你現實世界裡的處境。如果模型倚仗的是一個虛假特徵，那麼對那個特徵「做手腳」，翻得了答案，卻改善不了任何真實的東西。一個反事實的可信度，不會超過它背後那個模型。

如何選擇，又如何保持誠實

沒有唯一的最佳方法，因為對不同的聽眾，「解釋」意味著不同的東西。讓工具去配問題：

模型總體上倚重什麼？用特徵重要性（或把 SHAP 在許多個案上彙總）——一個全域視角，適合稽核與除錯。
為何是這一次預測？用 SHAP 或 LIME 做一次局部拆解，看哪些特徵推動了答案——適合資料科學家審視個案。
它在影像裡看的是哪兒？用顯著性圖——但在信任它之前，先做權重隨機化的健全性檢查。
受影響的人該做什麼？用反事實——最可行動、最面向人的答案，最好再就公平性把把關。

有一條紅線貫穿每一種方法：這些都是*事後*的故事，而非模型真正的機制。它們可能不穩定、可能彼此打架、還可能被「做手腳」做得看上去公平，而底下的模型照舊胡來。給一個有偏見的模型畫出一張自信滿滿的 SHAP 圖，不過是把那份偏見解釋得漂漂亮亮罷了。去讀真正的計算這一更深的努力——機制可解釋性，是下一篇的領地——更難，卻更誠實。在那之前，把每一個解釋都當作一個值得去查的審慎假設，永遠別當定論。一個好的解釋建立起恰如其分的透明與信任；一個油滑的解釋則製造出虛假的信心。