解释模型的预测

黑箱，以及我们一再追问的那个问题

走到这级阶梯，你已经知道深度网络是如何把输入变成输出的：成百上千万次乘法，流经一摞网络层，由梯度下降调好。你能描述每一步——却依然不知道模型*为什么*拒了这笔贷款、标记了这张片子。机制与意义之间的这道缝，正是可解释人工智能想要弥合的。它问的是一个谦卑而务实的问题：能不能给人讲一个关于某个决定的故事，帮他去信任、去核查、去质疑它？

答案有两种风味。有些模型「天生可解释」——一棵短小的决策树、一个线性公式，逻辑你能直接读出来，诚实却往往不那么准。其余的则是「事后」被解释的：你保留那个不透明的模型，再外挂一些工具，编出一个故事，灵活，却始终只是一个近似。本指南讲的多半是后一种，因为我们对着大模型用的正是它——而它自带一重危险，我们会一再回到这上头。

模型倚重了什么？特征重要性

最基本的问题莫过于此：在模型*本可以*关注的一切之中，究竟是什么真正撬动了它的答案？特征重要性给出一份名次。用面积、地段、房龄和油漆颜色来预测房价，一张好的重要性图会告诉你：面积和地段在驱动，而油漆颜色几乎排不上号。有两种诚实的问法。一种读模型内部——一棵树有多频繁地依某个特征来分叉。另一种，「置换重要性」，与模型无关：把某个特征的取值在整个数据集里打乱重排，看看准确率掉了多少。掉得多，说明模型是真的需要它。

这往往是团队最先抓到模型「作弊」的地方。如果「病人编号」竟成了预测疾病的头号因子，那一定出了岔子——模型攀附上的是一处数据泄漏，而非医学。这类捷径，正是本阶梯里鲁棒性工作要追猎的东西。但告诫很锋利：重要性告诉你的是模型*用了*什么，绝不是什么*导致了*结果。当特征彼此相关时，重要性会被令人困惑地抹匀在它们之间，而一个真正具因果性的特征，也可能因为某个与之虚假相关的邻居「抢了功劳」而排得很低。

为何是这一个决定？SHAP 与 LIME

特征重要性是*全局*的——它描述模型的总体。可那位被拒贷的人想要一个*局部*答案：为什么是我这一桩？这里有两种主导方法。SHAP借来博弈论的一道食谱：把预测当作奖金，每个特征当作一名队员，再把功劳公平地分下去——办法是，对队员加入的每一种可能顺序，把各自的边际贡献做平均。对某一个特定个案，SHAP报告每个特征相对于一个基准、把预测往上推或往下拉了多少——而这些推拉加起来*恰好*等于输出，这正是它被称为「加性」的缘由。

baseline churn        0.30
+ recent complaints  +0.25
+ month-to-month     +0.18
+ short tenure       +0.05
--------------------------
prediction            0.78  (= sum, exactly)

SHAP 对某一位客户的「加性」：每个特征一推一拉，加总起来精确等于那个预测。

LIME走的是另一条路：它搭一个小巧、简单的模型去模仿那个庞大的——但*只*在你这一个个案的紧邻处模仿。一条弯路，你若只盯着其中几英尺，它看上去是直的。于是 LIME 把你的输入反复抖动成许多略加改动的版本，去问黑箱对每一个的预测，再用一个易读的线性模型去拟合这些局部答案。出来的是一份简短清单：「被标为垃圾，主要因为『中奖』和『免费』，尽管也有『会议』。」关键在于：LIME 完全不需要模型的内部构造——它适用于*任何*模型，哪怕是一个你只能查询的大语言模型。

注意力的图像：显著性图与注意力陷阱

对图像而言，最直观的解释是一张显著性图：铺在输入之上的热力图，模型看得最用力的地方亮起来。最简单的版本问的是——我若把每个像素轻轻一推，答案会变多少？——它从模型的梯度读出，而那正是训练时所用的同一批导数。对一个把照片标成「狗」的卷积网络，你*希望*狗被点亮、草坪保持昏暗。当亮斑反落在背景上，你就抓到了一条捷径——那个著名的「狼还是雪」分类器，其实在检测的是雪。

领域在此学到了一份艰难的谦卑。有些流行的显著性方法，即便你把模型权重随机化成一堆胡言乱语，仍能产出看上去几乎一模一样的图——这意味着那张漂亮的图压根没在解释那个训练好的模型。所以请做这道健全性检查：如果随机化权重后图几乎没变，那这张图反映的是输入、或方法自身的怪癖，而不是模型。一张鲜明的热力图，并不自动就忠实；它可能是一扇真窗，也可能是一块罗夏墨迹，单凭「它看起来多合理」，你分辨不出。

Transformer 用一个免费的版本来诱惑我们。它的注意力机制早已算出一组权重，说明每个词对其他每个词「聚焦」多少——一张整齐的方格图就现成地摆在那儿，无需构造。把它读成注意力即解释，几乎让人无法抗拒：「模型把『bank』译成河岸，是因为它注意到了『river』。」可审慎研究发现，你常常能构造出完全*不同*的注意力模式，却产出一模一样的预测。如果两张互相矛盾的图给出同一个答案，那它们谁也当不成那答案的缘由。信息还会经由其他路径流动；注意力显示的是模型*关联了*什么，而非它*为何*决定。

人最关心的问题：反事实

至此每一种方法都试图剖解模型。反事实解释偏不，它回答的是人真正会问的那个问题：「得改变什么，决定才会翻转？」不是「这是你的特征权重」，而是「你的贷款被拒了；倘若你的年收入再高 5000 美元，它本会获批。」它解释一个决定，靠的不是打开箱子，而是给你看「答案翻转过来的那个最近的世界」——这正合人推敲事情的方式：靠一个个小小的「要是……会怎样」。

一个好的反事实是*最小的*（改动尽可能少）、*现实的*（你不能要求一个人去改年龄）、且*可行动的*（它指向某件那人真能去做的事）。当这三点都成立，它就成了*补救之道*——一条「下回如何拿到不同结果」的实用建议。它甚至能暴露偏见：「再多一年经验，就录取」是有用的；「倘若你再年轻五岁，就录取」则是年龄歧视的一面红旗，也是本阶梯同样要处理的算法偏见问题的一个对象。

反事实往往是最少误导的解释形式，因为它不假装揭示模型真正的内在逻辑——它只描述模型在某一个输入附近的行为，而这恰是受影响者所需要的。但诚实的告诫还是那一条：反事实告诉你的，是如何翻转*模型的*判决，而非如何改变你现实世界里的处境。如果模型倚仗的是一个虚假特征，那么对那个特征「做手脚」，翻得了答案，却改善不了任何真实的东西。一个反事实的可信度，不会超过它背后那个模型。

如何选择，又如何保持诚实

没有唯一的最佳方法，因为对不同的听众，「解释」意味着不同的东西。让工具去配问题：

模型总体上倚重什么？用特征重要性（或把 SHAP 在许多个案上汇总）——一个全局视角，适合审计与调试。
为何是这一次预测？用 SHAP 或 LIME 做一次局部拆解，看哪些特征推动了答案——适合数据科学家审视个案。
它在图像里看的是哪儿？用显著性图——但在信任它之前，先做权重随机化的健全性检查。
受影响的人该做什么？用反事实——最可行动、最面向人的答案，最好再就公平性把把关。

有一条红线贯穿每一种方法：这些都是*事后*的故事，而非模型真正的机制。它们可能不稳定、可能彼此打架、还可能被「做手脚」做得看上去公平，而底下的模型照旧胡来。给一个有偏见的模型画出一张自信满满的 SHAP 图，不过是把那份偏见解释得漂漂亮亮罢了。去读真正的计算这一更深的努力——机制可解释性，是下一篇的领地——更难，却更诚实。在那之前，把每一个解释都当作一个值得去查的审慎假设，永远别当定论。一个好的解释建立起恰如其分的透明与信任；一个油滑的解释则制造出虚假的信心。