纳什均衡 — JOVANA Education

当占优策略用尽时

前两讲你算是走运。囚徒困境之所以有个干净利落的答案，是因为每个玩家都有一个占优策略——无论对方怎么做都最优的那一招。当“坦白”对搭档的*每一种*选择都强过“沉默”时，你甚至不必去猜他会怎么做。但这种干净利落是罕见的。在大多数真实博弈里——给产品定价、约碰头的地点、决定要不要投资——你的最佳行动确实*取决于*对方的行动，而对方的又取决于你的。这正是相互依存的全部要害：没有哪一招对一切都最优。

所以我们需要一种新的答案——一种不依赖占优策略的答案。要问的问题不再是“对一切都最优的是什么？”，而是“有没有一组选择是*稳定*的——这样一组选择：一旦每个人都看到了其他人选了什么，没有谁会希望自己当初选得不一样？”一位名叫约翰·纳什的年轻数学家在 1950 年给出了这个问题精确而普适的答案，它把经济学重塑得如此彻底，以至于他凭此分享了 1994 年的诺贝尔经济学奖。这个答案就是纳什均衡。

对最佳回应的最佳回应

先从一块积木开始：最佳回应。把其他所有人正在做的事固定下来，然后问：“在恰恰是这种情形下，能让*我*赚得最多的那唯一一招是什么？”那一招就是我对他们选择的最佳回应。这是个谦逊的想法——它并不试图猜穿整个世界，只是把一个被冻结的情形回答到最优。而纳什均衡，就是这样一组选择：其中*每一位*玩家同时都在对其余所有人作出最佳回应。每个人回头看别人都做了什么，都会发现自己那一招原本就已经是力所能及的最优之选。

它的判定标准妙在极其具体，你可以亲手把它用到任何一张收益矩阵上。指着某一格——某一组选择——逐一问每个玩家：“在其他人选择都不变的前提下，单凭你自己换一招，能不能变得更好？”如果对*每一个*玩家答案都是“不能”，那这一格就是纳什均衡。哪怕只有一个玩家能在别人都按兵不动时、靠改换自己的招数而获利，这一格就不稳定——那个玩家会跳走，局面随之瓦解。均衡恰恰就是那个“任何一方单方面背离都无利可图”的地方。

亲手算一个出来

我们用一个取自真实市场的小例子把它钉死。两家咖啡馆——阿娃家和阿本家——本周各自选择把价格定为“低”或“高”。下面这张表格列出它们这一周的利润——第一个数字是阿娃的，第二个是阿本的。这不过是一张收益矩阵，读法和你早先学的一模一样。我们要用背离判定法、一格一格地把均衡找出来。

                      BEN: Low        BEN: High
  AVA: Low          Ava 30, Ben 30    Ava 50, Ben 20
  AVA: High         Ava 20, Ben 50    Ava 45, Ben 45

  Deviation check on (High, High) = 45, 45:
    Ava alone switches to Low  -> 50 > 45  : Ava WILL deviate
  So (High, High) is NOT a Nash equilibrium.

  Deviation check on (Low, Low) = 30, 30:
    Ava alone switches to High -> 20 < 30  : Ava stays
    Ben alone switches to High -> 20 < 30  : Ben stays
  Nobody gains by moving alone -> (Low, Low) IS the Nash equilibrium.

稳定的结果是（低，低），各得 30——尽管两家在（高，高）那一格都能赚 45。每一家都禁不住想降价抢客，于是那个其乐融融的高价格子塌掉了。

好好盯着这张表刚才告诉我们的事。两家显然都更想要（高，高）那个世界——各得 45 胜过各得 30。然而那个更好的世界*不是*均衡，因为从那里阿娃可以偷偷降到低价、抢到 50，而把 20 留给阿本。阿本料到的正是这一手，所以他也不会安心待在“高”。唯一的歇脚处是（低，低），两家都赚那个平庸的 30——而谁也无法靠单方面挪动来改善。如果这个形状让你觉得眼熟，那是应该的：这就是给囚徒困境贴上了价签，而“两家都定低价”正是它的纳什均衡。

稳定不等于美好

下面这条教训学生们觉得是真的震撼，值得牢牢记住。纳什均衡是*稳定*的，但未必*美好*——既不对社会而言美好，甚至不对身陷其中的玩家自己而言美好。在咖啡馆的例子里，（低，低）是均衡，它让两家都比（高，高）时更穷。均衡并不是市场奋力攀向的幸福归宿；它只不过是自利逻辑停下来歇脚的地方，哪怕那个歇脚处是个人人都恨不得逃离的陷阱。

这就是为什么纳什的思想能解释那么多从外面看显得不理性的事。军备竞赛就是一个纳什均衡：两国若都裁军，本会更安全也更富有，但既然*对方*有武装，各自的最佳回应就是也武装起来——于是谁都不敢停手。过度捕捞、交通拥堵、广告投放大战、价格战，全都共享着这副骨架。在别人都那样行事的前提下，每个当事人的举动都完全合情合理，而集体的结果却是无人想要的。均衡是那张诊断书；它精确地告诉你：为什么光有善意还逃不出来。

有时不止一个，有时一个都看不见

纳什均衡不一定唯一。许多博弈有*好几个*。设想两个朋友丢了手机，各自必须分别决定去两家咖啡馆中的哪一家等。两人都去北边那家就碰上了（很好）；都去南边那家也碰上了（同样很好）；要是分开走，各自孤零零地坐着（糟糕）。跑一遍背离判定：（北，北）是均衡——如果你朋友在北边，你的最佳回应也是北边。但按同样的逻辑，（南，南）*同样*是均衡。两个稳定结果，而理论本身没法告诉你这两个朋友最终会落在哪一个上。

这是一个协调博弈，多重均衡正是它的标志。当存在许多稳定结果时，难题就从“什么是稳定的？”转向“人们实际上会挑哪一个稳定点？”答案常常来自冷冰冰的收益*之外*的某种东西——一个共同的地标、一种习惯、一项约定俗成、那个就是显得格外突出的选项。（“我们一向在北边那家碰头。”）那个突出的选择叫作焦点，你会在后面讲协调的几讲里正式认识它。眼下只需记住这个转变：有了多重均衡，历史、文化和预期就开始变得和数字一样重要。

下面是纳什最深刻的贡献。你也许担心有些博弈*根本*没有均衡——想想剪刀石头布：对任何一个固定不变的出法，对手都有一招必胜的回应，所以没有哪个确定的选择是稳定的。纳什证明了：只要允许玩家*随机化*——在自己的各种招数上选一个概率组合，比如“三分之一的时候出石头”——那么*每一个*有限博弈都至少有一个均衡。在剪刀石头布里，那就是“每个选项各以三分之一的概率随机出”，没人能占到便宜。正是这条存在性定理让这个概念变得普适，而它也正是那项赢得诺贝尔奖的数学。

这个概念能保证什么、不能保证什么

把纳什均衡吹过头是很容易的，所以让我们诚实地看待它的局限。这个概念告诉你哪些结果*可能*持续下去，却并不总能告诉你玩家是*怎样*走到那里的，也无法告诉你——当存在好几个时——他们最终会停在哪一个上。它是关于歇脚点的预测，而不是一份对弈的食谱。经济学家有理由争论：现实中的人在一场博弈里、尤其是复杂的博弈里，第一次尝试就真正抵达均衡的频率究竟有多高。这个概念的威力在于描述与诊断；当成水晶球用时，它最为薄弱。

还有一个内置的假设值得点明：标准分析依赖于理性选择——玩家理解各种收益、并稳稳地挑出自己的最佳回应。行为经济学（你会在阶梯后面学到）记录了真实的人偏离这一理想的种种方式：他们误判概率、看重公平、会犯错，也在意别人怎么想。这些都不会让纳什均衡变得没用——它仍是不可或缺的第一重透镜。但要像水手看待海图那样看待它：一张忠实标出各处稳定港湾的地图，而不是对航程的担保，更绝不能替代去看真实的水面。