重复博弈与合作

同一场博弈，玩两次——再到永远

在本阶前面，[[prisoners-dilemma|囚徒困境]]给出了一个黯淡的结论。两个本来*都*会因合作而更好的玩家，各自却发现背叛才是自己的占优策略——不管对方怎么做，背叛都是最优应对——于是两人都背叛，结果双双更糟。可这个阴郁的结局，悄悄假设了一件事：这场博弈只玩*一次*，由从此永不相见的陌生人来玩。现在把这个假设放松一下。假如这两个人明天又坐下来玩同一个困境，后天还玩，并且只要其中一人能预见到的未来都还在玩，又会怎样？

由同一批玩家一次次反复玩下去的博弈，就是[[repeated-games-tit-for-tat|重复博弈]]，它会改变一切。在一次性的相遇里，今天的背叛没有任何“明天”来追究它。可在重复博弈里却有：现在使诈，往后的每一轮你都可能为此付出代价。正是这一个差别——*未来悬在当下头顶*——让合作得以在那个本会一击毁掉它的困境里存活。经济学家把这逼近的未来称作未来的阴影，它正是贯穿这整篇文章的、那位安静的主角。

以牙还牙：友善，但绝不当软柿子

未来究竟是怎样管住一个骗子的？靠的是一个*策略*——一条规定“给定迄今为止发生的一切、本轮该怎么做”的法则。其中最负盛名的，就是以牙还牙，它简单到近乎令人发笑：第一轮，合作；此后的每一轮，对方上一次怎么对你，你这一次就怎么对他。对合作者报以合作，对背叛过你的人报以背叛，而一旦对方回头合作，你便立刻原谅。整条法则，就这么多。

20 世纪 70 年代末，政治学家罗伯特·阿克塞尔罗德办了一场著名的锦标赛：他邀请各路专家提交计算机策略，让它们彼此一轮接一轮地对玩重复囚徒困境。在几十个精巧又狡诈的参赛者中，夺冠的竟是以牙还牙——所有程序里最短的那一个。阿克塞尔罗德把它如此出色的原因，提炼成四条值得记住的特质：它*友善*（绝不率先背叛）、*会报复*（一遇背叛立刻惩罚，所以不是软柿子）、*肯原谅*（对方一旦重新合作便停止惩罚，于是积怨不会层层升级）、且*清晰*（简单到对手很快就学会：和它合作才划算）。

耐心的算术

合作能存活下来，并非什么魔法，而是一道算术题，它的关键在于把*今天*一笔肥厚的收益，去和*往后*许多笔较小的损失相权衡。这正是博弈论从金融里借来一件你早已见过的工具之处：未来的一笔收益，不如此刻同样的一笔值钱，所以在把它们加总之前，我们要把每一个未来回合缩小——也就是折现。你越看重未来（越有耐心、且博弈越可能继续下去），那些未来回合的分量就越重，一次性的使诈也就让你付出越大的代价。

我们用一个小小的困境把它具体化。每一轮，双方合作，各得 3；若你背叛一个合作者，那一轮你抢到 5（但此后对方永远报复）；双方都背叛，则各只得 1。再假设，为了让未来不熄灭，每一轮有 90% 的概率会继续进入下一轮。永远合作的价值是每轮 3，用一条持续收益流的现值来算，等于 3 ÷（1 − 0.9）= 30。而背叛一次，今天净得 5，但此后你和你的受害者就永远以 1 互相背叛下去——大致是先拿 5、再拖着一长串的 1，合计约为 14。三十胜过十四，于是合作获胜。

Per-round payoffs:   both cooperate = 3   betray a cooperator = 5
                     both betray   = 1   (the punishment forever)

Keep cooperating forever:   3 + 3(0.9) + 3(0.9^2) + ...  = 3/(1-0.9) = 30
Betray once, punished after: 5 + 1(0.9) + 1(0.9^2) + ...  ~= 5 + 9    = 14

   30  >  14   ->  cooperation is the better deal

Now make the future shaky: chance of continuing = 0.4
Keep cooperating:  3/(1-0.4)            = 5
Betray once:       5 + 1*(0.4/(1-0.4))  ~= 5.7

   5  <  5.7   ->  betrayal now pays.  The shadow of the future shrank.

同一个困境，两种未来。当博弈极可能继续（90%）时，合作那条长长的尾巴（30）让一次速成的背叛（14）相形见绌。把继续的概率降到很低（40%），算术就翻转过来——背叛变得划算。合作是生是死，全看未来的分量有多重。

把这两种情形里的寓意读出来。当未来分量很重时，合作那份持久的回报，淹没了使诈那一次性的奖品，于是连纯粹自利的玩家也会信守承诺。把未来缩小——让博弈很可能马上结束，或让玩家变得没耐心——算式便翻转：快抢一把胜出，合作随之崩塌。合作无关乎善良；它关乎的是：未来是否珍贵到值得去守护。

声誉、报复，与可信的威胁

以牙还牙真正握在手里的，是一记威胁：你合作，我就合作；你跟我作对，我就惩罚你。可威胁要改变行为，前提是对手相信你真的会动手——它必须是一记[[credible-threat-and-commitment|可信的威胁]]，正是你在序贯博弈那一篇里见过的概念。让威胁变得可信的，正是重复本身。在一次性博弈里，立誓“你要背叛我，我就惩罚你”是空话，因为根本没有“后来那一轮”可供你去惩罚。把博弈重复起来，惩罚那一轮便货真价实，你愿意动手的姿态摆在明处，威胁这才真正咬人。

在一轮轮可信威胁的累积之上，会生长出更宏大的东西：声誉。如果你已经合作了一百次，下一位伙伴不必合约也信得过你；如果你向来惩罚骗子，便没人敢冒险来骗你。声誉，实质上就是未来回过头来治理当下——你过去的所作所为，成了关于你未来行为的一纸承诺。这正是为什么企业会守护自己的品牌，为什么在一个人人都会再来的集市里商贩往往老实交易，也是为什么一次背叛能在一天之内，毁掉花了数年才筑起的东西。失去声誉的威胁，往往比任何法庭都更凶悍的执法者。

这套逻辑也照亮了上一阶里的一个谜题。像欧佩克这样的[[cartel-and-collusion|卡特尔]]，本质上是一场重复的囚徒困境：每个成员都被诱惑去偷偷超额生产，可不少卡特尔却能维系数年之久。怎么做到的？因为成员们一次次再相见、彼此盯着对方的产量、随时准备报复——以放量充斥市场来惩罚使诈者——于是未来的阴影把每一个（大体上）按住在阵脚里。同样这套机器，也撑起了几家从不签任何东西的企业之间那种心照不宣的合作：人人都清楚，今天去抢市场份额，明天就招来一场价格战。

最后一轮，以及其他诚实的裂缝

这里有一个著名又令人不安的陷阱。假设博弈是重复的，但人人都知道它会在一个*固定*的最后一轮结束——比方说，恰好第 100 轮。在那最后一轮，已没有任何未来可怕，于是背叛便是占优策略，跟一次性博弈一模一样。可如果双方都知道自己会在第 100 轮背叛，那么第 99 轮实际上也没了未来，于是他们在那一轮也背叛——而这种逆向归纳会一路拆解到第 1 轮。这个令人发凉的结论是：在一个已知最后一轮的博弈里，单凭自利无法维系合作。真正让未来的阴影不灭的，是那份开放无尽——不知道它何时结束。

退一步，体会我们已走出多远。那个一次性的囚徒困境，似乎证明了理性的自利会注定我们彼此背叛。重复并没有废除那套逻辑——在最后一轮它依旧咬人——但它表明：“我们还会再见面”可以是一股真实的经济力量，强到足以让合作在没有合约、没有法庭、也无须善心的情况下自我执行。你最初遇到的那个观念——一个谁都不想改变自己一步的稳定结局，即纳什均衡——如今有了更丰富、也更怀希望的续篇：在重复博弈里，“合作并随时报复”本身，就可以成为那个稳定的结局。