同一场博弈,玩两次——再到永远
在本阶前面,[[prisoners-dilemma|囚徒困境]]给出了一个黯淡的结论。两个本来*都*会因合作而更好的玩家,各自却发现背叛才是自己的占优策略——不管对方怎么做,背叛都是最优应对——于是两人都背叛,结果双双更糟。可这个阴郁的结局,悄悄假设了一件事:这场博弈只玩*一次*,由从此永不相见的陌生人来玩。现在把这个假设放松一下。假如这两个人明天又坐下来玩同一个困境,后天还玩,并且只要其中一人能预见到的未来都还在玩,又会怎样?
由同一批玩家一次次反复玩下去的博弈,就是[[repeated-games-tit-for-tat|重复博弈]],它会改变一切。在一次性的相遇里,今天的背叛没有任何“明天”来追究它。可在重复博弈里却有:现在使诈,往后的每一轮你都可能为此付出代价。正是这一个差别——*未来悬在当下头顶*——让合作得以在那个本会一击毁掉它的困境里存活。经济学家把这逼近的未来称作未来的阴影,它正是贯穿这整篇文章的、那位安静的主角。
以牙还牙:友善,但绝不当软柿子
未来究竟是怎样管住一个骗子的?靠的是一个*策略*——一条规定“给定迄今为止发生的一切、本轮该怎么做”的法则。其中最负盛名的,就是以牙还牙,它简单到近乎令人发笑:第一轮,合作;此后的每一轮,对方上一次怎么对你,你这一次就怎么对他。对合作者报以合作,对背叛过你的人报以背叛,而一旦对方回头合作,你便立刻原谅。整条法则,就这么多。
20 世纪 70 年代末,政治学家罗伯特·阿克塞尔罗德办了一场著名的锦标赛:他邀请各路专家提交计算机策略,让它们彼此一轮接一轮地对玩重复囚徒困境。在几十个精巧又狡诈的参赛者中,夺冠的竟是以牙还牙——所有程序里最短的那一个。阿克塞尔罗德把它如此出色的原因,提炼成四条值得记住的特质:它*友善*(绝不率先背叛)、*会报复*(一遇背叛立刻惩罚,所以不是软柿子)、*肯原谅*(对方一旦重新合作便停止惩罚,于是积怨不会层层升级)、且*清晰*(简单到对手很快就学会:和它合作才划算)。
耐心的算术
合作能存活下来,并非什么魔法,而是一道算术题,它的关键在于把*今天*一笔肥厚的收益,去和*往后*许多笔较小的损失相权衡。这正是博弈论从金融里借来一件你早已见过的工具之处:未来的一笔收益,不如此刻同样的一笔值钱,所以在把它们加总之前,我们要把每一个未来回合缩小——也就是折现。你越看重未来(越有耐心、且博弈越可能继续下去),那些未来回合的分量就越重,一次性的使诈也就让你付出越大的代价。
我们用一个小小的困境把它具体化。每一轮,双方合作,各得 3;若你背叛一个合作者,那一轮你抢到 5(但此后对方永远报复);双方都背叛,则各只得 1。再假设,为了让未来不熄灭,每一轮有 90% 的概率会继续进入下一轮。永远合作的价值是每轮 3,用一条持续收益流的现值来算,等于 3 ÷(1 − 0.9)= 30。而背叛一次,今天净得 5,但此后你和你的受害者就永远以 1 互相背叛下去——大致是先拿 5、再拖着一长串的 1,合计约为 14。三十胜过十四,于是合作获胜。
Per-round payoffs: both cooperate = 3 betray a cooperator = 5
both betray = 1 (the punishment forever)
Keep cooperating forever: 3 + 3(0.9) + 3(0.9^2) + ... = 3/(1-0.9) = 30
Betray once, punished after: 5 + 1(0.9) + 1(0.9^2) + ... ~= 5 + 9 = 14
30 > 14 -> cooperation is the better deal
Now make the future shaky: chance of continuing = 0.4
Keep cooperating: 3/(1-0.4) = 5
Betray once: 5 + 1*(0.4/(1-0.4)) ~= 5.7
5 < 5.7 -> betrayal now pays. The shadow of the future shrank.把这两种情形里的寓意读出来。当未来分量很重时,合作那份持久的回报,淹没了使诈那一次性的奖品,于是连纯粹自利的玩家也会信守承诺。把未来缩小——让博弈很可能马上结束,或让玩家变得没耐心——算式便翻转:快抢一把胜出,合作随之崩塌。合作无关乎善良;它关乎的是:未来是否珍贵到值得去守护。
声誉、报复,与可信的威胁
以牙还牙真正握在手里的,是一记威胁:你合作,我就合作;你跟我作对,我就惩罚你。可威胁要改变行为,前提是对手相信你真的会动手——它必须是一记[[credible-threat-and-commitment|可信的威胁]],正是你在序贯博弈那一篇里见过的概念。让威胁变得可信的,正是重复本身。在一次性博弈里,立誓“你要背叛我,我就惩罚你”是空话,因为根本没有“后来那一轮”可供你去惩罚。把博弈重复起来,惩罚那一轮便货真价实,你愿意动手的姿态摆在明处,威胁这才真正咬人。
在一轮轮可信威胁的累积之上,会生长出更宏大的东西:声誉。如果你已经合作了一百次,下一位伙伴不必合约也信得过你;如果你向来惩罚骗子,便没人敢冒险来骗你。声誉,实质上就是未来回过头来治理当下——你过去的所作所为,成了关于你未来行为的一纸承诺。这正是为什么企业会守护自己的品牌,为什么在一个人人都会再来的集市里商贩往往老实交易,也是为什么一次背叛能在一天之内,毁掉花了数年才筑起的东西。失去声誉的威胁,往往比任何法庭都更凶悍的执法者。
这套逻辑也照亮了上一阶里的一个谜题。像欧佩克这样的[[cartel-and-collusion|卡特尔]],本质上是一场重复的囚徒困境:每个成员都被诱惑去偷偷超额生产,可不少卡特尔却能维系数年之久。怎么做到的?因为成员们一次次再相见、彼此盯着对方的产量、随时准备报复——以放量充斥市场来惩罚使诈者——于是未来的阴影把每一个(大体上)按住在阵脚里。同样这套机器,也撑起了几家从不签任何东西的企业之间那种心照不宣的合作:人人都清楚,今天去抢市场份额,明天就招来一场价格战。
最后一轮,以及其他诚实的裂缝
这里有一个著名又令人不安的陷阱。假设博弈是重复的,但人人都知道它会在一个*固定*的最后一轮结束——比方说,恰好第 100 轮。在那最后一轮,已没有任何未来可怕,于是背叛便是占优策略,跟一次性博弈一模一样。可如果双方都知道自己会在第 100 轮背叛,那么第 99 轮实际上也没了未来,于是他们在那一轮也背叛——而这种逆向归纳会一路拆解到第 1 轮。这个令人发凉的结论是:在一个已知最后一轮的博弈里,单凭自利无法维系合作。真正让未来的阴影不灭的,是那份开放无尽——不知道它何时结束。
退一步,体会我们已走出多远。那个一次性的囚徒困境,似乎证明了理性的自利会注定我们彼此背叛。重复并没有废除那套逻辑——在最后一轮它依旧咬人——但它表明:“我们还会再见面”可以是一股真实的经济力量,强到足以让合作在没有合约、没有法庭、也无须善心的情况下自我执行。你最初遇到的那个观念——一个谁都不想改变自己一步的稳定结局,即纳什均衡——如今有了更丰富、也更怀希望的续篇:在重复博弈里,“合作并随时报复”本身,就可以成为那个稳定的结局。