重複賽局與合作

同一場賽局，玩兩次——再到永遠

在本階前面，[[prisoners-dilemma|囚徒困境]]給出了一個黯淡的結論。兩個本來*都*會因合作而更好的玩家，各自卻發現背叛才是自己的優勢策略——不管對方怎麼做，背叛都是最優應對——於是兩人都背叛，結果雙雙更糟。可這個陰鬱的結局，悄悄假設了一件事：這場賽局只玩*一次*，由從此永不相見的陌生人來玩。現在把這個假設放鬆一下。假如這兩個人明天又坐下來玩同一個困境，後天還玩，並且只要其中一人能預見到的未來都還在玩，又會怎樣？

由同一批玩家一次次反覆玩下去的賽局，就是[[repeated-games-tit-for-tat|重複賽局]]，它會改變一切。在一次性的相遇裡，今天的背叛沒有任何「明天」來追究它。可在重複賽局裡卻有：現在使詐，往後的每一輪你都可能為此付出代價。正是這一個差別——*未來懸在當下頭頂*——讓合作得以在那個本會一擊毀掉它的困境裡存活。經濟學家把這逼近的未來稱作未來的陰影，它正是貫穿這整篇文章的、那位安靜的主角。

以牙還牙：友善，但絕不當軟柿子

未來究竟是怎樣管住一個騙子的？靠的是一個*策略*——一條規定「給定迄今為止發生的一切、本輪該怎麼做」的法則。其中最負盛名的，就是以牙還牙，它簡單到近乎令人發笑：第一輪，合作；此後的每一輪，對方上一次怎麼對你，你這一次就怎麼對他。對合作者報以合作，對背叛過你的人報以背叛，而一旦對方回頭合作，你便立刻原諒。整條法則，就這麼多。

20 世紀 70 年代末，政治學家羅伯特·阿克塞爾羅德辦了一場著名的錦標賽：他邀請各路專家提交電腦策略，讓它們彼此一輪接一輪地對玩重複囚徒困境。在幾十個精巧又狡詐的參賽者中，奪冠的竟是以牙還牙——所有程式裡最短的那一個。阿克塞爾羅德把它如此出色的原因，提煉成四條值得記住的特質：它*友善*（絕不率先背叛）、*會報復*（一遇背叛立刻懲罰，所以不是軟柿子）、*肯原諒*（對方一旦重新合作便停止懲罰，於是積怨不會層層升級）、且*清晰*（簡單到對手很快就學會：和它合作才划算）。

耐心的算術

合作能存活下來，並非什麼魔法，而是一道算術題，它的關鍵在於把*今天*一筆肥厚的收益，去和*往後*許多筆較小的損失相權衡。這正是賽局理論從金融裡借來一件你早已見過的工具之處：未來的一筆收益，不如此刻同樣的一筆值錢，所以在把它們加總之前，我們要把每一個未來回合縮小——也就是折現。你越看重未來（越有耐心、且賽局越可能繼續下去），那些未來回合的分量就越重，一次性的使詐也就讓你付出越大的代價。

我們用一個小小的困境把它具體化。每一輪，雙方合作，各得 3；若你背叛一個合作者，那一輪你搶到 5（但此後對方永遠報復）；雙方都背叛，則各只得 1。再假設，為了讓未來不熄滅，每一輪有 90% 的機率會繼續進入下一輪。永遠合作的價值是每輪 3，用一條持續收益流的現值來算，等於 3 ÷（1 − 0.9）= 30。而背叛一次，今天淨得 5，但此後你和你的受害者就永遠以 1 互相背叛下去——大致是先拿 5、再拖著一長串的 1，合計約為 14。三十勝過十四，於是合作獲勝。

Per-round payoffs:   both cooperate = 3   betray a cooperator = 5
                     both betray   = 1   (the punishment forever)

Keep cooperating forever:   3 + 3(0.9) + 3(0.9^2) + ...  = 3/(1-0.9) = 30
Betray once, punished after: 5 + 1(0.9) + 1(0.9^2) + ...  ~= 5 + 9    = 14

   30  >  14   ->  cooperation is the better deal

Now make the future shaky: chance of continuing = 0.4
Keep cooperating:  3/(1-0.4)            = 5
Betray once:       5 + 1*(0.4/(1-0.4))  ~= 5.7

   5  <  5.7   ->  betrayal now pays.  The shadow of the future shrank.

同一個困境，兩種未來。當賽局極可能繼續（90%）時，合作那條長長的尾巴（30）讓一次速成的背叛（14）相形見絀。把繼續的機率降到很低（40%），算術就翻轉過來——背叛變得划算。合作是生是死，全看未來的分量有多重。

把這兩種情形裡的寓意讀出來。當未來分量很重時，合作那份持久的回報，淹沒了使詐那一次性的獎品，於是連純粹自利的玩家也會信守承諾。把未來縮小——讓賽局很可能馬上結束，或讓玩家變得沒耐心——算式便翻轉：快搶一把勝出，合作隨之崩塌。合作無關乎善良；它關乎的是：未來是否珍貴到值得去守護。

聲譽、報復，與可信的威脅

以牙還牙真正握在手裡的，是一記威脅：你合作，我就合作；你跟我作對，我就懲罰你。可威脅要改變行為，前提是對手相信你真的會動手——它必須是一記[[credible-threat-and-commitment|可信的威脅]]，正是你在序貫賽局那一篇裡見過的概念。讓威脅變得可信的，正是重複本身。在一次性賽局裡，立誓「你要背叛我，我就懲罰你」是空話，因為根本沒有「後來那一輪」可供你去懲罰。把賽局重複起來，懲罰那一輪便貨真價實，你願意動手的姿態擺在明處，威脅這才真正咬人。

在一輪輪可信威脅的累積之上，會生長出更宏大的東西：聲譽。如果你已經合作了一百次，下一位夥伴不必合約也信得過你；如果你向來懲罰騙子，便沒人敢冒險來騙你。聲譽，實質上就是未來回過頭來治理當下——你過去的所作所為，成了關於你未來行為的一紙承諾。這正是為什麼企業會守護自己的品牌，為什麼在一個人人都會再來的集市裡商販往往老實交易，也是為什麼一次背叛能在一天之內，毀掉花了數年才築起的東西。失去聲譽的威脅，往往比任何法庭都更兇悍的執法者。

這套邏輯也照亮了上一階裡的一個謎題。像歐佩克這樣的[[cartel-and-collusion|卡特爾]]，本質上是一場重複的囚徒困境：每個成員都被誘惑去偷偷超額生產，可不少卡特爾卻能維繫數年之久。怎麼做到的？因為成員們一次次再相見、彼此盯著對方的產量、隨時準備報復——以放量充斥市場來懲罰使詐者——於是未來的陰影把每一個（大體上）按住在陣腳裡。同樣這套機器，也撐起了幾家從不簽任何東西的企業之間那種心照不宣的合作：人人都清楚，今天去搶市場份額，明天就招來一場價格戰。

最後一輪，以及其他誠實的裂縫

這裡有一個著名又令人不安的陷阱。假設賽局是重複的，但人人都知道它會在一個*固定*的最後一輪結束——比方說，恰好第 100 輪。在那最後一輪，已沒有任何未來可怕，於是背叛便是優勢策略，跟一次性賽局一模一樣。可如果雙方都知道自己會在第 100 輪背叛，那麼第 99 輪實際上也沒了未來，於是他們在那一輪也背叛——而這種逆向歸納會一路拆解到第 1 輪。這個令人發涼的結論是：在一個已知最後一輪的賽局裡，單憑自利無法維繫合作。真正讓未來的陰影不滅的，是那份開放無盡——不知道它何時結束。

退一步，體會我們已走出多遠。那個一次性的囚徒困境，似乎證明了理性的自利會注定我們彼此背叛。重複並沒有廢除那套邏輯——在最後一輪它依舊咬人——但它表明：「我們還會再見面」可以是一股真實的經濟力量，強到足以讓合作在沒有合約、沒有法庭、也無須善心的情況下自我執行。你最初遇到的那個觀念——一個誰都不想改變自己一步的穩定結局，即納什均衡——如今有了更豐富、也更懷希望的續篇：在重複賽局裡，「合作並隨時報復」本身，就可以成為那個穩定的結局。