JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

重複賽局與合作

在一次性賽局裡,背叛取勝,合作消亡。可一旦把同一場賽局一遍遍重複地玩下去,「我們還會再見面」就成了一股安靜而強大的經濟力量——強到足以讓對手在沒有任何合約的情況下也信守承諾。

同一場賽局,玩兩次——再到永遠

在本階前面,[[prisoners-dilemma|囚徒困境]]給出了一個黯淡的結論。兩個本來*都*會因合作而更好的玩家,各自卻發現背叛才是自己的優勢策略——不管對方怎麼做,背叛都是最優應對——於是兩人都背叛,結果雙雙更糟。可這個陰鬱的結局,悄悄假設了一件事:這場賽局只玩*一次*,由從此永不相見的陌生人來玩。現在把這個假設放鬆一下。假如這兩個人明天又坐下來玩同一個困境,後天還玩,並且只要其中一人能預見到的未來都還在玩,又會怎樣?

由同一批玩家一次次反覆玩下去的賽局,就是[[repeated-games-tit-for-tat|重複賽局]],它會改變一切。在一次性的相遇裡,今天的背叛沒有任何「明天」來追究它。可在重複賽局裡卻有:現在使詐,往後的每一輪你都可能為此付出代價。正是這一個差別——*未來懸在當下頭頂*——讓合作得以在那個本會一擊毀掉它的困境裡存活。經濟學家把這逼近的未來稱作未來的陰影,它正是貫穿這整篇文章的、那位安靜的主角。

以牙還牙:友善,但絕不當軟柿子

未來究竟是怎樣管住一個騙子的?靠的是一個*策略*——一條規定「給定迄今為止發生的一切、本輪該怎麼做」的法則。其中最負盛名的,就是以牙還牙,它簡單到近乎令人發笑:第一輪,合作;此後的每一輪,對方上一次怎麼對你,你這一次就怎麼對他。對合作者報以合作,對背叛過你的人報以背叛,而一旦對方回頭合作,你便立刻原諒。整條法則,就這麼多。

20 世紀 70 年代末,政治學家羅伯特·阿克塞爾羅德辦了一場著名的錦標賽:他邀請各路專家提交電腦策略,讓它們彼此一輪接一輪地對玩重複囚徒困境。在幾十個精巧又狡詐的參賽者中,奪冠的竟是以牙還牙——所有程式裡最短的那一個。阿克塞爾羅德把它如此出色的原因,提煉成四條值得記住的特質:它*友善*(絕不率先背叛)、*會報復*(一遇背叛立刻懲罰,所以不是軟柿子)、*肯原諒*(對方一旦重新合作便停止懲罰,於是積怨不會層層升級)、且*清晰*(簡單到對手很快就學會:和它合作才划算)。

耐心的算術

合作能存活下來,並非什麼魔法,而是一道算術題,它的關鍵在於把*今天*一筆肥厚的收益,去和*往後*許多筆較小的損失相權衡。這正是賽局理論從金融裡借來一件你早已見過的工具之處:未來的一筆收益,不如此刻同樣的一筆值錢,所以在把它們加總之前,我們要把每一個未來回合縮小——也就是折現。你越看重未來(越有耐心、且賽局越可能繼續下去),那些未來回合的分量就越重,一次性的使詐也就讓你付出越大的代價。

我們用一個小小的困境把它具體化。每一輪,雙方合作,各得 3;若你背叛一個合作者,那一輪你搶到 5(但此後對方永遠報復);雙方都背叛,則各只得 1。再假設,為了讓未來不熄滅,每一輪有 90% 的機率會繼續進入下一輪。永遠合作的價值是每輪 3,用一條持續收益流的現值來算,等於 3 ÷(1 − 0.9)= 30。而背叛一次,今天淨得 5,但此後你和你的受害者就永遠以 1 互相背叛下去——大致是先拿 5、再拖著一長串的 1,合計約為 14。三十勝過十四,於是合作獲勝。

Per-round payoffs:   both cooperate = 3   betray a cooperator = 5
                     both betray   = 1   (the punishment forever)

Keep cooperating forever:   3 + 3(0.9) + 3(0.9^2) + ...  = 3/(1-0.9) = 30
Betray once, punished after: 5 + 1(0.9) + 1(0.9^2) + ...  ~= 5 + 9    = 14

   30  >  14   ->  cooperation is the better deal

Now make the future shaky: chance of continuing = 0.4
Keep cooperating:  3/(1-0.4)            = 5
Betray once:       5 + 1*(0.4/(1-0.4))  ~= 5.7

   5  <  5.7   ->  betrayal now pays.  The shadow of the future shrank.
同一個困境,兩種未來。當賽局極可能繼續(90%)時,合作那條長長的尾巴(30)讓一次速成的背叛(14)相形見絀。把繼續的機率降到很低(40%),算術就翻轉過來——背叛變得划算。合作是生是死,全看未來的分量有多重。

把這兩種情形裡的寓意讀出來。當未來分量很重時,合作那份持久的回報,淹沒了使詐那一次性的獎品,於是連純粹自利的玩家也會信守承諾。把未來縮小——讓賽局很可能馬上結束,或讓玩家變得沒耐心——算式便翻轉:快搶一把勝出,合作隨之崩塌。合作無關乎善良;它關乎的是:未來是否珍貴到值得去守護。

聲譽、報復,與可信的威脅

以牙還牙真正握在手裡的,是一記威脅:你合作,我就合作;你跟我作對,我就懲罰你。可威脅要改變行為,前提是對手相信你真的會動手——它必須是一記[[credible-threat-and-commitment|可信的威脅]],正是你在序貫賽局那一篇裡見過的概念。讓威脅變得可信的,正是重複本身。在一次性賽局裡,立誓「你要背叛我,我就懲罰你」是空話,因為根本沒有「後來那一輪」可供你去懲罰。把賽局重複起來,懲罰那一輪便貨真價實,你願意動手的姿態擺在明處,威脅這才真正咬人。

在一輪輪可信威脅的累積之上,會生長出更宏大的東西:聲譽。如果你已經合作了一百次,下一位夥伴不必合約也信得過你;如果你向來懲罰騙子,便沒人敢冒險來騙你。聲譽,實質上就是未來回過頭來治理當下——你過去的所作所為,成了關於你未來行為的一紙承諾。這正是為什麼企業會守護自己的品牌,為什麼在一個人人都會再來的集市裡商販往往老實交易,也是為什麼一次背叛能在一天之內,毀掉花了數年才築起的東西。失去聲譽的威脅,往往比任何法庭都更兇悍的執法者。

這套邏輯也照亮了上一階裡的一個謎題。像歐佩克這樣的[[cartel-and-collusion|卡特爾]],本質上是一場重複的囚徒困境:每個成員都被誘惑去偷偷超額生產,可不少卡特爾卻能維繫數年之久。怎麼做到的?因為成員們一次次再相見、彼此盯著對方的產量、隨時準備報復——以放量充斥市場來懲罰使詐者——於是未來的陰影把每一個(大體上)按住在陣腳裡。同樣這套機器,也撐起了幾家從不簽任何東西的企業之間那種心照不宣的合作:人人都清楚,今天去搶市場份額,明天就招來一場價格戰。

最後一輪,以及其他誠實的裂縫

這裡有一個著名又令人不安的陷阱。假設賽局是重複的,但人人都知道它會在一個*固定*的最後一輪結束——比方說,恰好第 100 輪。在那最後一輪,已沒有任何未來可怕,於是背叛便是優勢策略,跟一次性賽局一模一樣。可如果雙方都知道自己會在第 100 輪背叛,那麼第 99 輪實際上也沒了未來,於是他們在那一輪也背叛——而這種逆向歸納會一路拆解到第 1 輪。這個令人發涼的結論是:在一個已知最後一輪的賽局裡,單憑自利無法維繫合作。真正讓未來的陰影不滅的,是那份開放無盡——不知道它何時結束。

退一步,體會我們已走出多遠。那個一次性的囚徒困境,似乎證明了理性的自利會注定我們彼此背叛。重複並沒有廢除那套邏輯——在最後一輪它依舊咬人——但它表明:「我們還會再見面」可以是一股真實的經濟力量,強到足以讓合作在沒有合約、沒有法庭、也無須善心的情況下自我執行。你最初遇到的那個觀念——一個誰都不想改變自己一步的穩定結局,即納什均衡——如今有了更豐富、也更懷希望的續篇:在重複賽局裡,「合作並隨時報復」本身,就可以成為那個穩定的結局。