JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

囚徒困境與佔優策略

來認識有史以來被寫下的最著名的博弈:兩個人若是合作本會各自更好,可冷冰冰的個體邏輯卻把他倆一起拖進了更糟的結局。一旦看懂它,你會發現它無處不在——卡特爾裡、價格戰裡,還有大海被慢慢掏空的過程裡。

兩名嫌疑人,兩間上了鎖的房間

在這一階梯的第一篇裡,你學過任何博弈都有的那些零件:參與者、各自能走的招數,以及記錄每種招數組合下各人所得的收益矩陣。現在我們就用這些零件,去拆解一個具體而狡黠地簡單的博弈——囚徒困境——因為它是整個領域裡最有啟發性的那一個故事。關於「合作為何如此之難」,策略所能教給我們的幾乎一切,都藏在它裡頭。

經典的設定是這樣的。兩個同夥,阿達和阿本,被捕後分別關進兩間房,彼此無法通話。檢察官給每人開出同樣的條件。如果你出賣同夥(認罪)而對方保持沉默,你當場無罪釋放,對方判十年。如果你倆都沉默,檢察官只能給你們各自定一個輕罪——每人一年。但如果你倆都出賣對方,則各判八年。每人都得獨自決定,全然不知對方會怎麼選。

在我們碰任何數字之前,先留意它那殘忍的結構。*在一起*看,他倆最好的結果是都保持沉默——各判一年。可每個人私下裡都被出賣所誘惑,因為出賣也許能讓自己脫身。整齣戲,就活在「對這一對人有利」與「對個體有誘惑」這兩者之間的那道裂縫裡。讓我們把四種結局明明白白地擺出來,再一步步跟著每名囚徒的盤算往下走。

佔優策略:無論對方怎麼做,出賣都更划算

Years in prison (Ada's, Ben's) -- fewer is better

                       BEN stays silent   BEN betrays
ADA stays silent          1 , 1              10 , 0
ADA betrays               0 , 10              8 , 8

Ada's view, reading down each of Ben's choices:
  If Ben is SILENT: silent=1yr vs betray=0yr  -> betray is better
  If Ben BETRAYS  : silent=10yr vs betray=8yr -> betray is better
每個格子裡是(阿達的年數,阿本的年數)。無論阿本怎麼做,出賣都讓阿達刑期更輕——0 勝過 1,8 勝過 10。對阿本來說同樣如此。所以出賣是每名玩家對另一方*兩種*選擇的最佳回應。

把自己放進阿達的座位,一路推下來。她管不了阿本,於是她把阿本的兩種可能逐一考慮。*假設阿本沉默。*那麼她沉默得一年,出賣卻得零年——出賣勝出。*再假設阿本出賣。*那麼她沉默得十年,出賣卻得八年——出賣又一次勝出。在兩種情形裡,無論阿本可能怎麼做,阿達都是出賣更好。一種無論對方怎麼選都勝過其餘所有選項的招數,有個名字:佔優策略

困境的力道,來自這種對稱。從阿本那邊看,博弈一模一樣,所以出賣也是*他的*佔優策略。於是兩個謹慎、又只顧自身利益的思考者雙雙出賣——落進右下角那個格子,各判八年。可回頭看看矩陣:他倆若都沉默,本只需各服一年。他們各自無懈可擊的邏輯,卻把兩人一同送進了一個對雙方都顯然更糟的結局。這一記當頭重擊,就是囚徒困境,而那份驚訝始終不會真正消退。

陷阱為何牢不可破:一個穩定卻糟糕的均衡

你也許會抗議:他倆既然都看出彼此都能只判一年,那不就……合作就好了?殘酷的地方就在這裡。想像他們事先不知怎麼就約好了都沉默。此刻阿達坐在上了鎖的房裡盤算:「阿本答應沉默了。如果他守約,我出賣就能脫身——零年,而不是一年。」那個約定本身,反而*抬高*了她毀約的誘惑。而阿本在他的房間裡,對她想的是一模一樣的念頭。這個合作的協議並不穩定:每個人都有一個私下毀約的理由。

相比之下,雙雙出賣的結局卻穩如磐石。已經出賣、坐在那裡的阿達問自己:「既然阿本出賣了,我當初保持沉默會更好嗎?」不會——沉默會讓她判十年,而不是八年。她不後悔,沒有理由單方面改變自己的招數,阿本也一樣。一個沒有任何玩家能靠單獨改變自己的選擇而變好的結局,就是納什均衡——你在上一篇裡見過的那個核心解概念。這個博弈的悲劇在於:它唯一的納什均衡,恰恰是兩名玩家若能商量、最不願一同選擇的那個結局。

同一個陷阱,換上經濟的外衣

把監獄剝掉,這個結構便在整個經濟裡到處重現。想像同一航線上的兩家航空公司,正在決定票價定高還是定低。如果兩家都把票價定得高,它們就能分享一份豐厚的利潤。可每一家都被壓價所誘惑:把價降一點,你就搶走對手的客人、賺得更多——*只要對手還把價定高*。於是兩家都降價。票價崩塌,乘客歡呼,兩家航空公司最終落進「雙雙出賣」的格子:低票價、薄利潤,恰恰是誰都不想待的地方。這就是價格戰,一場穿著西裝的囚徒困境。

這正是為什麼一個卡特爾如此容易瓦解。寡頭市場裡寥寥幾家生產者——比方說一個石油卡特爾——約定把產量壓低,好讓價格保持在高位,就像所有囚徒約定都沉默一樣。可這份協議給了每個成員一個私下作弊的誘因:偷偷*多*抽一點,按其他人撐起來的高價賣出去。每個成員都感到這同一股拉力,於是配額被悄悄突破,產量節節攀升,卡特爾本想守住的那個高價,漸漸塌向競爭性的水平。卡特爾不是被敵人出賣的;它是被自利那再尋常不過的算術給消解掉的。

同樣的邏輯會掏空大海。想像許多漁船共用一片海洋——一種公共池塘資源。如果人人都適度捕撈,魚群就能補充更新、世世代代養活所有人。可每個船長都這樣盤算:「我留著不撈的魚,反正也會被別人下網撈走,那我現在撈了算了。」每個船長都這麼想,於是全都過度捕撈,共有的魚群隨之崩潰——讓每個人都落得比克制時更糟。這就是從兩名玩家放大到一整支船隊的囚徒困境,這個多人版本,我們會在後面的篇章裡再回來細看。

逃出陷阱的辦法——以及它們誠實的限度

如果困境無可逃脫,合作便不可能——然而航空公司有時確實守住價格,卡特爾有時確實維繫,漁場有時也確實被挽救。那麼玩家是怎麼爬出來的?最重要的那條逃生通道,是重複。上面那個一錘子買賣的版本之所以註定走向出賣,恰恰因為沒有明天。可如果你和同一個夥伴把同一個博弈反覆地玩,一股新的力量便出現了:今天的出賣,可能在此後的每一輪裡招來報復。

在這些重複博弈裡,一種驚人簡單的策略往往奏效:「以牙還牙」——第一輪先合作,此後每一輪只照搬對手上一輪的做法。你跟我合作,我就回敬合作;你出賣我,我下一輪就出賣你。當玩家足夠看重未來時,失去未來合作的那份逼近的威脅,可以蓋過作弊一次性的好處,於是穩定的合作就變得可能。這正是「反覆打交道才能建立信任」的正式內核,也解釋了為什麼長期的對手與鄰里之間,往往能在陌生人做不到合作的地方合作起來。

最後一道護欄。0/1/8/10 這組整齊的數字是一個模型,不是一次測量;把收益改一改,困境可能就整個消解了。而真實的人,並非故事所假定的那種冷冰冰的計算器——在實驗裡,許多人合作的程度遠超純粹自利所預測的,受公平、內疚、憤怒,或僅僅是信任對方所左右。囚徒困境之所以如此寶貴,不是因為它描述了所有人永遠如何行事,而是因為它以殘酷的清晰,分離出了合作之所以脆弱的那個確切緣由:當私人誘因與公共利益指向相反的方向時,好的結果要想存活下來,光有好意是不夠的。