納什均衡 — JOVANA Education

當占優策略用盡時

前兩講你算是走運。囚徒困境之所以有個乾淨俐落的答案，是因為每個玩家都有一個占優策略——無論對方怎麼做都最優的那一招。當「坦白」對搭檔的*每一種*選擇都強過「沉默」時，你甚至不必去猜他會怎麼做。但這種乾淨俐落是罕見的。在大多數真實賽局裡——給產品定價、約碰頭的地點、決定要不要投資——你的最佳行動確實*取決於*對方的行動，而對方的又取決於你的。這正是相互依存的全部要害：沒有哪一招對一切都最優。

所以我們需要一種新的答案——一種不依賴占優策略的答案。要問的問題不再是「對一切都最優的是什麼？」，而是「有沒有一組選擇是*穩定*的——這樣一組選擇：一旦每個人都看到了其他人選了什麼，沒有誰會希望自己當初選得不一樣？」一位名叫約翰·納什的年輕數學家在 1950 年給出了這個問題精確而普適的答案，它把經濟學重塑得如此徹底，以至於他憑此分享了 1994 年的諾貝爾經濟學獎。這個答案就是納什均衡。

對最佳回應的最佳回應

先從一塊積木開始：最佳回應。把其他所有人正在做的事固定下來，然後問：「在恰恰是這種情形下，能讓*我*賺得最多的那唯一一招是什麼？」那一招就是我對他們選擇的最佳回應。這是個謙遜的想法——它並不試圖猜穿整個世界，只是把一個被凍結的情形回答到最優。而納什均衡，就是這樣一組選擇：其中*每一位*玩家同時都在對其餘所有人作出最佳回應。每個人回頭看別人都做了什麼，都會發現自己那一招原本就已經是力所能及的最優之選。

它的判定標準妙在極其具體，你可以親手把它用到任何一張收益矩陣上。指著某一格——某一組選擇——逐一問每個玩家：「在其他人選擇都不變的前提下，單憑你自己換一招，能不能變得更好？」如果對*每一個*玩家答案都是「不能」，那這一格就是納什均衡。哪怕只有一個玩家能在別人都按兵不動時、靠改換自己的招數而獲利，這一格就不穩定——那個玩家會跳走，局面隨之瓦解。均衡恰恰就是那個「任何一方單方面背離都無利可圖」的地方。

親手算一個出來

我們用一個取自真實市場的小例子把它釘死。兩家咖啡館——阿娃家和阿本家——本週各自選擇把價格定為「低」或「高」。下面這張表格列出它們這一週的利潤——第一個數字是阿娃的，第二個是阿本的。這不過是一張收益矩陣，讀法和你早先學的一模一樣。我們要用背離判定法、一格一格地把均衡找出來。

                      BEN: Low        BEN: High
  AVA: Low          Ava 30, Ben 30    Ava 50, Ben 20
  AVA: High         Ava 20, Ben 50    Ava 45, Ben 45

  Deviation check on (High, High) = 45, 45:
    Ava alone switches to Low  -> 50 > 45  : Ava WILL deviate
  So (High, High) is NOT a Nash equilibrium.

  Deviation check on (Low, Low) = 30, 30:
    Ava alone switches to High -> 20 < 30  : Ava stays
    Ben alone switches to High -> 20 < 30  : Ben stays
  Nobody gains by moving alone -> (Low, Low) IS the Nash equilibrium.

穩定的結果是（低，低），各得 30——儘管兩家在（高，高）那一格都能賺 45。每一家都禁不住想降價搶客，於是那個其樂融融的高價格子塌掉了。

好好盯著這張表剛才告訴我們的事。兩家顯然都更想要（高，高）那個世界——各得 45 勝過各得 30。然而那個更好的世界*不是*均衡，因為從那裡阿娃可以偷偷降到低價、搶到 50，而把 20 留給阿本。阿本料到的正是這一手，所以他也不會安心待在「高」。唯一的歇腳處是（低，低），兩家都賺那個平庸的 30——而誰也無法靠單方面挪動來改善。如果這個形狀讓你覺得眼熟，那是應該的：這就是給囚徒困境貼上了價籤，而「兩家都定低價」正是它的納什均衡。

穩定不等於美好

下面這條教訓學生們覺得是真的震撼，值得牢牢記住。納什均衡是*穩定*的，但未必*美好*——既不對社會而言美好，甚至不對身陷其中的玩家自己而言美好。在咖啡館的例子裡，（低，低）是均衡，它讓兩家都比（高，高）時更窮。均衡並不是市場奮力攀向的幸福歸宿；它只不過是自利邏輯停下來歇腳的地方，哪怕那個歇腳處是個人人都恨不得逃離的陷阱。

這就是為什麼納什的思想能解釋那麼多從外面看顯得不理性的事。軍備競賽就是一個納什均衡：兩國若都裁軍，本會更安全也更富有，但既然*對方*有武裝，各自的最佳回應就是也武裝起來——於是誰都不敢停手。過度捕撈、交通壅塞、廣告投放大戰、價格戰，全都共享著這副骨架。在別人都那樣行事的前提下，每個當事人的舉動都完全合情合理，而集體的結果卻是無人想要的。均衡是那張診斷書；它精確地告訴你：為什麼光有善意還逃不出來。

有時不止一個，有時一個都看不見

納什均衡不一定唯一。許多賽局有*好幾個*。設想兩個朋友丟了手機，各自必須分別決定去兩家咖啡館中的哪一家等。兩人都去北邊那家就碰上了（很好）；都去南邊那家也碰上了（同樣很好）；要是分開走，各自孤零零地坐著（糟糕）。跑一遍背離判定：（北，北）是均衡——如果你朋友在北邊，你的最佳回應也是北邊。但按同樣的邏輯，（南，南）*同樣*是均衡。兩個穩定結果，而理論本身沒法告訴你這兩個朋友最終會落在哪一個上。

這是一個協調賽局，多重均衡正是它的標誌。當存在許多穩定結果時，難題就從「什麼是穩定的？」轉向「人們實際上會挑哪一個穩定點？」答案常常來自冷冰冰的收益*之外*的某種東西——一個共同的地標、一種習慣、一項約定俗成、那個就是顯得格外突出的選項。（「我們一向在北邊那家碰頭。」）那個突出的選擇叫作焦點，你會在後面講協調的幾講裡正式認識它。眼下只需記住這個轉變：有了多重均衡，歷史、文化和預期就開始變得和數字一樣重要。

下面是納什最深刻的貢獻。你也許擔心有些賽局*根本*沒有均衡——想想剪刀石頭布：對任何一個固定不變的出法，對手都有一招必勝的回應，所以沒有哪個確定的選擇是穩定的。納什證明了：只要允許玩家*隨機化*——在自己的各種招數上選一個概率組合，比如「三分之一的時候出石頭」——那麼*每一個*有限賽局都至少有一個均衡。在剪刀石頭布裡，那就是「每個選項各以三分之一的概率隨機出」，沒人能占到便宜。正是這條存在性定理讓這個概念變得普適，而它也正是那項贏得諾貝爾獎的數學。

這個概念能保證什麼、不能保證什麼

把納什均衡吹過頭是很容易的，所以讓我們誠實地看待它的局限。這個概念告訴你哪些結果*可能*持續下去，卻並不總能告訴你玩家是*怎樣*走到那裡的，也無法告訴你——當存在好幾個時——他們最終會停在哪一個上。它是關於歇腳點的預測，而不是一份對弈的食譜。經濟學家有理由爭論：現實中的人在一場賽局裡、尤其是複雜的賽局裡，第一次嘗試就真正抵達均衡的頻率究竟有多高。這個概念的威力在於描述與診斷；當成水晶球用時，它最為薄弱。

還有一個內置的假設值得點明：標準分析依賴於理性選擇——玩家理解各種收益、並穩穩地挑出自己的最佳回應。行為經濟學（你會在階梯後面學到）記錄了真實的人偏離這一理想的種種方式：他們誤判概率、看重公平、會犯錯，也在意別人怎麼想。這些都不會讓納什均衡變得沒用——它仍是不可或缺的第一重透鏡。但要像水手看待海圖那樣看待它：一張忠實標出各處穩定港灣的地圖，而不是對航程的擔保，更絕不能替代去看真實的水面。