露西和皮特從遙遠的太平洋島嶼返回,發現航空公司損壞了他們各自購買的相同的古董。一位航空公司經理說,他很樂意賠償他們,但他不瞭解這些奇怪物品的價值,因此感到為難。他認為,簡單地詢問旅客價格是沒用的,因為他們會虛報價格。
相反,他設計了一個更復雜的方案。他要求他們每個人寫下古董的價格,價格可以是 2 到 100 之間的任何美元整數,並且不能互相商量。如果兩人寫下相同的數字,他將認為那是真實的價格,並向他們每人支付該金額。但如果他們寫下不同的數字,他會認為較低的數字是實際價格,而寫較高數字的人是在作弊。在這種情況下,他將向他們兩人支付較低的數字,並加上獎金和懲罰——寫較低數字的人將獲得 2 美元的獎勵以表彰誠實,而寫較高數字的人將受到 2 美元的懲罰。例如,如果露西寫 46,皮特寫 100,露西將獲得 48 美元,皮特將獲得 44 美元。
露西和皮特會寫什麼數字?你會寫什麼數字?
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和思想的具有影響力的故事。
這種情景,即一個或多個人有選擇要做,並將根據這些選擇獲得獎勵,被研究它們的人(博弈論學家)稱為博弈。我在 1994 年設計了這個名為“旅行者的困境”的遊戲,目的有幾個:反駁經濟學家和許多政治科學家對理性行為和認知過程的狹隘看法,挑戰傳統經濟學的自由主義假設,並突出理性的邏輯悖論。
旅行者的困境(TD)實現了這些目標,因為遊戲的邏輯表明 2 是最佳選擇,但大多數人選擇 100 或接近 100 的數字——包括那些沒有想透邏輯的人和那些完全理解他們正在明顯偏離“理性”選擇的人。此外,玩家透過不以這種方式遵守理性而獲得更大的回報。因此,在玩“旅行者的困境”時,選擇不理性是有一定道理的。
自我設計這個遊戲以來的幾年裡,TD 已經有了自己的生命力,研究人員對其進行了擴充套件,並報告了實驗室實驗的發現。這些研究產生了對人類決策的深刻見解。然而,關於如何將邏輯和推理應用於 TD,仍然存在未解決的問題。
常識與納什
為了理解為什麼 2 是邏輯選擇,請考慮露西可能採取的一種合理的思路:她的第一個想法是她應該寫下儘可能大的數字 100,如果皮特也同樣貪婪,這將為她賺取 100 美元。(如果這件古董實際上花費遠低於 100 美元,她現在會很高興地想到航空公司經理的計劃有多麼愚蠢。)
然而,很快她意識到,如果她寫 99 而不是 100,她會賺更多的錢,因為那樣她會得到 101 美元。但可以肯定的是,皮特也會想到這一點,如果兩人都寫 99,露西就會得到 99 美元。如果皮特寫 99,那麼她可以透過寫 98 來做得更好,在這種情況下她會得到 100 美元。然而,同樣的邏輯也會導致皮特也選擇 98。在這種情況下,她可以偏離到 97 並賺取 99 美元。以此類推。繼續這種推理方式將使旅客螺旋式下降到最小的允許數字,即 2。露西真的會以這種方式一路降到 2,這似乎是難以置信的。但這並不重要(事實上,這正是重點)——這就是邏輯引導我們的方向。
博弈論學家通常使用這種分析風格,稱為逆向歸納法。逆向歸納法預測,每個玩家都會寫 2,他們最終每人都會得到 2 美元(這個結果可能解釋了為什麼航空公司經理在他的職業生涯中如此成功)。博弈論學家使用的幾乎所有模型都預測了 TD 的這種結果——如果兩個玩家都天真地選擇 100 而沒有考慮選擇較小數字的優勢,那麼他們獲得的收益將比現在少 98 美元。
旅行者的困境與更流行的囚徒困境有關,在囚徒困境中,兩名因重罪被捕的嫌疑人被分開審訊,每個人都可以選擇指證對方(以換取當局的寬大處理)或保持沉默(如果另一名囚犯也保持沉默,這將導致警方沒有足夠的證據立案)。這個故事聽起來與我們關於兩位紀念品受損的旅行者的故事截然不同,但囚徒困境中每個選項的獎勵的數學原理與 TD 的一個變體相同,在該變體中,每個玩家只能選擇 2 或 3,而不是 2 到 100 之間的每個整數。
博弈論學家分析博弈時,會去除所有彩色敘事的裝飾,而是研究每個博弈的所謂收益矩陣——一個包含關於每個玩家的潛在選擇和收益的所有相關資訊的正方形網格[參見對頁的方框]。露西的選擇對應於網格的一行,皮特的選擇對應於一列;選定方格中的兩個數字指定了他們的獎勵。
儘管名稱如此,但囚徒困境和旅行者的困境的雙重選擇版本並沒有給玩家帶來真正的困境。每個參與者都看到了明確的正確選擇,即 2(或者,用囚徒故事線的話來說,指證另一個人)。該選擇被稱為佔優選擇,因為無論其他玩家做什麼,這都是最好的選擇。透過選擇 2 而不是 3,如果皮特選擇 3,露西將獲得 4 美元而不是 3 美元;如果皮特選擇 2,她將獲得 2 美元而不是一無所獲。
相比之下,完整版本的 TD 沒有佔優選擇。如果皮特選擇 2 或 3,露西最好的選擇是 2。但如果皮特選擇 4 到 100 之間的任何數字,露西最好選擇大於 2 的數字。
在研究收益矩陣時,博弈論學家最常依賴納什均衡,納什均衡以普林斯頓大學的約翰·F·納什 Jr. 的名字命名。(羅素·克勞在電影《美麗心靈》中扮演了納什。)納什均衡是一種結果,任何玩家都無法透過單方面偏離該結果而做得更好。考慮 TD 中的結果 (100, 100)(第一個數字是露西的選擇,第二個是皮特的選擇)。如果露西將其選擇更改為 99,則結果將為 (99, 100),她將賺取 101 美元。由於露西透過這種改變變得更好,因此結果 (100, 100) 不是納什均衡。
博弈論預測,當理性地玩“旅行者的困境”時,納什均衡將會發生。
TD 只有一個納什均衡——結果 (2, 2),即露西和皮特都選擇 2。納什均衡的普遍使用是如此多的形式分析預測 TD 的這種結果的主要原因。
博弈論學家確實有其他均衡概念——嚴格均衡、可理性化解、完美均衡、強均衡等等。這些概念中的每一個都導致對 TD 的預測 (2, 2)。問題就在這裡。我們大多數人在反思時都覺得我們會玩一個更大的數字,並且平均而言,會賺到遠高於 2 美元的錢。我們的直覺似乎與所有博弈論相矛盾。
對經濟學的影響
這個遊戲和我們對其結果的直覺預測也與經濟學家的觀點相矛盾。早期的經濟學牢牢地束縛於自由主義的假設,即個人應該被放任自流,因為他們的自私選擇將導致經濟高效執行。博弈論方法的興起已經很大程度上使經濟學擺脫了這種假設。然而,這些方法長期以來一直基於人們會做出博弈論可以預測的自私理性選擇的公理。TD 既削弱了不受約束的自私對經濟有利的自由主義觀點,也削弱了人們會自私和理性的博弈論原則。
在 TD 中,“有效”的結果是兩位旅客都選擇 100,因為這會導致兩位玩家的總收入最大化。自由主義的自私會使人們從 100 轉向較低的數字,效率較低,希望獲得更多的個人利益。
而且,如果人們不玩納什均衡策略(2),那麼經濟學家關於理性行為的假設應該被修正。當然,TD 並不是唯一挑戰人們總是做出自私理性選擇的信念的遊戲[參見卡爾·西格蒙德、恩斯特·費爾和馬丁·A·諾瓦克的《公平競爭的經濟學》;《大眾科學》,2002 年 1 月]。但它提出了一個更令人困惑的觀點,即即使玩家除了自己的利潤外沒有其他顧慮,他們以形式分析預測的方式進行遊戲也是不理性的。
TD 對我們理解現實世界的情況還有其他影響。該遊戲揭示了軍備競賽如何作為一個漸進的過程發揮作用,以小步方式將我們帶向越來越糟糕的結果。理論家們還試圖擴充套件 TD,以瞭解兩家競爭公司如何以損害自身利益為代價相互壓低價格(儘管在這種情況下,這對從他們那裡購買商品的消費者有利)。
所有這些考慮都引出了兩個問題:人們實際上是如何玩這個遊戲的?如果大多數人選擇一個遠大於 2 的數字,我們能否解釋為什麼博弈論未能預測到這一點?關於前一個問題,我們現在瞭解了很多;關於後一個問題,我們知之甚少。
人們的實際行為方式
在過去的十年中,研究人員對 TD 進行了許多實驗,產生了若干見解。弗吉尼亞大學的 C. Monica Capra、Jacob K. Goeree、Rosario Gomez 和 Charles A. Holt 進行了一項著名的實驗室實驗,該實驗使用真錢,以經濟學專業的學生為玩家。學生們因參與而獲得 6 美元的報酬,並保留了他們在遊戲中賺取的任何額外資金。為了使預算可控,選擇以美分而不是美元計價。選擇範圍為 80 到 200,懲罰和獎勵的價值在遊戲的多次執行中有所不同,低至 5 美分,高至 80 美分。實驗人員想看看改變懲罰和獎勵的幅度是否會對遊戲的玩法產生影響。改變獎勵和懲罰的大小不會改變任何形式分析:逆向歸納法總是導致結果 (80, 80),這在每種情況下都是納什均衡。
實驗證實了直覺預期,即普通玩家不會玩納什均衡策略 80。在獎勵為 5 美分的情況下,玩家的平均選擇為 180,當獎勵升至 80 美分時,平均選擇降至 120。
Capra 和她的同事還研究了玩家的行為如何因反覆玩 TD 而改變。他們會學會玩納什均衡嗎,即使這不是他們的第一直覺?果然,當獎勵很大時,遊戲玩法隨著時間的推移而收斂,向下朝納什結果 80 收斂。然而,有趣的是,對於小獎勵,遊戲玩法卻朝著相反的極端 200 增加。
人們大多不玩納什均衡這一事實從一項基於網路的實驗中得到了進一步證實,該實驗沒有實際支付,由特拉維夫大學和紐約大學的 Ariel Rubinstein 於 2002 年至 2004 年進行。該遊戲要求將要參加 Rubinstein 關於博弈論和納什的講座的玩家選擇一個介於 180 和 300 之間的整數,他們將其視為美元金額。獎勵/懲罰設定為 5 美元。
來自七個國家的大約 2,500 人做出了回應,提供了橫截面檢視和實驗室中不可行的樣本量。不到七分之一的玩家選擇了該情景的納什均衡 180。大多數人(55%)選擇了最大數字 300 [參見下頁的方框]。令人驚訝的是,不同亞組(例如來自不同國家的人)的資料非常相似。
然而,產生這種選擇模式的思維過程仍然神秘莫測。特別是,最受歡迎的響應 (300) 是遊戲中唯一“佔優”的策略——這意味著還有另一種策略 (299) 永遠不會更差,有時會更好。
Rubinstein 將可能的選擇分為四組數字,並假設每組數字背後都有不同的認知過程:300 是一種自發的的情感反應。選擇 295 到 299 之間的數字涉及戰略推理(例如,一定程度的逆向歸納法)。181 到 294 之間的任何數字都幾乎是隨機選擇。最後,標準博弈論解釋了 180 的選擇,但玩家可能自己想出了這一點,或者可能對遊戲有先前的瞭解。
對 Rubinstein 關於前三組數字的猜想的檢驗是檢視每個玩家做出決定所花費的時間。事實上,選擇 295 到 299 之間數字的人平均花費的時間最長(96 秒),而選擇 181 到 294 和 300 的人花費的時間約為 70 秒——這種模式與他的假設相符,即選擇 295 到 299 之間數字的人比做出其他選擇的人思考得更多。
博弈論學家已經多次嘗試解釋為什麼在 TD 實驗中,很多玩家沒有選擇納什均衡。一些分析師認為,許多人無法進行必要的演繹推理,因此在不知不覺中做出了非理性選擇。這種解釋在某些情況下肯定是正確的,但它並不能解釋所有結果,例如 2002 年由德國霍恩海姆大學的 Tilman Becker、Michael Carter 和 Jorg Naeve 獲得的結果。在他們的實驗中,博弈論協會的 51 名成員(幾乎所有成員都是專業的博弈論學家)玩了原始的 2 到 100 版本的 TD。他們透過選擇一種策略並將其傳送給研究人員,與他們的 50 名對手中的每一位進行對弈。該策略可以是每個遊戲中使用的單個數字,也可以是一系列數字以及每個數字的使用頻率。該遊戲有一個真金白銀的獎勵系統:實驗人員會隨機選擇一名玩家,贏得 20 美元乘以該玩家在遊戲中的平均收益。結果證明,獲勝者的平均收益為 85 美元,賺了 1,700 美元。
在 51 名玩家中,有 45 名選擇在每個遊戲中使用單個數字(其他六名指定了多個數字)。在這 45 名玩家中,只有 3 名選擇了納什均衡 (2),10 名選擇了佔優策略 (100),23 名選擇了 95 到 99 之間的數字。據推測,博弈論學家知道如何進行演繹推理,但即使是他們,也基本上沒有遵循形式理論所規定的理性選擇。
從表面上看,他們的選擇似乎很容易解釋:大多數參與者準確地判斷出他們的同伴會主要選擇 90 多的數字,因此選擇類似的高數字將獲得最大的平均回報。但是,為什麼每個人都期望其他人都選擇高數字呢?
也許利他主義與自私一起根植於我們的心理,而我們的行為是兩者之間爭鬥的結果。我們知道,如果我們都選擇 100,航空公司經理將支付最多的錢。我們中的許多人都不想“辜負”我們的同伴旅客,試圖只賺取額外的一美元,因此我們選擇 100,即使我們完全理解,從理性上講,99 對我們個人來說是更好的選擇。
為了進一步解釋在這些實驗中看到的更多行為,一些經濟學家做出了強烈且不太現實的假設,然後從複雜的模型中推匯出了觀察到的行為。我不相信我們能從這種方法中學到太多東西。隨著這些模型和假設變得越來越複雜以適應資料,它們提供的洞察力也越來越少。
未解決的問題 然而,仍然存在的挑戰不是解釋在 TD 中呈現的普通人的真實行為。部分由於實驗,似乎利他主義、社會化和錯誤的推理指導了大多數個人的選擇。然而,我不認為如果從畫面中消除這三個因素,許多人會選擇 2。如果確實大多數人繼續選擇較大的數字,可能在 90 多歲,即使他們不缺乏演繹能力,並且他們壓抑了正常的利他主義和社會行為,為了儘可能多地賺錢而無情地玩遊戲,我們該如何解釋這一點?與現代博弈論的大部分內容不同,後者可能涉及大量數學,但一旦掌握了技巧,就很簡單明瞭,這個問題是一個需要創造性思維的難題。
假設你和我都是這些聰明、無情的玩家中的兩個。我們腦子裡會想些什麼?我預計你會玩一個很大的數字——比如,90 到 99 範圍內的數字。那麼我不應該玩 99,因為無論你玩這些數字中的哪個數字,我選擇 98 對我來說都會一樣好或更好。但是,如果你和我一樣瞭解無情的人類行為,並且遵循相同的邏輯,你也會將 99 從選擇中劃掉——並且透過那種使露西和皮特選擇 2 的推理方式,我們很快就消除了 90 到 99 之間的每個數字。因此,不可能將“無情的人可能在邏輯上選擇的大數字”集合定義明確,我們已經進入了將理性應用於固有的定義不明確的前提的哲學難題領域。
如果我要玩這個遊戲,我會對自己說:“忘記博弈論邏輯。我會玩一個很大的數字(可能是 95),而且我知道我的對手會玩類似的東西,我們倆都會忽略下一個較小的數字會比我們選擇的任何數字更好的理性論證。”有趣的是,這種對形式理性和邏輯的拒絕帶有一種元理性的意味。如果雙方玩家都遵循這種元理性路線,雙方都會做得很好。透過理性地拒絕理性行為而產生的行為概念很難形式化。但其中蘊含著未來必須採取的步驟,以解決困擾博弈論並編入“旅行者的困境”中的理性悖論。
更多探索 關於擴充套件博弈的理性定義的不存在性。Kaushik Basu 發表於《國際博弈論雜誌》,第 19 卷,第 33-44 頁;1990 年。
旅行者的困境:博弈論中的理性悖論。Kaushik Basu 發表於《美國經濟評論》,第 84 卷,第 2 期,第 391-395 頁;1994 年 5 月。
旅行者的困境中的異常行為?C. Monica Capra 等人發表於《美國經濟評論》,第 89 卷,第 3 期,第 678-690 頁;1999 年 6 月。
逆向歸納法的邏輯。G. Priest 發表於《經濟學與哲學》,第 16 卷,第 2 期,第 267-285 頁;2000 年。
專家玩“旅行者的困境”。Tilman Becker 等人。工作論文 252,霍恩海姆大學經濟研究所,2005 年。
本能和認知推理。Ariel Rubinstein。可在 arielrubinstein.tau.ac.il/papers/Response.pdf 獲取