博弈論質疑合作

最近對“囚徒困境”(一個經典的博弈論場景)的解決方案,在進化生物學中引發了新的難題

來自量子雜誌(在此處查詢原始故事)。

當手稿擺在他面前時,賓夕法尼亞大學的理論生物學家約書亞·普洛特金立刻被它吸引住了。物理學家弗里曼·戴森和計算機科學家威廉·普雷斯都是各自領域的高成就者,他們為一個著名的、存在了幾十年的博弈論場景找到了一個新的解決方案,這個場景被稱為囚徒困境,在這個場景中,玩家必須決定是欺騙還是與夥伴合作。長期以來,囚徒困境一直被用來幫助解釋合作如何在自然界中持續存在。畢竟,自然選擇是由適者生存的規律支配的,因此人們可能會認為,有利於個體的自私策略最有可能持續存在。但是,對囚徒困境的仔細研究表明,生物體可以完全按照自己的利益行事,仍然可以建立一個合作的社群。

然而,普雷斯和戴森對該問題的新解決方案使這種樂觀的觀點受到質疑。它表明,最好的策略是導致敲詐而不是合作的自私策略。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的有影響力的故事的未來。


普洛特金髮現這兩人的數學方法非常優雅。但是結果讓他很困擾。自然界中有很多合作行為的例子。例如,吸血蝙蝠會將一些血餐捐贈給找不到獵物的社群成員。一些鳥類和社會性昆蟲會例行公事地幫助撫養其他人的幼崽。甚至細菌也可以合作,互相粘附在一起,以便一些細菌能夠抵抗毒藥。如果敲詐盛行,是什麼驅動了這些和其他無私的行為?

普雷斯和戴森的論文著眼於一個經典的博弈論場景——一對玩家進行重複的對抗。普洛特金想知道,如果將相同的數學方法應用於更接近自然的情況,是否可以恢復慷慨。因此,他以群體形式重新審視了他們的方法,允許個體與群體中的每個其他成員進行一系列遊戲。他的實驗結果,最近的一次實驗結果在12月發表於美國國家科學院院刊上,表明慷慨和自私是一線之隔。在某些情況下,合作會取得勝利。但是,只要稍微改變一個變數,敲詐就會再次佔據上風。普洛特金說:“現在,我們對合作在群體中何時應該進化,或者不應該進化,有了一個非常普遍的解釋。”他與他的同事亞歷山大·斯圖爾特一起進行了這項研究。

這項工作目前完全是理論性的。但是這些發現可能具有廣泛的影響,可以解釋從複雜生物體之間的合作到多細胞性的進化(單個細胞之間的一種合作形式)等現象。

普洛特金和其他人表示,普雷斯和戴森的工作可以為使用博弈論研究合作的進化提供一個新的框架,使研究人員能夠梳理出允許合作存在的引數。“它基本上使這個領域復甦了,”哈佛大學的生物學家和數學家馬丁·諾瓦克說。

以牙還牙
綠猴以其警報聲而聞名。當附近有掠食者時,猴子會尖叫以警告它的鄰居。但是這樣做,它會引起人們對自己危險的注意。追溯到達爾文的科學家一直在努力解釋這種利他行為是如何進化的。如果被捕食者殺死的那部分尖叫的猴子比例足夠高,自然選擇應該會在基因庫中消除尖叫者。然而事實並非如此,關於原因的猜測導致了數十年的(有時是激烈的辯論

研究人員提出了不同的可能機制來解釋合作。親緣選擇表明,幫助家庭成員最終會幫助個體。群體選擇認為,合作的群體比不合作的群體更有可能生存下來。直接互惠則認為,個人會從幫助過去幫助過他們的人中獲益。

囚徒困境幫助研究人員瞭解簡單的策略,例如與慷慨的社群成員合作以及欺騙作弊者,這些策略可以在適當的條件下建立合作社會。首次在 1950 年代描述的經典囚徒困境涉及一對被捕並被安置在單獨房間裡的重罪犯。每個人都有一個選擇:坦白或保持沉默。在最佳結果中,兩人都什麼也不說並獲得自由。但是由於沒有人知道對方會怎麼做,保持沉默是有風險的。如果一方告密而另一方保持沉默,告密者會受到較輕的處罰,而保持沉默的同夥則會遭受苦難。

 

即使是簡單的生物,例如微生物,也會參與這些型別的遊戲。一些海洋微生物會產生幫助它們收集鐵(一種重要的營養素)的分子。微生物菌落通常既有生產者也有作弊者——不自己製造化合物但利用鄰居分子的微生物。

在囚徒困境的單次例項中,最佳策略是背叛——向你的同夥告發,你將獲得更少的時間。但是,如果遊戲重複進行,則最佳策略會發生變化。在單次遭遇中,一隻發現掠食者的綠猴如果保持沉默會更安全。但是,在一生中,如果猴子警告鄰居即將發生的危險,而鄰居也這樣做,那麼猴子更有可能生存下來。普洛特金說:“每個玩家都有背叛的動機,但總的來說,如果他們合作,他們會做得更好。”“這是合作如何出現的經典問題。”

在1970年代,密歇根大學的政治科學家羅伯特·阿克塞爾羅德發起了一場迴圈賽,讓不同的策略相互對抗。令許多參賽者驚訝的是,最簡單的方法贏了。簡單地模仿另一位玩家之前的舉動(一種稱為以牙還牙的策略)勝過了許多更復雜的程式。

在整個生物世界中都可以找到以牙還牙的策略。例如,刺魚成對地以一種以牙還牙二重奏的形式偵察附近的掠食者。如果一條魚冒險地向前衝,另一條魚會以類似勇敢的行為作為回報。如果一條魚退縮,希望讓它的同伴承擔風險,那麼同伴也會退縮。

在過去的30年中,科學家們探索了比阿克塞爾羅德的簡單版本更符合進化現實的囚徒困境版本。大型迴圈賽中的玩家從一套不同的策略開始——將此視為他們基因決定的適應度。為了模仿適者生存,每次互動的獲勝者會生育更多的後代,這些後代會繼承與其父母相同的策略。因此,最成功的策略會隨著時間的推移而越來越受歡迎。

獲勝方法取決於多種因素,包括群體的大小,開始時存在的策略以及玩家犯錯的頻率。實際上,向遊戲中新增噪聲(策略的隨機變化,作為基因突變的替代)會結束以牙還牙的統治。在這種情況下,一種稱為慷慨以牙還牙的變體(偶爾原諒他人的背叛)會取得勝利。

這些模擬的總體風味是樂觀的——善良會得到回報。諾瓦克說:“最成功的策略通常是那些不試圖利用他人的人。”

普雷斯和戴森帶著黑暗的絕望出現了。

普雷斯和戴森概述了一種方法,稱為敲詐,其中一個玩家可以透過選擇按照規定的機率背叛來始終獲勝。普雷斯和戴森的策略的顯著之處在於,它允許一個玩家控制遊戲的結果。哈佛大學諾瓦克小組的研究員克里斯蒂安·希爾貝說:“主要的創新之處在於計算出您可以多久背叛一次,而不會完全使您的同伴失去動力。”此外,獲勝的玩家只需要記住先前的行動即可,但是該策略與合併了許多先前遊戲回合的策略一樣有效。

第二個玩家被迫與敲詐者合作,因為這是提供最佳回報的選擇。普洛特金說:“如果我是敲詐者,即使我們合作,我也會偶爾背叛,其比例恰好足夠,無論你做什麼,我的回報都會比你高。”這種情況讓人想起初中小組專案。如果團隊中的一名成員偷懶,那麼盡職盡責的學生別無選擇,只能更加努力地工作以獲得好成績。

普雷斯和戴森的原始論文設定在經典的博弈論背景下——兩個玩家之間的一系列互動。但是普洛特金和斯圖爾特想知道,如果他們將相同的數學方法應用於不斷發展的群體(例如綠猴或吸血蝙蝠),而這些群體的繁殖和生存是基於其個體適應性,會發生什麼情況。他們探索了更廣泛的成功策略,稱為零行列式策略,這是普雷斯和戴森已經確定的。

這類策略包括與敲詐在道德上相反的策略:慷慨。通常,採用慷慨策略的玩家始終會在對手這樣做時進行合作。如果對手背叛,第一位玩家仍將以一定的機率進行合作,以試圖哄騙對手回到慷慨。

令普洛特金和斯圖爾特感到欣慰的是,當應用於不斷發展的群體時,慷慨的策略而不是敲詐的策略最為成功。普洛特金說:“我們發現了一個更加樂觀的景象。”他在2013年將結果發表在美國國家科學院院刊上。“最強大的策略,即無法被其他策略取代的策略,是慷慨的策略。”

基本的直覺很簡單。普洛特金說:“敲詐與一個對手相處得很好。”“但是在龐大的人口中,敲詐者最終會與另一個敲詐者配對。”然後兩者都將背叛,從而獲得較差的回報。“普洛特金透過顛倒我們的模型來改進了我們的模型,”戴森說。“如果你想讓某人與你合作,最好用短期利益來賄賂這個人,而不是立即懲罰他。”

希爾貝在現實世界中證實了這些發現,他讓人類玩家與使用慷慨或敲詐策略的計算機進行對抗。正如預測的那樣,與自私的計算機相比,人們在與慷慨的計算機對戰時贏得了更大的收益。但是人們也傾向於懲罰敲詐的對手,即使這樣做符合他們的最佳利益,他們也拒絕合作。反過來,這減少了人類玩家和計算機的回報。最後,慷慨的計算機比敲詐的計算機贏得了更大的收益。

敲詐者的復仇
鑑於這些結果,普洛特金希望敲詐者能夠被阻止。但是這種樂觀情緒是短暫的。在 2013 年的研究之後,普洛特金更改了透過合作或背叛可以獲得的收益。玩家將其策略和戰略收益傳遞給其後代;這兩個量都可能遭受隨機突變。

隨著系統發生這種劇變(可能對應於環境條件的變化),結果又回到了黑暗面。慷慨不再是受青睞的解決方案。“隨著增加背叛誘惑的突變席捲整個群體,種群達到了一個臨界點,”普洛特金說。“背叛的誘惑是壓倒性的,背叛主宰了一切。”

普洛特金說,這個結果出乎意料。“令人驚訝的是,它是在同一框架——博弈論——中發生的,人們曾經用它來解釋合作,”他說。“我以為即使你允許遊戲進化,合作仍然會佔上風。”

關鍵在於,對條件的微小調整可能會對合作或敲詐是否會勝出產生重大影響。“看到這導致了性質截然不同的結果,真是太棒了,”麻省理工學院的生物物理學家傑夫·戈爾說,他沒有參與這項研究。“根據約束條件的不同,你可以進化出性質截然不同的遊戲。”

密歇根州立大學的計算生物學家克里斯·阿達米認為,沒有所謂的最佳策略——贏家取決於條件。

的確,普洛特金的研究不太可能是故事的結局。“我確信會有人研究結果如何依賴於假設,”希爾貝說。“也許合作可以以某種方式被拯救。”

囚徒的未來
囚徒困境顯然是真實互動的簡化版本。

那麼,它對於研究合作的演變來說是一個好的模型嗎?戴森並不樂觀。他喜歡普洛特金和希爾貝的研究,主要是因為它們涉及有趣的數學。“當然,作為對可能世界的描述,它非常有趣,但在我看來,它看起來不像生物學的世界,”戴森說。

伊桑·阿金是一位數學家,他探索了類似於普雷斯和戴森的策略,他說他認為這些結果更適用於社會學的決策,而不是合作的演變。

但是一些實驗生物學家不同意,他們說,囚徒困境和更廣泛的博弈論對他們的領域產生了深遠的影響。“我認為博弈論對微生物合作的貢獻是巨大的,”佐治亞理工學院的進化生物學家威爾·拉特克利夫說。

例如,研究抗生素耐藥性的科學家正在使用一種名為雪堆博弈的博弈論場景,在這種場景中,玩家總是會從合作中獲益。(如果你在暴風雪後被困在公寓樓裡,剷除車道會讓你受益,但住在那裡但不剷雪的其他人也會受益。)一些細菌可以產生並分泌一種能夠滅活抗生素藥物的酶。產生這種酶的成本很高,而不產生這種酶的懶惰細菌可以透過利用它們更勤勞的鄰居產生的酶來獲益。在嚴格的囚徒困境場景中,偷懶者最終會殺死生產者,從而損害整個種群。但在雪堆博弈中,生產者更容易獲得這種酶,從而提高它們的適應性,並且這兩種型別的細菌可以共存。

實驗室中的微生物可以模擬博弈論場景,但是這些受控環境是否準確反映了自然界中發生的事情則是另一回事。“我們透過假設某種生態來設定遊戲的動態,”拉特克利夫說。但這些引數可能無法反映微生物的正常棲息地。“要證明實驗的動態符合囚徒困境或其他遊戲,並不一定意味著這些機制在自然界中驅動它們,”拉特克利夫說。

 


 

 

在迭代囚徒困境中,兩個玩家在一系列回合中相互競爭。然後,研究人員可以確定哪種策略在長期內最成功。下面,左列中的玩家採用慷慨的策略,試圖透過有時在對手背叛時仍然提供幫助來引誘對手幫助。右邊的自私玩家傾向於背叛,只在足以防止其對手永久背叛時才提供幫助。每輪的得分使用類似於上面蝙蝠例子的矩陣進行計算

 

在正面交鋒中,自私的策略擊敗了慷慨的策略。然而,當相同的策略應用於更符合進化現實的設定時,結果會有所不同。在下面的影片中,一群玩家進行一系列正面交鋒,很像迴圈賽。在每次交鋒中“獲勝”的玩家會產生更多采用類似策略的後代。在這裡,一個採用慷慨策略的玩家會傾向於將其策略傳播到整個種群中

圖片來源:由 Joshua Plotkin 提供
 

最終,整個種群從自私的策略轉變為慷慨的策略。生物學家使用這樣的模型來解釋合作行為如何在野外持續存在。

經 Quanta Magazine 許可轉載,Quanta Magazine 是 SimonsFoundation.org 的一個編輯獨立部門,其使命是透過報道數學以及物理和生命科學領域的研究進展和趨勢來增進公眾對科學的理解。

© .