職業撲克玩家知道最優策略,但並不總是使用它

撲克玩家現在可以利用人工智慧來找到最優的 playing 策略,但他們通常不使用它。這是為什麼

Perfect spade royal flush playing cards spread on a vivid orange background.

Andrii Sedykh/Getty Images

“全下。” 你的對手將一疊籌碼滑過高 stakes 撲克桌。你瞥了一眼你的牌,一對六。遊戲是 德州撲克。只剩下你們兩個人,並且還沒有發出公共(面朝上)牌。在撲克中,很少有比這更簡單的情況了,你有一個二元選擇要做:跟注(匹配你對手的下注)或棄牌(放棄)。但對於職業玩家來說,每一個細節都需要考慮。在全下之前,下注模式是什麼?誰先行動?每個玩家有多少籌碼,彩池裡有多少?盲注或強制下注何時增加?當然,六子獲勝的可能性有多大?你研究過撲克策略,記住了 機率 表格,並在腦海中計算了數字。這一切都指向棄牌是客觀上最佳的決定。但是你在一場漫長的比賽中注意到,你的對手傾向於用平庸的牌過度下注。你是堅持你的訓練並棄牌,還是根據你觀察到的弱點即時調整你的策略?

關於是否使用所謂的“博弈論最優與剝削性玩法”的問題,抓住了 高水平撲克 的核心對話。它的數學基礎可以追溯到 80 年前,但人工智慧的快速發展已將 20 世紀中葉的數學帶到現代遊戲的最前沿。新的工具教會撲克玩家 最優策略 來玩遊戲,那麼他們為什麼要拒絕使用它呢?

[在我們新的遊戲版塊玩受科學啟發的遊戲、謎題和測驗]


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的 impactful 故事的未來。


最優玩法?

在基於隨機發牌和複雜人類心理學的遊戲中,客觀最優的玩法可能看起來違反直覺。以虛張聲勢為例——當玩家假裝他們持有無敵的牌,以嚇唬對手棄牌時。謊報自己的牌感覺本質上是心理上的,並且抵制嚴格的客觀性模式。但是我們永遠不應低估數學家將人類行為轉化為整潔方程式的訣竅。

事實上,數學家約翰·馮·諾伊曼和經濟學家奧斯卡·摩根斯坦於 1944 年出版的關於數學博弈論的基礎性著作《博弈論與經濟行為》強調撲克是一個核心例子。作者分析了一個簡化的變體,該變體將遊戲提煉為其最基本的動態:兩名玩家將各自收到一個介於 0 和 1 之間的數字,較高的數字代表較強的牌,然後進行一輪下注。馮·諾伊曼和摩根斯坦不僅證明了最優策略的存在,而且證明了虛張聲勢是該策略的重要組成部分。

當然,德州撲克的複雜性遠高於這個玩具示例。誰能說最優策略甚至存在於成熟的多人撲克中呢?已故數學家約翰·納什就是這樣說的。在 20 世紀 50 年代,納什繼續在 1994 年獲得諾貝爾經濟學獎,並後來在 2001 年的傳記片 美麗心靈 中被描繪,推動了當時新興的博弈論領域。他最著名的發現,現在稱為納什均衡,發生在當遊戲中沒有玩家會透過偏離他們選擇的策略而獲益時(假設其他人不偏離他們的策略)。

博弈論專家 認為這種情況是最優的,因為如果你和我玩一個遊戲,我們每個人都以任何舊策略開始,然後我調整我的策略以利用我看到你正在做的事情,然後你反過來適應我的變化,等等,我們最終將達到一個穩定狀態,在這種狀態下,我們倆都無法繼續改進。有了納什均衡,玩家甚至可以提前宣佈他們的策略,但每個人最好的做法仍然是堅持均衡。在 1950 年的一篇 一頁紙的論文 中,約翰·納什證明了每個有限的競爭性遊戲——從麻將到萬智牌:The Gathering——都至少有一個納什均衡。

儘管其名稱如此,博弈論適用於傳統遊戲之外的廣泛主題,包括經濟系統、核威懾和進化生物學。對於該領域的研究人員來說,遊戲是指理性決策者之間任何互動,他們的行動和收益可以被嚴格定義和分析。因此,納什定理具有廣泛的影響。 在撲克中,它證明了在一個曾經被認為依賴於直覺和解讀面部表情的遊戲中尋找最優策略是合理的。

人工智慧撲克革命

僅僅因為我們知道德州撲克有納什均衡,這並不意味著我們知道它是什麼樣的。隨著遊戲複雜性的增加,它們的最優策略往往變得更難弄清楚。任何人都可以透過記住幾個移動序列,在一個坐姿中學會如何完美地玩井字棋。對於更復雜的遊戲,例如跳棋,在完美玩法下總是以平局結束,人類永遠無法記住足夠的變化來實施最優策略。 科學家們已經創造了無與倫比的演算法,可以最優地玩遊戲,但是,因為計算機可以儲存大量的位置資料庫,並以人類無法做到的方式廣泛搜尋遊戲樹。與此同時,自 1997 年左右以來,國際象棋計算機已經統治了最優秀的人類玩家(當時世界冠軍加里·卡斯帕羅夫輸給了 IBM 的深藍 歷史性比賽),但國際象棋計算機仍然沒有表現出最優的玩法——下一代國際象棋引擎將碾壓今天的引擎。

與國際象棋不同,撲克涉及不完全資訊。玩家知道自己的牌,但不知道競爭對手的牌,這使得該遊戲在計算建模方面更令人生畏。這解釋了為什麼撲克演算法革命直到最近的人工智慧熱潮才到來。2015 年,計算機科學家 宣佈了一種演算法,該演算法針對僅有兩個玩家和約束下注規模的受限版本遊戲,展示了基本上完美的玩法。僅僅四年後,我們得到了 第一個用於多人德州撲克的超人人工智慧。隨後出現了一系列商業上可用的軟體工具,稱為“求解器”,在短短幾年內,每個有幾百美元閒錢的賭棍(以撲克為生的人)都擁有了一個觸手可及的牌桌高手,可以告訴他們在幾乎每種情況下如何玩牌。

前職業撲克玩家 Liv Boeree 說:“遊戲從模糊的藝術變成了硬科學。” 為了在今天的環境中保持領先,高階玩家透過使用計算機程式(如 PioSOLVER)來研究遊戲,該程式可以近似最優策略。對於簡單和常見的情況,職業玩家會記住機器的建議,而他們從機器在罕見和更復雜情況下的行為中獲得更高級別的經驗。對於任何精英撲克玩家來說,使用這些求解器進行學習都是必不可少的。“如果你想在高 stakes 中對抗最優秀的玩家,絕對……如果你不使用求解器,你會被生吞活剝,”世界撲克系列賽冠軍 Boeree 說。“有些玩家只是拒絕了整個概念,他們不使用求解器……而且在很大程度上,他們被甩在了後面。”

人工智慧既證實了一些關於德州撲克策略的常識,也推翻了一些玩家一直犯錯的格言。例如,計算機發現在“領頭下注”中獲得成功——在僅僅跟注另一位玩家在前一輪的下注之後,在一輪下注中發起第一個下注——儘管民間認為領頭下注是 業餘舉動。在專家級人類傾向於棄牌的情況下,人工智慧也玩更廣泛的牌。像國際象棋引擎一樣,多人撲克求解器實際上並沒有最優地玩遊戲,但它們徹底擊敗了人類,以至於我們可以從它們身上學到很多東西。

如何獲勝

在定義納什均衡時,我偷偷地加入了一個關鍵細節:當沒有玩家會透過偏離他們選擇的策略而獲益時(假設其他人不偏離他們的策略),均衡就會發生。但是,當其他玩家確實偏離了這一點時,通常明智的做法是偏離以回應。

以石頭剪刀布為例來說明。它的納什均衡是什麼?想一會兒:來自雙方玩家的什麼策略不會留下偏離的動機?答案:玩家應該完全隨機地丟擲石頭、剪刀和布;每個都有三分之一的機會出現,而與之前的所有輪次無關。您可以提前向您的對手宣佈此策略,他們將無力利用您的坦誠。

如果你和你的對手都採用這種均衡策略,你可以預期贏得一半的決定性回合(忽略平局)。現在假設你的對手偏離了。在極端情況下,想象一下他們總是出布。如果你堅持均衡策略,那麼你仍然會贏得一半的決定性回合,因為你玩獲勝的剪刀和失敗的石頭的頻率相同。但是你可以透過總是出剪刀並在每一輪都剪他們的布來利用對手的偏離。不太劇烈的偏離仍然給你利用的機會。例如,關於石頭剪刀布的實證研究 表明,當人們贏得一輪時,他們更有可能重複他們剛剛贏得的那次投擲。瞭解這一點可以給你帶來優勢。例如,如果你剛剛輸給了石頭,那麼接下來出布,因為你的對手很可能再次出石頭。納什均衡是唯一不受剝削的策略。

同樣的動態在撲克中以更復雜的規模發揮作用。隨著玩家從他們的人工智慧協作者那裡學習到更多最優技術,他們也學會了如何嗅探出他們的對手何時未能達到最優玩法,以及如何最好地懲罰他們。

你可能會認為這裡有一個陷阱。如果你的對手偏離了,難道最優的決定不是無情地利用他們,而不是盲目地堅持納什均衡並把潛在的錢留在桌子上嗎?如果你發現對手以可預測的方式偏離納什均衡,那麼你自己偏離以利用他們的弱點可能會為你帶來更多的錢。但是,一旦你利用了他們,現在就偏離了均衡,並讓自己容易受到剝削。如果你的對手總是出布,而你開始只出剪刀,最終他們會意識到並開始用石頭打你的剪刀。

正如前撲克職業玩家 Igor Kurganov 所說,“每當你發現對手的錯誤時,你都會改進你對他們如何看待遊戲的模型,調整你與他們對戰的方式以解釋該錯誤,並透過這樣做,讓自己變得容易被利用。”

大多數玩家都同意,為了在撲克頂級水平保持競爭力,他們必須混合使用博弈論的最優玩法和剝削性玩法。最優更偏向防禦,而剝削性更偏向進攻。一些老師建議,你應該透過模仿最優玩法來開始比賽——只有在你花時間觀察到對手的弱點之後,你才應該摻入你的利用。在策略之間切換的靈活性將魚與鯊魚區分開來。“你越確定你比[你的對手]更聰明地看待遊戲,這個整個過程就效果越好,”Kurganov 說,並補充說“當你覺得他們和你一樣好甚至比你更好時,你做的剝削性調整就越少。”

對於某些人來說,超人撲克引擎的出現已經剝奪了遊戲的趣味性,而另一些人則認為計算機為遊戲增加了一個新的層次。Boeree 於 2019 年從職業撲克界退休,現在擔任科學傳播者、慈善家和播客主持人,她更傾向於前一種陣營。“感覺就像它帶走了一點遊戲的魔力,就像,‘哦,好吧,謎團已經解開了,’”她說。但 Boeree 承認,撲克的新時代並不缺乏愛好者。“自從 COVID 以來,它一直在蓬勃發展,”她補充道。“世界撲克系列賽去年的玩家比以往任何時候都多。記錄正在被打破。所以很明顯,它並沒有殺死遊戲。”相反,我們可能會說,撲克不斷變化的格局仍在尋找其均衡。

Jack Murtagh 是一位自由數學作家和謎題創作者。他為《大眾科學》撰寫關於 數學奇趣 的專欄,併為 Morning Brew 新聞通訊創作 每日謎題。他擁有哈佛大學理論計算機科學博士學位。在 X 上關注 Jack @JackPMurtagh

更多作者:Jack Murtagh
Digital Issues Vol 1 Issue 1這篇文章最初以“納什均衡是最優撲克策略。專家級玩家並不總是使用它”為標題發表於 數字期刊 第 1 卷第 1 期(
doi:10.1038/scientificamerican082024-4s8qNUw2Ecpnwe1ktYk9Uj
© .