人類棄牌:人工智慧征服撲克的最後一塊里程碑

一項新程式在六人遊戲中擊敗了專業人士。商業、政治或軍事應用會是下一個嗎?

在2017年的一次賭場錦標賽中,一個名為 Libratus 的撲克程式在12萬手兩人撲克比賽中巧妙地擊敗了四位職業牌手。但該程式的共同創造者 Tuomas Sandholm 並不相信人工智慧能在更多玩家參與的情況下取得類似的表現。

兩年後,他證明自己錯了。Sandholm 與他人共同建立了一個名為 Pluribus 的人工智慧程式,該程式可以在無限注德州撲克六人比賽中持續擊敗人類專家。“我從沒想過我會在有生之年看到這一幕,”卡內基梅隆大學計算機科學教授 Sandholm 說。

過去 人工智慧戰勝人類 的案例都涉及兩人或兩隊遊戲,如跳棋、象棋、圍棋和兩人無限注撲克。所有這些遊戲都是零和遊戲——它們只有一個贏家和一個輸家。但六人撲克更接近於現實生活中的情況,在現實生活中,一方必須在不瞭解多個對手的決策過程和資源的情況下做出決策。“這是第一個不是兩人或兩隊零和遊戲的主要基準,”Facebook 人工智慧研究院研究科學家兼 Pluribus 的共同創造者 Noam Brown 說。“我們第一次超越了這種模式,表明人工智慧即使在一般環境中也能表現良好。”


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續看到關於塑造我們當今世界的發現和想法的具有影響力的報道。


Pluribus 程式首先證明了其價值,它在六人遊戲中盈利,這些遊戲只安排一名人類對抗五個獨立的 Pluribus 版本。隨後,在與五名人類玩家(從15名撲克專業人士的輪換陣容中挑選,他們每人都贏得了至少100萬美元的錦標賽獎金)與一個人工智慧對戰的10,000手撲克和12天的比賽中,它贏得了獎金。《科學》雜誌本週發表的一篇論文詳細介紹了這些成功。儘管 Pluribus 的勝率沒有達到 Libratus 或另一個名為 DeepStack 的雙人撲克程式那麼高,但它仍然取得了非常可觀的勝率。“當機器人與人類坐在一起時,它賺了很多錢,”Brown 說。“我肯定會將其描述為超人的表現。”

密歇根大學計算機科學與工程教授 Michael Wellman 說:“儘管已經有證據表明,征服雙人撲克的技術在三人環境中也相當有效,但不清楚它們是否足以達到最高的專業水平。”他沒有參與這項研究。“六人撲克如此有效地發揮作用,這確實是新聞。這是一件非常重要的事情——當然是一個值得注意的里程碑。”

為了達到這個水平,Pluribus——像它的前身 Libratus 一樣——首先在許多模擬撲克牌局中與自己對弈,制定了一個策略藍圖。使其能夠應對六人撲克的重大突破來自於它的“深度有限搜尋功能”。該元件允許人工智慧向前看幾步,並根據對手可能的決策,為遊戲的其餘部分制定更好的策略。許多其他撲克程式也使用了類似的搜尋功能,但對六名玩家這樣做將需要不切實際的計算記憶體:基於每位玩家持有的牌、每位玩家認為其他玩家持有的牌以及隨後的所有下注決策,有太多的場景需要模擬。Libratus 透過僅在最後兩輪(共四輪)下注中使用搜索來繞過這個瓶頸——但即使如此,在只有兩名玩家的遊戲中,該解決方案仍然需要使用 100 箇中央處理器 (CPU)。

因此,Pluribus 轉而部署其深度有限搜尋。使用這項技術,人工智慧首先考慮它和它的對手在接下來的幾步中可能如何出牌。超出這一點,它透過將每個模擬玩家的選擇限制為僅四種策略來簡化其模型:預先計算的藍圖、一種偏向於棄牌的策略、另一種偏向於跟注的策略以及第四種偏向於加註的策略。這種修改後的搜尋有助於解釋為什麼與過去人工智慧在遊戲方面取得的超人成就相比,Pluribus 在六人撲克中的成功只需要相對最少的計算資源和記憶體。具體來說,在現場撲克遊戲中,Pluribus 在一臺只有兩個中央 CPU 和 128 GB 記憶體的機器上執行。“能夠做到這一點已經很了不起了,其次,它可以在沒有 [圖形處理器] 和沒有極端硬體的情況下完成,”Sandholm 說。相比之下,DeepMind 著名的 AlphaGo 程式在其 2016 年與頂級職業圍棋棋手李世乭的比賽中使用了 1,920 個 CPU 和 280 個 GPU。

卡內基梅隆大學和 Facebook 計劃將 Pluribus 虛擬碼(程式中每個必要步驟的詳細解釋)與已發表的論文一起提供,以便其他人工智慧研究人員可以普遍複製他們的成果。但該團隊決定不釋出實際程式碼;這可能會促進超人撲克程式的傳播,這可能會對線上撲克社群和行業造成極大的破壞。但是,即使沒有程式碼,人類也可以開始從人工智慧的策略中學習。例如,職業撲克牌手通常認為進行“弱手下注”(donk bet)——在非激進地跟注現有賭注結束上一輪後,透過激進下注開始一輪——是一個錯誤。但 Pluribus 最終更頻繁地使用了這項技術。

除了撲克之外,這種人工智慧還可以潛在地應用於任何人必須在不完全瞭解其他各方可能在想什麼或做什麼的情況下做出決策的任何情況。這些領域可能包括網路安全、金融交易、商業談判和競爭性定價。Sandholm 說,人工智慧甚至可以幫助 2020 年美國總統選舉的黨內初選:在一個擁擠的領域競爭的候選人理論上可以從人工智慧關於如何花費足夠的廣告資金以在關鍵州獲勝的建議中受益,從而最大限度地利用有限的競選資金。Sandholm 創立了三家初創公司,包括 Strategic Machine 和 Strategy Robot 公司,這些公司可能會將這種多人人工智慧整合到他們為商業和軍事客戶提供的服務中。

就 Facebook 而言,它目前沒有利用撲克專用 Pluribus 的計劃。但 Brown 計劃進一步探索人工智慧在超出紙牌遊戲的更復雜的多人場景中的表現。“我們現在將結束撲克的研究,因為這是最後的里程碑,”Brown 說。“現在我們正在尋求將此擴充套件到撲克之外。”

© .