撲克如此受歡迎的原因並不神秘:這種充滿活力的紙牌遊戲產生了戲劇性的場面,玩家們陷入了一場複雜的表演和反應的探戈,隨著每次不斷升級的下注而變得越來越緊張。使撲克如此有趣的相同元素也為人工智慧 (AI) 創造了一個複雜的問題。今天發表在《科學》雜誌上的一項研究描述了一個名為 DeepStack 的 AI 系統,該系統最近在單挑無限注德州撲克中擊敗了職業人類玩家,這一成就代表了 AI 系統可以解決的問題型別的飛躍。
DeepStack 由阿爾伯塔大學的研究人員開發,依賴於人工智慧神經網路的使用,研究人員預先訓練這些網路以發展撲克直覺。在遊戲過程中,DeepStack 利用其撲克智慧將複雜的遊戲分解為更小、更易於管理的部分,然後它可以即時處理這些部分。這種策略使其能夠擊敗人類對手。
幾十年來,開發人工智慧的科學家一直使用遊戲來測試其系統的能力並衡量其進展。二十年前,當 IBM 的國際象棋超級計算機深藍 (Deep Blue) 擊敗世界國際象棋冠軍加里·卡斯帕羅夫時,遊戲 AI 取得了突破。去年,谷歌 DeepMind 的 AlphaGo 程式擊敗了圍棋頂級人類職業選手,震驚了世界。然而,像國際象棋和圍棋這樣的遊戲與像撲克這樣的遊戲之間存在著根本的區別,即玩家可以獲得的資訊量。“國際象棋和圍棋遊戲是‘完美資訊’遊戲,[在這些遊戲中]你可以看到你需要的一切資訊來做出決定,”IBM 的計算機科學家默裡·坎貝爾 (Murray Campbell) 說,他曾在深藍團隊工作,但沒有參與這項新研究。“在撲克和其他不完美資訊遊戲中,存在隱藏資訊——只有一名玩家知道的私人資訊,這使得遊戲變得非常非常困難。”
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
人工智慧研究人員長期以來一直在研究撲克——事實上,來自世界各地的 AI 程式已經在撲克錦標賽中與人類對決,包括現已進入第 10 個年頭的年度計算機撲克競賽。單挑無限注德州撲克提出了一個特別令人生畏的 AI 挑戰:與所有不完美資訊遊戲一樣,它需要一個系統在沒有關鍵資訊的情況下做出決策。然而,它也是一種兩人撲克版本,對下注規模沒有限制,導致可能出現大量的遊戲場景(大約 10160,與圍棋中 10170 種可能的走法相當)。到目前為止,玩撲克的 AI 一直試圖在遊戲開始前計算出在每種可能情況下如何玩。對於像單挑無限注這樣真正複雜的遊戲,他們依賴於一種稱為抽象的策略,其中不同的場景被歸為一類並以相同的方式對待。(例如,系統可能不會區分 A 和 K。)抽象簡化了遊戲,但也留下了對手可以找到並利用的漏洞。
在 DeepStack 中,研究作者、機器學習、遊戲和機器人學教授邁克爾·鮑林 (Michael Bowling) 和同事採取了一種不同的方法,將用於像圍棋這樣的完美資訊遊戲的 AI 策略調整為單挑無限注的獨特挑戰。在玩真正的遊戲之前,DeepStack 經歷了一個密集的訓練期,其中包括深度學習(一種使用演算法來模擬更高階概念的機器學習型別),在其中它與自己進行了數百萬次隨機生成的撲克場景,並計算了每種場景的收益。這些答案使 DeepStack 的神經網路(可以隨著時間“學習”的複雜計算網路)能夠發展出一般的撲克直覺,即使在以前從未遇到過的情況下也能應用。然後,DeepStack 在一臺遊戲筆記型電腦上執行,與 11 位人類玩家進行了實際的線上撲克遊戲。(每位玩家在四周內完成了 3,000 場比賽。)
DeepStack 使用其神經網路將每場遊戲分解成更小的部分——在給定的時間,它只考慮未來兩到十步。AI 即時解決了每個迷你遊戲,在大約三秒鐘內處理了數百萬種可能的場景,並使用結果來選擇最佳走法。“在某種意義上,這可能更接近人類的做法,”鮑林說。“人類當然不會在坐下來玩之前,預先計算出他們在每種情況下將如何玩。與此同時,人類也無法推理出撲克遊戲將如何一直進行到最後。”DeepStack 擊敗了所有 11 位職業玩家,其中 10 位以統計學上顯著的優勢獲勝。
坎貝爾對 DeepStack 的結果印象深刻。“他們展示了一種似乎非常通用的方法,[用於] 處理這些不完美資訊遊戲,”他說,“並以非常壯觀的方式展示它們。”他認為 DeepStack 是 AI 在解決混亂的現實世界問題(例如設計安全系統或進行談判)方面邁出的重要一步。然而,他補充說,即使像撲克這樣的不完美資訊遊戲仍然比現實世界簡單得多,在現實世界中,條件不斷變化,我們的目標也並非總是明確的。
DeepStack 並不是唯一一個最近在撲克方面取得成功的 AI 系統。今年 1 月,卡內基梅隆大學的一個團隊開發的名為 Libratus 的系統 擊敗了四位職業撲克玩家(結果尚未在科學期刊上發表)。與 DeepStack 不同,Libratus 沒有采用神經網路。相反,該程式在超級計算機上執行,在遊戲早期依賴於一種複雜的抽象技術,並在遊戲的後期階段轉向類似於 DeepStack 使用的即時推理策略。熟悉這兩種技術的坎貝爾表示,尚不清楚哪種技術更優越,他指出,雖然 Libratus 與更優秀的職業選手比賽,但 DeepStack 的獲勝優勢更大。密歇根大學的計算機科學家邁克爾·韋爾曼 (Michael Wellman) 也未參與這項工作,他認為這兩項成功都是“遊戲計算中的重要里程碑”。
鮑林看到了未來 AI 研究的許多可能方向,一些與撲克相關(例如可以在六人錦標賽中競爭的系統),另一些則超出撲克範圍。“我認為有趣的問題開始轉向如果我們正在玩一個我們甚至不知道規則的遊戲會發生什麼,”他說。“我們經常必須在不完全確定事物實際運作方式的情況下做出決定,”他補充說,這將涉及“構建能夠應對這種情況並學會玩這些遊戲、在與世界互動時變得更好的智慧體。”
