AI 能否成為超人?頂級遊戲機器人的缺陷引發質疑

透過學習來自對抗性 AI 的漏洞利用,人們可以擊敗超人的圍棋系統

Yellow GO board with black and white pieces and two hands playing.

圍棋是機器學習能力備受矚目的測試。

Im Yeongsik/Getty 影像

關於 超人人工智慧 (AI) 的討論愈演愈烈。但研究揭示了最成功的 AI 系統之一——一個可以下圍棋並擊敗世界上最優秀人類棋手的機器人——的弱點,表明這種優越性可能很脆弱。這項研究引發了人們的疑問,即更通用的 AI 系統是否會遭受可能損害其安全性、可靠性,甚至損害其“超人”聲譽的漏洞。

伊利諾伊大學厄巴納-香檳分校的計算機科學家 Huan Zhang 說:“這篇論文對如何實現構建人們可以信任的強大現實世界 AI 代理這一雄心勃勃的目標提出了一個重要的問號。” 劍橋市馬薩諸塞理工學院的計算機科學家 Stephen Casper 補充說:“它提供了迄今為止最有力的證據,表明使先進模型穩健地按預期執行是困難的。”

這項分析於 6 月以預印本形式線上釋出,尚未經過同行評審,它利用了所謂的對抗性攻擊——向 AI 系統輸入 旨在提示系統犯錯 的輸入,無論是出於研究目的還是惡意目的。例如,某些提示可以“越獄”聊天機器人,使其洩露它們被訓練要抑制的有害資訊。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。


在圍棋中,兩位玩家輪流在棋盤上放置黑白棋子,以包圍和捕獲對方的棋子。 2022 年,研究人員報告稱,他們 訓練了對抗性 AI 機器人來擊敗 KataGo,這是最好的開源圍棋 AI 系統,它通常輕鬆(且無需人手)擊敗最優秀的人類。 他們的機器人發現了經常擊敗 KataGo 的漏洞,即使這些機器人本身並不是很優秀——人類業餘棋手也能擊敗它們。 更重要的是,人類可以理解機器人的技巧並採用它們來擊敗 KataGo。

利用 KataGo

這是一次性的事件,還是這項工作指出了 KataGo 的一個根本弱點——以及,從廣義上講,其他具有看似超人能力的 AI 系統的弱點? 為了調查,由加利福尼亞州伯克利市非營利研究組織 FAR AI 的執行長兼 2022 年論文的合著者 Adam Gleave 領導的研究人員,使用對抗性機器人測試了三種防禦圍棋 AI 免受此類攻擊的方法。

第一種防禦措施是 KataGo 開發人員在 2022 年攻擊後已經部署的一種:向 KataGo 提供攻擊中涉及的棋盤位置示例,並讓它與自己對弈,以學習如何對抗這些位置。 這類似於它更廣泛地自學下圍棋的方式。 但最新論文的作者發現,對抗性機器人可以學會擊敗甚至這個更新版本的 KataGo,勝率高達 91%。

Gleave 團隊嘗試的第二種防禦策略是迭代的:訓練一個版本的 KataGo 對抗對抗性機器人,然後訓練攻擊者對抗更新後的 KataGo,依此類推,共進行九輪。 但這也沒有產生一個無法擊敗的 KataGo 版本。 對抗者不斷找到漏洞,最終的漏洞擊敗 KataGo 的機率為 81%。

作為第三種防禦策略,研究人員從頭開始訓練了一個新的圍棋 AI 系統。 KataGo 基於一種稱為卷積神經網路 (CNN) 的計算模型。 研究人員懷疑 CNN 可能過於關注區域性細節而忽略全域性模式,因此他們使用一種替代的 神經網路(稱為視覺Transformer (ViT))構建了一個圍棋玩家。 但他們的對抗性機器人發現了一種新的攻擊,幫助它在與 ViT 系統的對抗中贏得了 78% 的時間。

弱對抗者

在所有這些案例中,對抗性機器人——儘管能夠擊敗 KataGo 和其他頂級圍棋系統——經過訓練是為了發現其他 AI 中的隱藏漏洞,而不是成為全面的戰略家。 “對抗者仍然很弱——我們自己已經相當容易地擊敗了他們,”Gleave 說。

並且由於人類能夠使用對抗性機器人的戰術來擊敗專家級圍棋 AI 系統,那麼將這些系統稱為超人是否仍然有意義? “這是一個我肯定糾結過的好問題,”Gleave 說。 “我們已經開始說‘通常是超人’。” 紐約市的計算機科學家 David Wu 是 KataGo 的首位開發者,他說強大的圍棋 AI“平均而言是超人”,但“在最壞的情況下不是超人”。

Gleave 說,這些結果可能對 AI 系統產生廣泛的影響,包括 構成 ChatGPT 等聊天機器人基礎的大型語言模型。 “AI 的關鍵要點是這些漏洞將難以消除,”Gleave 說。 “如果我們在圍棋這樣的簡單領域都無法解決這個問題,那麼在短期內,似乎不太可能修補 ChatGPT 中類似越獄的問題。”

Zhang 說,這些結果對於創造全面超越人類能力的 AI 的可能性意味著什麼尚不清楚。 “雖然這表面上可能表明,在一段時間內,人類可能仍然比 AI 保持重要的認知優勢,”他說,“但我認為最關鍵的結論是 我們並不完全瞭解我們今天構建的 AI 系統。”

本文經許可轉載,並於 2024 年 7 月 8 日首次發表

© .