今天的人工智慧聊天機器人內建了限制,以防止它們向用戶提供危險資訊,但一項新的預印本研究表明,如何讓人工智慧互相欺騙,從而洩露這些秘密。研究人員在研究中觀察到,目標人工智慧違反規則,提供關於如何合成甲基苯丙胺、製造炸彈和洗錢的建議。
現代聊天機器人有能力透過偽裝成特定人格或扮演虛構角色來採用角色扮演。這項新研究利用了這種能力,要求特定的人工智慧聊天機器人充當研究助理。然後,研究人員指示這位助理幫助開發提示,以“越獄”其他聊天機器人——摧毀編碼到這些程式中的護欄。
研究助理聊天機器人的自動化攻擊技術被證明對 GPT-4(ChatGPT 的大型語言模型 (LLM) 之一)的成功率達到 42.5%。 對 Claude 2(Anthropic 聊天機器人的基礎模型)的成功率為 61%,對 Vicuna(一款開源聊天機器人)的成功率為 35.9%。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您將幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的重要故事。
該研究的合著者、人工智慧安全公司 Harmony Intelligence 的創始人索魯什·普爾說:“作為一個社會,我們希望意識到這些模型的風險。” “我們想表明這是可能的,並向世界展示我們當前這一代 LLM 面臨的挑戰。”
自從基於 LLM 的聊天機器人向公眾開放以來,有進取心的惡作劇者已經能夠越獄這些程式。 透過向聊天機器人提出正確的問題,人們之前已經說服機器忽略預設規則並提供犯罪建議,例如凝固汽油彈的配方。 隨著這些技術被公開,人工智慧模型開發者競相修補它們——一場貓捉老鼠的遊戲,需要攻擊者提出新的方法。 這需要時間。
但研究人員表示,讓 AI 制定策略來說服其他 AI 忽略其安全護欄,可以將這個過程加速 25 倍。 跨不同聊天機器人的攻擊成功表明,這個問題超越了個別公司的程式碼。 這種漏洞似乎是人工智慧聊天機器人更廣泛的設計中固有的。
OpenAI、Anthropic 和 Vicuna 背後的團隊被聯絡以對該論文的發現發表評論。 OpenAI 拒絕置評,而 Anthropic 和 Vicuna 在出版時未作出回應。
該研究的另一位合著者魯謝布·沙阿說:“在目前的情況下,我們的攻擊主要表明我們可以讓模型說出 LLM 開發者不希望它們說的話。” “但隨著模型變得更加強大,這些攻擊變得危險的可能性可能會增加。”
普爾說,挑戰在於角色扮演“是這些模型非常核心的東西”。 他們的目標是實現使用者想要的東西,並且他們擅長扮演不同的角色——這被證明是新研究中使用的剝削形式的核心。 消除他們扮演潛在有害角色的能力(例如,設計越獄方案的“研究助理”)將是棘手的。 “將其減少到零可能是不現實的,”沙阿說。 “但重要的是要思考,‘我們能多接近於零?’”
艾倫·圖靈研究所的倫理研究員邁克·卡特爾(他沒有參與這項新研究)說:“我們應該從早期建立聊天代理的嘗試中吸取教訓——例如,當微軟的 Tay 很容易被操縱,從而說出種族主義和性別歧視的觀點時——它們非常難以控制,特別是考慮到它們是從網際網路上的資訊以及其中的所有好的和壞的東西中訓練出來的。”
卡特爾承認,開發基於 LLM 的聊天機器人的組織目前正在投入大量工作來使其安全。 開發人員正在努力抑制使用者越獄其系統的能力,並將這些系統用於邪惡的工作,例如沙阿、普爾及其同事強調的那些工作。 然而,卡特爾說,競爭的衝動最終可能會勝出。 “LLM 提供商願意投入多少精力來保持這種狀態?” 他說。 “至少有一些人可能會厭倦這種努力,而只是讓他們做他們所做的事情。”
