AI 聊天機器人永不停止產生幻覺

一定程度的聊天機器人幻覺是不可避免的。但有一些方法可以最大限度地減少它

Illustration of robot exploding while working at computer, concept art for artificial intelligence blunder

Moor Studio/Getty Images

去年夏天,一位聯邦法官對紐約市一家律師事務所處以 5000 美元罰款,此前一位律師在該事務所的人身傷害案件簡報中使用了人工智慧工具 ChatGPT。該文字充滿了虛假資訊——包括六個以上完全捏造的過往案例,旨在為人身傷害訴訟建立先例。斯坦福大學和耶魯大學的研究人員在最近一項關於三種流行的大型語言模型 (LLM) 的預印本研究中發現,類似的錯誤在人工智慧生成的法律檔案中比比皆是。當生成式人工智慧模型產生與現實不符的回答時,有一個術語來形容這種情況:“幻覺”。

幻覺通常被認為是人工智慧的技術問題——是勤奮的開發人員最終會解決的問題。但許多機器學習專家並不認為幻覺是可修復的,因為它源於大型語言模型完全按照其開發和訓練的目的行事:盡其所能地回應使用者提示。一些人工智慧研究人員認為,真正的問題在於我們對這些模型的集體認知以及我們決定如何使用它們。研究人員表示,為了減輕幻覺,生成式人工智慧工具必須與事實核查系統配對,確保聊天機器人處於持續監管之下。

許多與人工智慧幻覺相關的衝突都源於營銷和炒作。科技公司已將他們的大型語言模型描繪成數字瑞士軍刀,能夠解決無數問題或取代人類工作。但在錯誤的場景中應用,這些工具只會失效。聊天機器人向用戶提供了不正確且可能有害的醫療建議,媒體釋出了人工智慧生成的文章,其中包含不準確的財務指導,而帶有人工智慧介面的搜尋引擎編造了虛假的引文。隨著越來越多的人和企業依賴聊天機器人獲取事實資訊,它們編造事實的傾向變得更加明顯且具有破壞性。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠持續產出關於塑造我們當今世界的發現和想法的具有影響力的報道。


但今天的大型語言模型從未被設計成完全準確。亞利桑那州立大學研究人工智慧的計算機科學教授蘇巴拉奧·坎巴哈帕蒂說:“它們的建立目的是為了創造——為了生成”。他解釋說:“現實情況是:無法保證生成內容的真實性。”他還補充說,所有計算機生成的“創造力在某種程度上都是幻覺”。

在 1 月份釋出的一項預印本研究中,新加坡國立大學的三位機器學習研究人員提出了一個證明,即幻覺在大型語言模型中是不可避免的。該證明應用了一些學習理論中的經典結果,例如康托爾對角論證法,來證明大型語言模型根本無法學習所有可計算函式。換句話說,它表明總會有超出模型能力範圍的可解決問題。“對於任何大型語言模型,都存在它無法學習的真實世界的一部分,它將不可避免地產生幻覺,”研究合著者徐子威、Sanjay Jain 和 Mohan Kankanhalli 在給大眾科學的聯合電子郵件中寫道。

坎巴哈帕蒂表示,雖然該證明似乎是準確的,但它提出的論點——某些難題將永遠難倒計算機——過於寬泛,無法深入瞭解特定捏造行為發生的原因。他繼續說,問題比證明顯示的更為普遍,因為大型語言模型即使在面對簡單的請求時也會產生幻覺。

伊利諾伊大學厄巴納-香檳分校研究自然語言和語音處理的計算機科學教授迪萊克·哈卡尼-圖爾說,人工智慧聊天機器人經常產生幻覺的一個主要原因源於它們的基本構造。大型語言模型基本上是超高階的自動完成工具;它們經過訓練來預測序列(例如文字字串)中接下來應該出現什麼。如果模型的訓練資料包含大量關於某個主題的資訊,它可能會產生準確的輸出。但是大型語言模型的構建目的是始終產生答案,即使是關於其訓練資料中未出現的主題也是如此。哈卡尼-圖爾說,這增加了出現錯誤的可能性。

新增更多基於事實的訓練資料似乎是一個顯而易見的解決方案。但人工智慧平臺 Vectara 的聯合創始人兼執行長、計算機科學家 阿姆爾·阿瓦達拉表示,大型語言模型可以容納的資訊量存在實際和物理限制。Vectara 跟蹤大型語言模型在排行榜上的幻覺率。(在跟蹤的人工智慧模型中,最低的幻覺率約為 3% 到 5%。)為了實現其語言流暢性,這些大型模型接受了比它們可以儲存的資料量級更多的資料的訓練——而資料壓縮是不可避免的結果。阿瓦達拉說,當大型語言模型無法“完全像訓練時那樣回憶起所有內容時,它們就會編造內容並填補空白”。他還補充說,這些模型已經執行在我們的計算能力的邊緣;試圖透過使大型語言模型更大來避免幻覺會導致模型速度變慢,並且執行起來更昂貴且對環境更有害

佐治亞理工學院計算機科學教授 桑託什·文帕拉說,幻覺的另一個原因是校準。校準是大型語言模型進行調整以優先考慮某些輸出而不是其他輸出的過程(以匹配訓練資料的統計資料或生成更逼真的人類語言)。* 在去年 11 月首次釋出的一篇預印本論文中,文帕拉和一位合著者認為任何校準的語言模型都會產生幻覺——因為準確性本身有時與流暢自然且看似原創的文字相悖。降低校準可以提高事實性,同時也會在大型語言模型生成的文字中引入其他缺陷。文帕拉說,未校準的模型可能會公式化地寫作,比人更頻繁地重複單詞和短語。問題在於使用者期望人工智慧聊天機器人既真實又流暢。

坎巴哈帕蒂說,接受大型語言模型可能永遠無法產生完全準確的輸出意味著需要重新考慮何時、何地以及如何部署這些生成式工具。他補充說,它們是非常棒的創意生成器,但它們不是獨立的解題者。“你可以透過將它們放入帶有驗證器的架構中來利用它們,”他解釋說——無論這意味著在迴圈中投入更多的人力還是使用其他自動化程式。

在 Vectara,阿瓦達拉正在研究這方面。他的團隊的排行榜專案是幻覺檢測器的早期概念驗證——他說,檢測幻覺是能夠修復幻覺的第一步。未來的檢測器可能會與自動人工智慧編輯器配對,在錯誤到達終端使用者之前糾正錯誤。他的公司還在開發一個名為 AskNews 的混合聊天機器人和新聞資料庫,它將大型語言模型與檢索引擎相結合,後者從最近釋出的文章中挑選最相關的事實來回答使用者的問題。阿瓦達拉說,AskNews 提供的時事描述比單獨使用大型語言模型所能產生的描述要準確得多,因為聊天機器人僅根據資料庫搜尋工具挖掘的來源做出回應。

哈卡尼-圖爾也在研究基於事實的系統,這些系統將專門的語言模型與相對可靠的資訊來源(例如公司檔案、經過驗證的產品評論、醫學文獻或維基百科帖子)配對,以提高準確性。她希望——一旦所有問題都得到解決——這些基於事實的網路有一天可以成為健康訪問和教育公平等方面的有用工具。“我確實看到了語言模型作為工具的優勢,它們可以使我們的生活更美好、更高效、更公平,”她說。

在未來,專門系統驗證大型語言模型輸出的情況下,為特定環境設計的人工智慧工具將部分取代當今的通用模型。人工智慧文字生成器的每個應用(無論是客戶服務聊天機器人、新聞摘要服務甚至是法律顧問)都將是定製構建架構的一部分,這將使其效用得以實現。與此同時,不太可靠的通用聊天機器人將能夠響應您提出的任何問題,但不能保證真實性。它們將繼續成為強大的創意夥伴或靈感和娛樂來源——但不是預言或百科全書——完全符合設計初衷。

*編者注(2024 年 4 月 5 日):這句話在釋出後進行了編輯。它之前宣告,減輕大型語言模型輸出中的偏見是校準的一個例子。這實際上是一個單獨的過程,稱為對齊。

© .