一個聊天機器人能識破另一個的謊言嗎?

一種新方法使用語言模型來質詢其他語言模型並嗅探謊言

Moor Studio/Getty Images

如果你問人工智慧系統,例如 ChatGPT,埃菲爾鐵塔在哪裡,聊天機器人很可能會正確回答“巴黎”。但是,如果反覆問人工智慧相同的問題,你最終可能會被告知,實際上,答案是羅馬。這個錯誤可能看起來微不足道,但它預示著生成式人工智慧中一個更嚴重的問題:幻覺,或者當人工智慧創造的內容不符合現即時。

有時,就像埃菲爾鐵塔的例子一樣,幻覺是顯而易見的且無害的。但有時,故障可能會產生危險的後果:例如,人工智慧在生成醫療建議時可能會產生幻覺。由於尖端聊天機器人的構建方式,它們傾向於以統一的自信來呈現其所有主張——無論主題或準確性如何。“對於語言模型來說,真實的東西和不真實的東西之間沒有區別,”牛津大學前人工智慧研究員 Andreas Kirsch 說。

幻覺已被證明是難以捉摸且持久存在的,但計算機科學家正在改進在大型語言模型(LLM)中檢測它們的方法,LLM 是一種生成式人工智慧系統,包括 ChatGPT 和其他聊天機器人。現在,一個新專案旨在檢查 LLM 的輸出是否存在可疑錯誤——方法是讓它透過另一個 LLM。第二個 AI 系統檢查來自第一個系統的多個答案,評估它們的一致性並確定系統的不確定性水平。牛津大學博士生、《自然》雜誌新發表的一項研究的作者 Jannik Kossen 說,這在原則上類似於意識到某人容易“前後矛盾”。人工智慧系統相互交叉檢查的概念並不是一個新想法,但 Kossen 及其同事的方法已經超越了先前用於識別幻覺的基準。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


人工智慧測謊儀

該研究的作者專注於他們稱為“虛構”的一種 LLM 幻覺形式——任意且不正確的陳述。與其他型別的 AI 錯誤(可能源於不正確的訓練資料或推理失敗)不同,虛構源於模型生成過程的內在隨機性。

但是,使用計算機檢測虛構是很棘手的。“你可以用許多不同的方式[正確地]說同一件事,這對任何系統來說都是一個挑戰,”澳大利亞皇家墨爾本理工大學計算技術學院院長 Karin Verspoor 說,她沒有參與這項研究。

為了查明語言模型可能何時虛構,新方法包括多次提問以生成多個 AI 生成的答案。然後,第二個 LLM 根據這些答案的含義對它們進行分組;例如,“John drove his car to the store”和“John went to the store in his car”將被聚類在一起。對於每個生成的答案,此過程都會重複。

為了確定這些 AI 生成的響應中的一致性,Kossen 及其同事計算了一個他們稱為“語義熵”的新指標。如果 LLM 以多種方式回答一個問題,而所有方式都大致意味著相同的事情,表明分組響應中存在度確定性或一致性,則 LLM 的語義熵被認為是的。但是,如果答案在含義上差異很大,則語義熵被認為是高的——表明該模型不確定並且可能在虛構響應。如果聊天機器人的多個陳述包括“埃菲爾鐵塔在巴黎”、“它在羅馬”、“巴黎是埃菲爾鐵塔的所在地”和“在法國首都巴黎”,則這種方法可以將“羅馬”識別為異常值和可能的虛構。

其他反幻覺方法使用 LLM 來評估生成的答案,透過諸如要求單個模型仔細檢查自己的工作等方法。但新研究表明,配對系統在這方面有所改進,區分正確答案和錯誤答案的準確率提高了約 10%。

逃避檢測

儘管如此,新方法並不是發現 AI 幻覺的完美方法。首先,獲取多個答案以提高 LLM 的可靠性會放大此類系統已經很高的能源消耗。“始終存在成本效益的權衡,”Kirsch 說。但他認為,為了“多采樣一點並多花一點錢來確保我們儘可能避免幻覺”,這是值得的。

另一個問題出現在模型缺乏正確回答問題的資料時——這迫使它用最可能的猜測來回答。這樣,一些幻覺是根本無法避免的。要求 LLM 總結關於語義熵主題的新論文,如果它可以訪問最近的出版物,它可能會指向這項最新的研究;如果不能,它可能會引用看似可信的研究,但作者和標題是合理但虛構的。

Verspoor 說,擁有檢測虛構的新方法是有幫助的,但“這篇特定的論文只涵蓋了這個領域的一個小角落”。“我們可以在一定程度上信任 [LLM]。但必須有一個限度。”

© .