AI的胡說八道掩蓋了誰該為它的錯誤負責

重要的是，在討論AI聊天機器人如何編造資訊時，我們使用準確的術語。

作者：Joe Slater, James Humphries& Michael Townsen Hicks 編輯：Daniel Vergano

Alt Robot with bullhorn and fingers crossed behind back — Malte Mueller/Getty Images

現在人工智慧無處不在。當您撰寫文件時，您可能會被詢問是否需要“AI助手”。開啟PDF檔案，您可能會被詢問是否希望AI為您提供摘要。但是，如果您使用過ChatGPT或類似程式，您可能熟悉一個問題——它會編造內容，導致人們對其所說的內容持懷疑態度。

將這些錯誤描述為“幻覺”已變得很常見。但是，以這種方式談論ChatGPT具有誤導性，並且可能造成損害。相反，稱其為胡說八道。

我們說這話並非輕率。在哲學家中，“胡說八道”具有一種專門的含義，這種含義由已故美國哲學家哈里·法蘭克福推廣。法蘭克福說，當有人胡說八道時，他們不是在說真話，但他們也不是真的在撒謊。胡說八道者的特點是他們根本不在乎他們說的是否真實。ChatGPT及其同類無法關心，因此在技術意義上，它們是胡說八道機器。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的具有影響力的故事。

我們可以很容易地理解為什麼這是真的以及為什麼這很重要。例如，去年，一位律師在撰寫法律摘要時使用ChatGPT進行研究時，發現自己陷入困境。不幸的是，ChatGPT包含了虛構的案例引用。它引用的案例根本不存在。

這並非罕見或異常。為了理解原因，值得思考一下這些程式是如何工作的。OpenAI的ChatGPT、谷歌的Gemini聊天機器人和Meta的Llama在結構上都以類似的方式工作。它們的核心是LLM——大型語言模型。這些模型都對語言進行預測。給定一些輸入，ChatGPT將對接下來應該出現什麼或什麼是適當的響應做出一些預測。它透過分析大量的文字（其“訓練資料”）來實現這一點。在ChatGPT的案例中，初始訓練資料包括來自網際網路的數十億頁文字。

LLM從這些訓練資料中預測，從一些文字片段或提示中，接下來應該出現什麼。它將得出一個最有可能出現的單詞列表（技術上是語言標記），然後選擇一個主要的候選詞。允許它不每次都選擇最有可能的單詞，可以產生更具創意（和更像人類聲音）的語言。設定允許多少偏差的引數稱為“溫度”。在此過程的後期，人類訓練員透過判斷輸出是否構成明智的言語來改進預測。也可以對程式施加額外的限制，以避免問題（例如ChatGPT說種族歧視言論），但這種逐個標記的預測是所有這項技術的基礎思想。

現在，我們可以從這個描述中看出，建模的任何方面都不能確保輸出準確地描繪世界上的任何事物。沒有太多理由認為輸出與任何形式的內部表示有關。訓練有素的聊天機器人將生成類似人類的文字，但該過程的任何部分都不會檢查文字是否真實，這就是為什麼我們非常懷疑LLM是否真的理解它所說的內容。

因此，有時ChatGPT會說謊。近年來，隨著我們逐漸習慣人工智慧，人們開始將這些謊言稱為“AI幻覺”。雖然這種語言是隱喻性的，但我們認為這不是一個好的隱喻。

想想莎士比亞的範例幻覺，其中麥克白看到一把匕首飄向他。這裡發生了什麼？麥克白試圖以正常方式使用他的感知能力，但出了問題。而且他的感知能力幾乎總是可靠的——他通常不會隨機看到匕首漂浮！通常，他的視覺在表示世界方面很有用，並且由於它與世界的聯絡，因此在這方面做得很好。

現在想想ChatGPT。每當它說話時，它只是試圖產生類似人類的文字。目標僅僅是製作聽起來不錯的東西。這從來沒有直接與世界聯絡起來。當它出錯時，不是因為它這次沒有成功地表示世界；它從未嘗試表示世界！稱其謊言為“幻覺”並沒有抓住這個特徵。

相反，我們建議，在Ethics and Information Technology雜誌的6月報告中，更好的術語是“胡說八道”。如前所述，胡說八道者只是不在乎他們說的是否真實。

因此，如果我們確實將ChatGPT視為與我們進行對話——儘管即使這可能有點牽強——那麼它似乎很符合要求。就其意圖而言，它旨在產生令人信服的類人文字。它不是試圖說關於世界的事情。它只是在胡說八道。而且至關重要的是，即使它說的是真話，它也是在胡說八道！

為什麼這很重要？“幻覺”在這裡不只是一個不錯的隱喻嗎？如果它不貼切，真的有關係嗎？我們認為這很重要，至少有三個原因：

首先，我們使用的術語會影響公眾對技術的理解，這本身就很重要。如果我們使用誤導性的術語，人們更有可能誤解技術的工作原理。我們認為這本身就是一件壞事。

其次，我們描述技術的方式會影響我們與該技術的關係以及我們如何看待它。這可能是有害的。想想那些被“自動駕駛”汽車引入虛假安全感的人們。我們擔心，談論AI“產生幻覺”（通常用於人類心理學的術語）有將聊天機器人擬人化的風險。ELIZA效應（以1960年代的聊天機器人命名）發生在人們將人類特徵歸因於計算機程式時。我們在谷歌員工開始相信該公司的一個聊天機器人具有感知能力的案例中極端地看到了這一點。將ChatGPT描述為胡說八道機器（即使它是一個非常令人印象深刻的機器）有助於減輕這種風險。

第三，如果我們將能動性歸因於程式，這可能會在出現問題時將責任從使用ChatGPT的人或其程式設計師身上轉移開。如果正如看起來的那樣，這種技術將越來越多地用於重要事項例如醫療保健，那麼至關重要的是，我們要知道在出現問題時誰負責。

因此，下次當您看到有人將AI編造內容描述為“幻覺”時，請稱其為胡說八道！

這是一篇觀點和分析文章，作者或作者表達的觀點不一定代表《大眾科學》的觀點。