讓 AI 聊天機器人更安全的三種簡易方法

科技行業正 rush headlong 衝向聊天機器人淘金熱。我們需要及時、重點明確的監管，以跟上步伐

Finger point to mobile phone with chatbot application — Jiraroj Praditcharoenkul/阿拉米庫存照片

我們已經進入了 AI 聊天機器人的勇敢新世界。這意味著一切，從重新構想學生在學校的學習方式到保護我們自己免受大規模生產的虛假資訊的侵害。這也意味著要聽取越來越多的監管 AI 的呼聲，以幫助我們駕馭計算機寫作像人一樣流利的時代。甚至更好。

到目前為止，在 AI 監管的必要性上達成的共識多於對其具體內容的共識。建立了聊天機器人應用 ChatGPT 的團隊負責人米拉·穆拉蒂說——歷史上增長最快的消費網際網路應用——政府和監管機構應該參與其中，但她沒有提出具體方法。在 3 月份的一次公司活動中，埃隆·馬斯克也以不太精確的措辭表示：“我們需要某種監管機構或類似的機構來監督 AI 的發展。”與此同時，ChatGPT 的廣泛用途顛覆了歐洲監管單一用途 AI 應用的努力。

為了打破僵局，我建議針對聊天機器人量身定製透明度和檢測要求，聊天機器人是依靠人工智慧與使用者對話並生成流利文字以響應鍵入請求的計算機程式。像 ChatGPT 這樣的聊天機器人應用是 AI 中非常重要的一個角落，它有望重塑許多日常活動——從我們寫作的方式到我們學習的方式。控制聊天機器人已經夠麻煩了，如果再陷入為自主武器、面部識別、自動駕駛汽車、歧視性演算法、廣泛自動化帶來的經濟影響以及一些人擔心的 AI 最終可能釋放的渺茫但並非為零的災難性災難而制定的更廣泛的 AI 立法，那就更麻煩了。科技行業正rush headlong 衝向聊天機器人淘金熱；我們需要及時、重點明確的立法，以跟上步伐。

關於支援科學新聞業

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞業訂閱。透過購買訂閱，您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。

新規則應跟蹤 AI 公司用於構建聊天機器人的兩個階段。首先，演算法在大量文字上進行訓練，以預測缺失的單詞。如果您看到足夠多的以“今天陰天，可能會……”開頭的句子，您就會知道最可能的結論是“下雨”——演算法也會學習到這一點。然後，經過訓練的演算法可以一次生成一個單詞，就像您手機上的自動完成功能一樣。接下來，人工評估員會一絲不苟地根據一些指標（例如準確性和與使用者查詢的相關性）對演算法的輸出進行評分。

我提出的第一個監管要求是，所有涉及聊天機器人技術的面向消費者的應用都應公開 AI 最初訓練所用的文字。這段文字影響巨大：在 Reddit 帖子上訓練，聊天機器人就會學會像 Reddit 使用者一樣說話。在《摩登原始人》上訓練它們，它們就會像巴尼·拉布爾一樣說話。關心網路上有害內容的人可能想避開在不體面網站的文字上訓練的聊天機器人。公眾壓力甚至可以勸阻公司不要在陰謀論“新聞”網站等內容上訓練聊天機器人——但這隻有在公眾知道公司在哪些文字上訓練時才有可能。在瑪麗·雪萊的1818 年小說《弗蘭肯斯坦》中，她透過列出這位文學前輩對人工智慧閱讀的書籍，讓我們得以一窺怪物的內心世界。現在是科技公司為他們自己超凡脫俗的聊天機器人造物做同樣事情的時候了。

人工評估員也極大地塑造了聊天機器人的行為，這指向了第二個透明度要求。ChatGPT 的一位工程師最近描述了團隊用來指導第二階段訓練的原則：“你希望它有用，你希望它是真實的，你希望它是——你知道的——無毒的。……它還應該澄清它是一個 AI 系統。它不應假設自己不具備的身份，不應聲稱自己擁有不具備的能力，並且當用戶要求它執行不應該執行的任務時，它必須寫一條拒絕訊息。”我懷疑提供給評估員的指南（其中包括肯亞的低工資合同工，）更加詳細。但目前沒有法律壓力要求披露有關培訓過程的任何資訊。

隨著谷歌、Meta 和其他公司競相將聊天機器人嵌入其產品中，以跟上微軟擁抱 ChatGPT的步伐，人們有權知道塑造它們的指導原則。據報道，埃隆·馬斯克正在招募一個團隊來構建一個聊天機器人，以與他認為 ChatGPT 過度“覺醒”的內容競爭；如果不進一步提高培訓過程的透明度，我們只能猜測這意味著什麼，以及他的聊天機器人將宣揚哪些以前被禁止的（並且可能危險的）意識形態。

因此，第二個要求是，聊天機器人開發的第二階段使用的指南應得到仔細闡述並公開可用。這將防止公司以草率的方式訓練聊天機器人，並且將揭示聊天機器人可能具有哪些政治傾向、哪些話題它不會觸及以及開發人員沒有避免哪些有害內容。

正如消費者有權知道他們食物中的成分一樣，他們也應該知道他們聊天機器人中的成分。此處提出的兩項透明度要求為人們提供了他們應得的聊天機器人成分列表。這將有助於人們在資訊飲食方面做出健康的選擇。

檢測驅動了第三個必要的條件。許多教師和組織正在考慮禁止聊天機器人生成的內容（有些已經這樣做了，包括Wired 和一個流行的編碼問答網站），但如果沒有辦法檢測聊天機器人文字，禁令就沒什麼價值。ChatGPT 背後的公司 OpenAI 釋出了一個檢測 ChatGPT 輸出的實驗性工具，但它非常不可靠。幸運的是，有一種更好的方法——OpenAI 可能很快就會實施：水印。這是一種用於改變聊天機器人詞頻的技術方法，使用者無法察覺，但提供了一個隱藏的印章，用於識別文字及其聊天機器人作者。

我們不應僅僅希望 OpenAI 和其他聊天機器人生產者實施水印，而應強制要求這樣做。我們應該要求聊天機器人開發人員向聯邦機構（如聯邦貿易委員會或眾議員特德·劉正在提議的 AI 監督機構）註冊他們的聊天機器人和唯一的水印簽名。聯邦機構可以提供一個公共介面，允許任何人插入一段文字，檢視哪些（如果有）聊天機器人可能生成了它。

此處提出的透明度和檢測措施不會減緩 AI 的進步，也不會降低聊天機器人以積極方式服務社會的能力。它們只會讓消費者更容易做出明智的決定，並讓人更容易識別 AI 生成的內容。雖然 AI 監管的某些方面非常微妙和困難，但這些聊天機器人監管是明確且迫切需要的正確方向的步驟。

這是一篇觀點和分析文章，作者或作者表達的觀點不一定代表《大眾科學》的觀點。