AI 傻瓜科學家撰寫的研究摘要

科學家有時無法區分由 AI ChatGPT 生成的研究摘要和人類撰寫的摘要

AI Brain over keyboard illustration — Olemedia/Getty 影像

根據 12 月下旬釋出在 bioRxiv 伺服器上的預印本¹，人工智慧 (AI) 聊天機器人可以撰寫出極具說服力的虛假研究論文摘要，以至於科學家常常無法識別。研究人員對於這對科學的意義存在分歧。

“我非常擔憂，”英國牛津大學研究技術和監管的 Sandra Wachter 說，她沒有參與這項研究。“如果我們現在處於專家都無法判斷真假的情況下，我們就失去了我們迫切需要的中介，來引導我們理解複雜的主題，”她補充道。

聊天機器人 ChatGPT 可以根據使用者提示生成聽起來逼真且智慧的文字。它是一個“大型語言模型”，這是一種基於神經網路的系統，透過消化大量現有人類生成的文字來學習執行任務。總部位於加利福尼亞州舊金山的軟體公司 OpenAI 於 11 月 30 日釋出了該工具，並且可以免費使用。

支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您將幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。

自發布以來，研究人員一直在努力解決圍繞其使用的倫理問題，因為其許多輸出結果都難以與人類撰寫的文字區分開來。科學家們已經發表了一篇由 ChatGPT 撰寫的預印本² 和一篇社論³。現在，由伊利諾伊州芝加哥西北大學的 Catherine Gao 領導的一個小組已經使用 ChatGPT 生成了人工研究論文摘要，以測試科學家是否可以識別出來。

研究人員要求聊天機器人根據發表在JAMA、《新英格蘭醫學雜誌》、《英國醫學雜誌》、《柳葉刀》和《自然醫學》上的精選文章撰寫 50 篇醫學研究摘要。然後，他們透過剽竊檢測器和 AI 輸出檢測器執行這些摘要，並將它們與原始摘要進行比較，並要求一組醫學研究人員找出偽造的摘要。

未被察覺

ChatGPT 生成的摘要順利通過了剽竊檢查器：原創性評分中位數為 100%，這表明未檢測到剽竊。AI 輸出檢測器發現了 66% 的生成摘要。但人工審閱者的情況也好不到哪裡去：他們僅正確識別出 68% 的生成摘要和 86% 的真實摘要。他們錯誤地將 32% 的生成摘要識別為真實的，並將 14% 的真實摘要識別為生成的。

Gao 及其同事在預印本中說：“ChatGPT 撰寫了可信的科學摘要。”“為了幫助科學寫作，大型語言模型的倫理和可接受使用範圍仍有待確定。”

Wachter 說，如果科學家無法確定研究是否真實，可能會產生“可怕的後果”。除了對研究人員來說存在問題（他們可能會被引向錯誤的調查路線，因為他們閱讀的研究是偽造的），“對整個社會也存在影響，因為科學研究在我們的社會中扮演著如此重要的角色”。例如，這可能意味著以研究為依據的政策決定是不正確的，她補充道。

但新澤西州普林斯頓大學的計算機科學家 Arvind Narayanan 說：“任何認真的科學家都不太可能使用 ChatGPT 來生成摘要。”他補充說，生成摘要是否可以被檢測到是“不相關的”。“問題是該工具是否可以生成準確且引人注目的摘要。它不能，因此使用 ChatGPT 的好處微乎其微，而壞處卻很明顯，”他說。

Irene Solaiman 在總部位於紐約和巴黎的 AI 公司 Hugging Face 研究 AI 的社會影響，她對任何依賴大型語言模型進行科學思考的做法都感到擔憂。“這些模型是根據過去的資訊進行訓練的，而社會和科學的進步往往來自於與過去不同的思考或開放的思考方式，”她補充道。

作者建議，評估科學傳播（如研究論文和會議記錄）的人員應制定政策，以杜絕使用 AI 生成的文字。如果機構選擇在某些情況下允許使用該技術，則應制定關於披露的明確規則。本月早些時候，將於 7 月在夏威夷檀香山舉行的第四十屆國際機器學習大會（一個大型 AI 會議）宣佈，它已禁止使用 ChatGPT 和其他 AI 語言工具撰寫的論文。

Solaiman 補充說，在虛假資訊可能危及人們安全的領域（例如醫學），期刊可能不得不採取更嚴格的方法來驗證資訊的準確性。

Narayanan 說，解決這些問題的方案不應側重於聊天機器人本身，“而應側重於導致這種行為的扭曲激勵，例如大學在進行招聘和晉升審查時，只計算論文數量，而不考慮其質量或影響力”。

本文經許可轉載，並於 2023 年 1 月 12 日 首次發表。