“ChatGPT 檢測器” 以空前準確度捕捉人工智慧生成的論文

一種基於機器學習的新工具利用寫作風格的特徵來區分人類作者和人工智慧作者

A computer screen and keyboard with the home page of the artificial intelligence OpenAI web site, displaying its chatGPT robot.

一種新的人工智慧檢測工具可以準確識別 ChatGPT 撰寫的化學論文。

加入我們的科學愛好者社群!

根據 11 月 6 日發表在《細胞報告-物理科學》上的一項研究,一種機器學習工具可以輕鬆識別出何時使用聊天機器人 ChatGPT 撰寫化學論文。這種專門的分類器優於兩種現有的人工智慧 (AI) 檢測器,可以幫助學術出版商識別人工智慧文字生成器建立的論文。

“大多數文字分析領域都想要一個真正通用的檢測器,可以適用於任何事物,”共同作者、堪薩斯大學勞倫斯分校的化學家希瑟·德賽爾說。但是,透過製作一個專注於特定型別論文的工具,“我們真正追求的是準確性。”

德賽爾說,研究結果表明,透過針對特定型別的寫作定製軟體,可以促進開發人工智慧檢測器的努力。“如果你可以快速輕鬆地構建一些東西,那麼為不同的領域構建一些東西並不難。”


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。


文體要素

德賽爾和她的同事在 6 月首次描述了他們的 ChatGPT 檢測器,當時他們將其應用於《科學》雜誌的觀點文章。該檢測器使用機器學習,檢查寫作風格的 20 個特徵,包括句子長度的變化以及某些單詞和標點符號的頻率,以確定一篇文字是由學術科學家還是 ChatGPT 撰寫的。研究結果表明,“你可以使用一小部分特徵來獲得高水平的準確性”,德賽爾說。

在最新的研究中,該檢測器接受了美國化學學會 (ACS) 出版的十種化學期刊論文的引言部分的訓練。德賽爾說,該團隊之所以選擇引言,是因為如果 ChatGPT 可以訪問背景文獻,那麼論文的這一部分相對容易撰寫。研究人員使用 100 篇已發表的引言來訓練他們的工具,作為人類撰寫的文字,然後要求 ChatGPT-3.5 以 ACS 期刊風格撰寫 200 篇引言。對於其中的 100 篇,該工具提供了論文的標題,對於另外 100 篇,則提供了摘要。

當在人類撰寫的引言和人工智慧根據相同期刊生成的引言上進行測試時,該工具以 100% 的準確率識別出基於標題的 ChatGPT-3.5 撰寫的部分。對於基於摘要的 ChatGPT 生成的引言,準確率略低,為 98%。該工具對 ChatGPT-4(聊天機器人的最新版本)編寫的文字同樣有效。相比之下,人工智慧檢測器 ZeroGPT 識別人工智慧撰寫的引言的準確率僅為約 35-65%,具體取決於使用的 ChatGPT 版本以及引言是根據論文的標題還是摘要生成的。ChatGPT 的製造商 OpenAI 製作的文字分類器工具也表現不佳——它能夠以約 10-55% 的準確率發現人工智慧撰寫的引言。

新的 ChatGPT 捕捉器甚至在未經訓練的期刊的引言中也表現良好,並且捕捉到了由各種提示建立的人工智慧文字,包括旨在迷惑人工智慧檢測器的提示。然而,該系統高度專門用於科學期刊文章。當呈現大學報紙上的真實文章時,它無法識別出這些文章是由人類撰寫的。

更廣泛的問題

柏林應用科學大學 HTW 研究學術剽竊的計算機科學家德博拉·韋伯-伍爾夫說,作者正在做的事情“非常有趣”。她說,許多現有工具試圖透過搜尋人工智慧生成寫作的預測性文字模式,而不是透過檢視寫作風格的特徵來確定作者身份。“我從沒想過在 ChatGPT 上使用文體學。”

但韋伯-伍爾夫指出,還有其他問題驅動著 ChatGPT 在學術界的使用。她指出,許多研究人員面臨著快速發表論文的壓力,或者他們可能不認為撰寫論文的過程是科學的重要組成部分。人工智慧檢測工具無法解決這些問題,不應被視為“解決社會問題的神奇軟體解決方案”。

本文經許可轉載,並於 2023 年 1 月 27 日首次發表於 nature.com。

© .