出版商撤回 120 多篇胡言亂語的科學和工程論文

在一位科學家揭露會議論文集是計算機生成之後,這些論文集已從訂閱資料庫中刪除

在一位法國研究人員發現這些作品是計算機生成的無意義內容後,出版商斯普林格和 IEEE 正在從他們的訂閱服務中刪除 120 多篇論文。

在過去的兩年裡,法國格勒諾布林約瑟夫·傅立葉大學的計算機科學家西里爾·拉貝編制了計算機生成的論文目錄,這些論文在 2008 年至 2013 年間被髮表在 30 多篇會議論文集中。其中 16 篇出現在德國海德堡的斯普林格出版的刊物上,100 多篇由位於紐約的電氣和電子工程師學會 (IEEE) 出版。這兩家出版商在收到拉貝的私人通知後,都表示他們正在刪除這些論文。

例如,其中一篇論文是作為 2013 年在中國成都舉行的國際質量、可靠性、風險、維護和安全工程會議的論文集出版的。(會議網站表示,所有手稿都經過“對優點和內容的審查”)。這篇題為“TIC:電子商務建設的方法”的論文的作者在摘要中寫道,他們“將努力集中在駁斥電子表格可以做到基於知識、有同情心和緊湊”。(《自然新聞》試圖聯絡會議組織者和論文署名作者,但沒有收到回覆;然而,至少一些名字是真實的人。IEEE 現在已經刪除了這篇論文)。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保關於當今塑造我們世界的發現和想法的有影響力的故事的未來。


*更新:一位署名作者於 2 月 25 日回覆了《自然新聞》。他說他是在 2013 年 12 月會議組織者通知他的大學時才第一次得知這篇文章的;並且他不知道為什麼他被列為論文的合著者。“相關調查人員正在調查此事,”他說。

如何建立一篇胡言亂語的論文
拉貝開發了一種自動檢測由名為 SCIgen 的軟體編寫的手稿的方法,該軟體隨機組合單詞字串以生成虛假的計算機科學論文。SCIgen 由馬薩諸塞州劍橋的麻省理工學院 (MIT) 的研究人員於 2005 年發明,目的是證明會議會接受毫無意義的論文,並且,正如他們所說,“為了最大限度地娛樂”(請參閱“計算機會議歡迎胡言亂語的論文”)。一個相關的程式在諷刺網站 arXiv vs. snarXiv 上生成隨機的物理學手稿標題。SCIgen 可以免費下載和使用,目前尚不清楚有多少人這樣做,或出於什麼目的。當研究人員提交胡言亂語的論文然後揭露這個把戲時,SCIgen 的輸出偶爾會在會議上出現。

拉貝不知道論文提交的原因,甚至不知道作者是否知道這些論文。大多數會議在中國舉行,大多數虛假論文的作者都有中國機構的附屬關係。拉貝已向許多論文和相關會議中提到的編輯和作者傳送了電子郵件,但收到的回覆很少;一位編輯說他沒有在特定的會議上擔任程式主席,即使他被指名擔任該職務,另一位作者聲稱他的論文是故意提交的以測試會議,但在後續中沒有回應。《自然》沒有收到一些詢問的任何回覆。

“我沒有意識到問題的嚴重程度,但我知道它肯定會發生。我們偶爾會收到好心人士發來的電子郵件,告知我們 SCIgen 論文的出現地點,”傑里米·斯特里布林說,他曾在麻省理工學院時與人合著了 SCIgen,現在在加利福尼亞州帕洛阿爾託的軟體公司 VMware 工作。

拉貝說:“這些論文很容易被發現。”他建立了一個 網站,使用者可以在這裡測試論文是否是使用 SCIgen 建立的。他的檢測技術,在 2012 年發表在《科學計量學》上的一項研究中有所描述,包括搜尋由 SCIgen 生成的特徵詞彙。在該論文發表前不久,拉貝通知了 IEEE 他發現的 85 篇虛假論文。IEEE 公司傳播主管莫妮卡·斯蒂克爾說,出版商“立即採取行動刪除這些論文”,並“改進了我們的流程,以防止不符合我們標準的論文在未來發表”。2013 年 12 月,拉貝通知了 IEEE 他發現的另一批明顯的 SCIgen 文章。上週,這些文章也被撤下,但被刪除文章的網頁沒有解釋其缺失的原因。

斯普林格英國傳播主管露絲·弗朗西斯表示,該公司已就正在下架的文章的相關問題聯絡了編輯,並正在嘗試聯絡作者。她證實,相關的會議論文集經過了同行評審——這使得這些論文被接受更加令人費解。

然而,IEEE 不願透露是否已聯絡了可疑 SCIgen 論文的作者或編輯,或者相關會議的提交是否應該進行同行評審。“我們繼續遵循嚴格的管理指南來評估 IEEE 會議和出版物,”斯蒂克爾說。

虛假論文的悠久歷史
拉貝對虛假研究並不陌生。2010 年 4 月,他使用 SCIgen 為一位名叫艾克·安特卡爾的虛構作者生成了 102 篇虛假論文 [請參閱pdf]。拉貝展示了將這些虛假論文新增到谷歌學術資料庫是多麼容易,將艾克·安特卡爾的h 指數(衡量已發表成果的指標)提高到 94——當時,這使安特卡爾成為世界上被引用次數第 21 位的科學家。去年,西班牙格拉納達大學的研究人員補充了拉貝的工作,透過上傳六篇帶有長篇列表的虛假論文到他們自己之前的工作中,提高了他們在谷歌學術中的引用分數。

拉貝說,最新的發現僅僅是“在科學的核心發起的垃圾郵件戰爭”的一個症狀,在這種戰爭中,研究人員感到壓力,要儘快發表論文,儘可能多地發表論文。

記者和研究人員接受會議或期刊上的欺騙性論文以揭示學術質量控制的缺陷有著悠久的歷史——從紐約大學物理學家艾倫·索卡爾於 1996 年在《社會文字》雜誌上發表的一篇虛假論文,到美國記者約翰·博漢農在2013 年發表在《科學》上的一項誘捕行動,他在該行動中讓 150 多種開放獲取期刊接受了一項故意存在缺陷的研究以供發表。

拉貝強調,所有胡言亂語的計算機科學論文都出現在訂閱產品中。他認為,很少有證據表明,向手稿收取出版費的開放獲取出版商的同行評審一定比訂閱出版商少。

拉貝補充說,使用他的工具很容易檢測出這些胡言亂語的論文,就像許多出版商已經使用的抄襲檢查器一樣。但由於他無法自動下載訂閱資料庫中的所有論文,因此他無法確定他是否發現了每一篇 SCIgen 生成的論文。

本文經《自然》雜誌許可轉載。該文章於 2014 年 2 月 24 日首次發表

© .