掃描揭示數千篇模仿科學文章

資料庫搜尋發現研究論文與先前出版物異常相似,引發調查

一項針對生物醫學研究文獻的新計算機掃描發現,數萬篇文章中似乎有整段段落是從其他論文中抄襲而來。根據這項研究,研究人員估計,在領先的研究資料庫Medline中約 1700 萬篇論文中,可能有多達 20 萬篇重複論文。

這一發現已經導致一家出版物撤回了一篇論文,原因是該論文與另一位作者的先前文章過於相似。

德克薩斯大學西南醫學中心達拉斯分校的研究人員 Mounir Errami 和 Harold “Skip” Garner 使用文字匹配演算法,將 700 萬份 Medline 摘要與資料庫軟體標記為密切相關的匹配條目進行比較。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您將有助於確保有關塑造我們今天世界的發現和思想的具有影響力的故事的未來。


Errami 說,研究人員將他們自己的軟體工具 eTBLAST 設定為識別超過 45% 相同的配對。搜尋發現了超過 70,000 個命中,研究人員和一個由三名助手組成的團隊一直在手動檢查這些命中。Errami 指出,到目前為止,他們已經檢查了近 3,000 對摘要或全文文章(如果重複項的作者不同)。他指出,一些匹配項被發現是無意的重複,例如重印或翻譯。

但在 79 個案例(且數量還在增加)中,作者不同的重複項沒有明顯的合法解釋。該小組建立了一個名為 Déjà vu 的公共網站,以記錄這些發現。

研究人員表示,在這些潛在剽竊案件中的下一步是期刊進行調查。在 Nature 的一份報告中,他們建議其他科學家“在經過適當機構(如編輯委員會或大學道德委員會)評估之前,暫緩對任何候選重複項做出判斷。”

他們指出,迄今為止檢查的大多數可疑重複項似乎是同一作者向多家期刊提交的論文,這是一種不太嚴重的道德失誤,允許研究人員人為地誇大他們的出版學分,並增加其工作的分量。

Errami 和 Garner 估計,在 eTBLAST 命中的結果中,可能有 50,000 個,而在超過 1700 萬條 Medline 條目中,可能有 200,000 個(0.01%)最終被證明是抄襲或重複列表。

先前的研究得出了不同的重複率。在明尼蘇達大學 2002 年對 3,247 名生物醫學研究人員進行的盲法調查中,4.7% 的人承認他們曾重新發表論文,1.4% 的人承認曾借用他人的作品。美國一位計算機科學家領導的 2006 年對物理學預印本資料庫 arXiv 中超過 280,000 篇論文的分析發現,30,316 篇(10.5%)被懷疑是重複的,677 篇(0.2%)可能被剽竊。

行動與撤稿

德克薩斯大學西南醫學中心的作者發現了三起他們自己的同事可能被抄襲的案例。Errami 和 Garner 提醒了相關作者和期刊,他們說這已導致相關出版物進行調查。

一項調查已經導致撤稿:期刊出版商 Elsevier 正在撤回哈佛醫學院風溼病學家 Lee Simon 於 2004 年發表的一篇綜述論文(總結現有研究),Elsevier 公司關係總監 Shira Tabachnikoff 說。根據 Déjà vu 的條目,Simon 發表在 Best Practice & Research Clinical Rheumatology 上的論文文字中有 55% 與德克薩斯大學西南醫學中心風溼病學家 Roy Fleischmann 一年前發表在 Expert Opinion on Drug Safety 上的論文高度匹配。

SciAm.com 對這兩篇文章的評論證實,Simon 32 頁文章中的多個連續頁面文字與 Fleischmann 19 頁論文中的段落幾乎相同;在後一篇論文中列出的 161 篇參考文獻中,幾乎所有參考文獻都以相同的非字母順序、非時間順序排列在 2003 年的出版物中。

在撤稿前的電話採訪中,Fleischmann 暫未指控 Simon 剽竊,等待 Elsevier 的決定,但他承認相似之處至少是可疑的。“對於文章的大部分內容來說,它在用詞、逗號、句號、句子、段落上都是一模一樣的,”他說。

Simon 承認他在 Fleischmann 的論文發表之前審閱過該論文,他為自己的文章辯護說,兩位作者總結相同的研究主體的方式只有這麼多。“這不是故意的重複,”他在電話採訪中告訴 SciAm.com。“這就是你寫綜述文章時會發生的情況。”

他補充說,他因為一篇寫起來很費力且沒有給他帶來額外聲望的論文而被挑出來。“誰在乎?這是一篇綜述文章,”他說。“我再也不會寫另一篇了,因為這些廢話。”

重複論文會持續增加嗎?

Errami 和 Garner 表示,他們希望被發現的可能性會阻止潛在的模仿者。

但期刊出版商洛克菲勒大學出版社的執行董事 Mike Rossner 指出,eTBLAST 或類似的搜尋方案可能無法成功阻止重新發表,因為同時提交給兩家期刊的手稿在發表後才會出現在資料庫中。

Nature 雜誌的出版執行編輯 Maxine Clarke 說,她的出版物使用文字匹配軟體將提交的論文與出版集團的許多專業期刊中的論文進行比較。她指出,他們還要求未來的作者提交預印本和提交給其他期刊的相關手稿的副本,以幫助編輯和審稿人評估其新穎性。Nature Protocols 的助理編輯 Bronwen Dekker 說,她的期刊使用 eTBLAST 掃描提交的論文,以查詢摘要或引言中是否存在自我剽竊(抄襲自己過去的作品)的證據。

一些證據表明,被發現的可能性可能不會阻止肆無忌憚的人。Rossner 說,五年前,洛克菲勒大學出版社開始檢查論文中是否存在操縱描繪實驗資料的照片的情況,但他表示,他沒有看到經過篡改的影像數量有所下降。

儘管這一發現的長期影響仍有待觀察,但已經產生了一些後果。舉例來說:Fleischmann 說,他認識 Simon 25 年了,並把他當作朋友,但補充說“我不知道我們現在是否還是朋友。”

© .