1994年,我重塑了自我。作為通用原子公司的一名物理學家和工程師,我隸屬於一個內部智囊團,負責解答公司任何部門提出的難題。多年來,我參與了各種各樣的專案,從冷核聚變到捕食者無人機。但在 20 世紀 90 年代初,我開始頻繁地與生物學家和遺傳學家合作。他們會告訴我他們進行研究需要哪些酷炫的新技術;而我會嘗試發明它們。
大約在那時,我聽說了名為“人類基因組計劃”的新專案。其目標是破譯人類染色體中約 30 億個 DNA 鹼基或密碼字母的序列。我對此著迷不已。我碰巧在本雜誌上讀到一篇文章,指出一些必要的技術尚未發明出來。物理學家和工程師必須實現這一目標。不知不覺地,我發現自己成為了德克薩斯大學西南醫學中心的教授,在那裡,我和我的科學夥伴,一位遺傳學家,正在建立人類基因組計劃的首批研究中心之一。
那裡的一切都截然不同。我的同事們說的是另一種語言——醫學。我說的是物理學。在物理學中,基本方程支配著幾乎所有事物。在醫學中,沒有通用的方程——只有大量的觀察結果、一些零碎的理解以及大量的術語。我會參加研討會,記下大量我從未聽過的詞彙,然後在之後花上幾個小時來查閱它們。為了閱讀一篇科學論文,我必須手邊備著一本醫學詞典。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事能夠擁有未來。
由於無法理解任何連貫的文字,我感到沮喪,於是決定開發軟體來幫助我。我想要一個搜尋引擎,它可以接收一段文字,並返回參考文獻以供進一步閱讀,以及摘要和論文,從而讓我快速瞭解手頭的主題。這是一個難題。網路搜尋引擎才剛剛興起。它們對於找到鎮上最好的沙拉三明治餐廳來說還不錯,但它們無法開始消化包含多個相互關聯的概念的段落,併為我指出相關的讀物。
在一些學生和博士後的幫助下,我著手研究文字分析,並共同開發了一個名為 eTBLAST(電子文字基本區域性比對搜尋工具)的軟體。它的靈感來自於軟體工具 BLAST,該工具用於搜尋 DNA 和蛋白質序列資料庫。BLAST 的查詢通常是一系列 100 到 400 個 DNA 字母,並且會返回包含這些程式碼的更長序列。eTBLAST 的查詢將是一個段落或頁面——通常是 100 個或更多單詞。設計搜尋協議比設計搜尋字母字串的軟體更難,因為搜尋引擎不能僅僅是字面意義上的。它還必須識別同義詞、首字母縮略詞和用不同詞語表達的相關概念,並且它必須考慮詞序。為了響應由一段文字組成的查詢,eTBLAST 將返回一個來自它正在搜尋的資料庫的排名“命中”列表,以及查詢和找到的每個摘要之間的相似性度量。
顯而易見的搜尋資料庫是 Medline(可從 PubMed (pubmed.org) 獲取),它是美國國立衛生研究院國家醫學圖書館維護的生物學研究知識庫,與醫學相關。它包含數千種同行評審期刊的數百萬篇研究論文的標題和摘要。Medline 有一個基於關鍵詞的搜尋引擎,因此對幾個詞語(例如,“乳腺癌基因”)的查詢會返回大量命中,通常帶有指向全文論文的連結。但作為一名新轉行的生物醫學研究人員,我甚至不知道如何開始我的許多搜尋。
最初版本的 eTBLAST 需要數小時才能將幾百個單詞的段落與 Medline 進行比較。但是該軟體奏效了。使用 eTBLAST,我可以逐段地理解科學論文,掌握其含義。我可以將研究生的論文提案放入其中,並快速瞭解相關文獻。我的研究夥伴甚至與谷歌討論了我們的軟體商業化事宜,但卻被告知它與該公司的商業模式不符。
然後,事件發生了奇怪的轉變。有幾次,我發現學生提案中的文字與其他未引用的論文中的文字完全相同。這些學生接受了補救性倫理培訓。我收到了一個將改變我職業生涯的研究問題:專業生物醫學文獻中有多少是抄襲的?
似曾相識
當我著手探索這個新問題時,關於生物醫學剽竊的研究包括匿名調查。在我發現的最新調查中,研究人員承認 1.4% 的時間存在剽竊行為。但是這個數字的準確性取決於調查物件的誠實程度。藉助 eTBLAST,我們可以找出他們是否在說真話。
一旦我們獲得了足夠的學生幫助和一臺足夠強大的計算機,我們便從 Medline 中隨機選擇了摘要,然後將它們用作 eTBLAST 查詢。計算機會將查詢文字與 Medline 的全部內容進行比較,尋找相似之處,然後返回命中列表。每個命中都帶有相似性得分。查詢始終位於列表的頂部——相似度為 100%。第二個命中的相似性得分通常在個位數到 30% 之間。但偶爾,我們發現第二個,有時甚至是第三個命中的得分接近 100%。在運行了幾千個查詢後,我們開始看到大約 5% 的查詢具有可疑的高相似性得分。我們透過肉眼審查了這些摘要,以確保該軟體找到的東西是人類會認為相似的東西。然後,我們繼續比較摘要高度相似的論文的全文。
很快,我們開始發現公然的剽竊示例——不僅僅是回收利用的短語,而是整篇論文的全文照搬。這令人失望,甚至令人震驚。當然,我們知道調查顯示,1.4% 的研究人員承認剽竊。但是,並排檢視抄襲論文的示例是完全不同的事情。特別是對於學生來說,這個過程令人興奮。他們感覺自己像是打擊犯罪的鬥士,從某種意義上說,他們確實是。
下一步是擴大計算規模和分析規模。為了徹底起見,我們想對 Medline 中每個足夠長度的條目執行相似性搜尋——當時,幾乎有 900 萬個條目,每個條目平均包含 300 個單詞,乘以近 900 萬次比較。這項任務花費了數月時間,並消耗了我們實驗室相當多的計算能力。隨著結果的出現,我們對其進行了分析,並將所有高度相似的結果放入我們稱之為 Déjà Vu 的資料庫中。
Déjà Vu 開始填充成對的高度相似的 Medline 摘要——大約 80,000 對相似度至少為 56% 的摘要對。這些摘要對中的絕大多數都非常相似,原因非常充分——例如,它們是舊論文的更新或會議摘要。但其他摘要對則令人懷疑。
我們向自然雜誌提交了一篇論文,其中包含關於剽竊和重複發表(有時稱為自我剽竊)頻率的資料、關於 Déjà Vu 資料庫內容以及一些主要示例的詳細資訊。(大眾科學是自然出版集團的一部分。)編輯們接受了,但由於我們提到了一些摘要是抄襲的,律師們把這篇論文撕成了碎片。他們提出了一個很好的觀點:唯一可以做出剽竊決定的機構是編輯和倫理審查委員會。我們只能提供事實——任何兩篇科學文獻之間的文字重疊量或相似度。最終,在律師的批准下,我們就是這樣做的。
當自然雜誌的報告發布後,一切都亂了套。期刊編輯們很不高興,因為這給他們帶來了額外的工作。為了保護他們的版權,原始論文的編輯不得不堅持撤回被抄襲的論文。當然,第二家出版商感到尷尬。科學家們很生氣,因為我們的結果似乎暴露了同行評審的缺陷。但每個人都勉強承認,這是一個重要的話題和一個嚴重的問題。科學家和臨床醫生會根據他們在文獻中讀到的內容做出關鍵決策。如果這些決策是基於被汙染的研究,那意味著什麼?
最終,我們確定 0.1% 的專業出版物是公然抄襲他人的作品。(我們只尋找彼此幾乎完全相同的論文;肯定還有更多論文片段被抄襲的情況,但由於我們的軟體只搜尋摘要,因此它不會檢測到此類情況。)大約 1% 的論文是自我抄襲;一位作者的作品會以幾乎相同的形式出現在多達五種期刊上。如果這些百分比看起來很小,請考慮每年都會發表大約 600,000 篇新的生物醫學論文。
不久之後,我們注意到出版過程已經開始發生變化。期刊編輯開始使用 eTBLAST 來檢查他們的投稿。我也發生了改變。我又一次進化了,在我的職位描述中增加了“倫理研究員”一項。
我作為倫理警察的生活
第一項大型剽竊研究僅僅是一個開始。瞭解剽竊的原因及其對科學的影響需要做更多的工作。何時重複文字是可以接受的?科學家何時以及為何會抄襲?文字分析還能揭示哪些其他型別的不道德行為?因此,我們改進了我們的軟體,擴充套件了我們的資料庫,並開展了新的研究。
我們隨後的一些工作揭示了剽竊辯論中意想不到的細微差別。我們發現,在某些情況下,文字相似性不僅可以接受,而且是首選的。例如,在研究論文的方法部分中,最重要的考慮因素是結果的可重複性,非原創的措辭可以清楚地表明使用了完全相同的協議,從而服務於重要的目的。
我們還發現了一些真正令人髮指的倫理失誤。在一項發表在科學雜誌上的研究中,我們選取了我們能找到的最公然的剽竊示例——成對的論文,其中論文 B 平均有 86% 與論文 A 相同——並對其進行了詳細分析。我們將帶有註釋的論文副本以及保密調查問卷透過電子郵件傳送給了與這些論文相關的作者和編輯。他們是否意識到了這種相似性?他們能解釋嗎?我們聯絡的人中有 90% 做出了回應。
一些作者透露了驚人的違反倫理的行為。一些人承認他們在審閱論文時抄襲了論文——並且他們給了這些論文差評以阻止其發表。其他人則將失誤歸咎於虛構的醫學生。一位作者說他抄襲一篇論文是為了開玩笑。這個人碰巧是他所在國家國家倫理委員會的副主席。不出所料,那批受汙染的論文中的大多數後來都被撤回了。
這些不是我們發現的最後違反倫理的行為。在 2012 年初,我們開始尋找重複申請資助的例項——即,從多個政府機構獲得資金來做同樣的工作。我們從政府和私人機構(包括美國國立衛生研究院、國家科學基金會、國防部、能源部和蘇珊·G·科曼抗擊乳腺癌基金會)下載了約 860,000 份撥款摘要,並對其進行了 eTBLAST 處理。這項研究需要進行 800,000 次乘以 800,000 次(大約 10
12)比較,以及超級計算機級別的算力。
在審查了 1,600 份最相似的撥款摘要後,我們發現大約 170 對摘要具有幾乎相同的目標、目的或假設。我們得出了一些結論:重複申請資助長期以來一直存在;它涉及美國最負盛名的大學;以及由此造成的生物醫學研究損失每年高達 2 億美元。
科學出版的未來
一小部分人總是會打破社會規範,科學家也不例外。在絕望的時期,隨著資金減少以及學術職位的競爭日益激烈,一些科學家註定會行為不端。事實上,近期大量湧現的可疑的、曇花一現的期刊已使科學出版成為一場狂野西部式的表演。現在比以往任何時候都更容易找到一個地方來發表你的材料,即使它是公然抄襲的。
文字分析為我們提供了一個用於監管不良行為的良好工具。但它最終可以做的遠不止於揪出剽竊行為。它可以促進全新的研究共享方式。
一個有趣的想法是採用維基百科模式:建立一個關於某個主題的動態電子語料庫,供科學家不斷編輯和改進。每個新的“出版物”都將由對單一不斷增長的知識體系的貢獻組成;那些冗餘的方法部分將變得不必要。維基百科模式將是朝著建立跨所有學科的所有科學出版物的中央資料庫邁出的一步。作者和編輯可以使用文字挖掘來驗證新研究的新穎性,並開發衡量思想或發現影響力的可靠指標。理想情況下,我們不應透過一篇論文獲得的引用次數來衡量其影響力,而應衡量其對我們整體科學知識甚至對社會的影響。
在弗吉尼亞理工大學(我四年前搬到那裡),我們正在努力維持 eTBLAST 的執行,但該軟體仍然有數千名使用者。與此同時,我的妻子和商業夥伴金·梅尼爾和我對文字分析持樂觀態度。我們正在努力將揭露如此多剽竊例項的那種段落大小的相似性搜尋應用於其他目的,包括撥款管理、市場研究和專利盡職調查。我們是否掌握了下一個谷歌?誰知道呢?但以我的經驗來看,文字分析確實可以揭示真相。它曾經向我證明,科學家可能和我們其他人一樣有缺陷。
