資料偵探如何揭露可疑的醫學試驗

麻醉師約翰·卡萊爾發現了數百篇研究論文中的問題,並促使一家 ведущий 醫學期刊改變其做法

麻醉師約翰·卡萊爾在英國託基的一家醫院工作,並在業餘時間尋找醫學研究試驗中的統計學錯誤。

Emli Bendixen 為自然雜誌供稿

如果約翰·卡萊爾裝了貓門,科學欺詐者晚上可能會睡得更安穩。卡萊爾每天早上 4:30 準時起床,放出家裡的寵物 Wizard。然後,由於無法入睡,他拿起筆記型電腦,開始輸入已發表的臨床試驗論文中的資料。在他妻子的鬧鐘在 90 分鐘後響起之前,他通常已經設法用數百人的年齡、體重和身高填滿了一張電子表格——他懷疑其中一些人實際上從未存在過。

白天,卡萊爾是一名麻醉師,在英國國家醫療服務體系的海濱小鎮託基工作。但在業餘時間,他會在科學記錄中尋找可疑的臨床研究資料。在過去的十年中,他的偵查工作涵蓋了用於調查各種健康問題的試驗,從特定飲食的益處到醫院治療指南。由於不當行為和錯誤,這導致數百篇論文被撤回和更正。它還幫助結束了一些大規模造假者的職業生涯:在全世界撤稿最多的六位科學家中,有三位是使用卡萊爾的資料分析變體而被揭露的。

澳大利亞墨爾本阿爾弗雷德醫院麻醉和圍手術期醫學主任保羅·邁爾斯說:“他的技術已被證明非常有用。”他曾與卡萊爾合作檢查包含虛假統計資料的研究論文。“他用它來證明一些重大的欺詐案例。”


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。


卡萊爾的統計學副業並不受所有人歡迎。批評者認為,它有時會導致對並非明顯有缺陷的論文提出質疑,從而導致不合理的懷疑。

但卡萊爾認為,他正在幫助保護患者,這就是為什麼他將業餘時間花在研究他人的研究上。“我這樣做是因為我的好奇心驅使我這樣做,”他說,而不是因為渴望揭露不當行為:“重要的是不要成為反對不當行為的鬥士。”

結合其他堅持不懈地檢查學術論文的研究人員的工作,他的努力表明,科學的把關人——期刊和機構——可以做更多工作來發現錯誤。在卡萊爾關注的醫學試驗中,這可能關係到生死攸關。

行為不端的麻醉師

託基看起來像任何其他傳統的英國省份小鎮,環形交叉路口上擺放著漂亮的花卉,還有足夠多的粉彩色小屋引人注目。卡萊爾在該地區居住了 18 年,並在該鎮的綜合醫院工作。在一個空蕩蕩的手術室裡,在一位病人剛被縫合好並推走後,他解釋了他如何開始尋找醫學研究中的偽造資料。

十多年前,卡萊爾和其他麻醉學家開始議論一位日本研究員吉高藤井發表的結果。在一系列隨機對照試驗 (RCT) 中,當時在東京東邦大學工作的藤井聲稱,他研究了各種藥物對預防患者術後嘔吐和噁心的影響。但資料看起來太完美了,不像是真的。卡萊爾是眾多關注者之一,他決定使用統計檢驗來檢查資料,以找出資料中不太可能的模式。他在 2012 年表明,在許多情況下,模式偶然出現的可能性“微乎其微”。部分受到這項分析的推動,期刊編輯要求藤井現在和以前的大學進行調查;藤井於 2012 年被東邦大學解僱,並有 183 篇論文被撤回,創下歷史記錄。四年後,卡萊爾與他人共同發表了一篇對另一位日本麻醉師齋藤裕二(藤井的經常合作者)的結果的分析,並證明他的資料也極度可疑。齋藤目前有53 篇撤稿

其他研究人員很快在他們自己的分析中引用了卡萊爾的工作,這些分析使用了他的方法的變體。例如,2016 年,紐西蘭和英國的研究人員報告了日本南部一家醫院的骨骼研究員佐藤嘉弘的論文中存在問題。這最終導致 27 篇撤稿,佐藤撰寫的論文總共有 66 篇被撤稿。

在藤井和齋藤的案例之前,麻醉學界曾多次受到欺詐醜聞的衝擊——包括德國麻醉師約阿希姆·博爾特,他有 90 多篇論文被撤回。但卡萊爾開始懷疑是否只有他自己的領域存在問題。因此,他選擇了八種 ведущий 期刊,並在業餘時間檢查了他們發表的數千項隨機試驗。

2017 年,他在麻醉雜誌上發表了一篇分析報告,稱他在 16 年來發表的 5,000 多項試驗中發現了 90 項可疑資料。此後,至少有 10 篇論文被撤回,6 篇被更正,其中包括新英格蘭醫學雜誌 (NEJM) 上發表的一項關於地中海飲食對健康益處的高知名度研究。但在該案例中,沒有欺詐的暗示:作者在如何隨機分配參與者方面犯了一個錯誤。在作者刪除錯誤資料後,該論文重新發表,結論相似。

卡萊爾一直在堅持不懈。今年,他警告說,義大利拉奎拉大學的義大利外科醫生馬里奧·斯基特羅馬的數十項麻醉研究不可靠,不能作為臨床實踐的基礎。邁爾斯曾與卡萊爾合作撰寫該報告,他去年在斯基特羅馬的五篇論文中發現對照組和患者組的原始資料存在可疑的相似之處後,發出了警報。

對斯基特羅馬的主張的質疑在全球各地的醫院都產生了影響。世界衛生組織在 2016 年釋出建議時引用了斯基特羅馬的工作,建議麻醉師應在手術期間和手術後常規提高他們向患者輸送的氧氣水平,以幫助減少感染。這是一個有爭議的呼籲:麻醉師知道,在某些手術中,過多的氧氣可能與併發症風險增加有關——而且這些建議將意味著貧困國家的醫院將更多預算花在昂貴的瓶裝氧氣上,邁爾斯說。

邁爾斯警告說,這五篇論文很快被撤回,世衛組織將其建議從“強烈”修改為“有條件”,這意味著臨床醫生可以更自由地為各種患者做出不同的選擇。斯基特羅馬說,他的計算結果已經過獨立統計學家評估和同行評審,而且他特意選擇了相似的患者組,因此如果資料非常吻合,也就不足為奇了。他還說,2009 年拉奎拉發生地震時,他丟失了與試驗相關的原始資料和檔案。該大學的一位發言人說,它已將詢問留給“主管調查機構”,但沒有解釋這些機構是哪些機構,也沒有說明是否正在進行任何調查。

麻醉師在手術期間使用的瓶裝氧氣。圖片來源:Mark Thomas Alamy 

發現不自然的資料

卡萊爾說,卡萊爾方法的核心內容並不新鮮:只是真實資料具有自然模式,而人工資料很難複製這些模式。這種現象在 1880 年代就被發現了,並由美國電氣工程師和物理學家弗蘭克·本福德於 1938 年推廣,此後被許多統計檢查員使用。例如,政治科學家長期以來一直使用類似的方法來分析調查資料——他們將這種技術稱為斯托弗方法,以社會學家塞繆爾·斯托弗的名字命名,他在 1950 年代普及了這種方法。

對於 RCT,卡萊爾會檢視描述試驗中志願者群體特徵的基線測量值,通常是對照組和干預組。這些包括身高、體重和相關的生理特徵——通常在論文的第一個表格中描述。

在真正的 RCT 中,志願者被隨機分配到對照組或(一個或多個)干預組。因此,每個特徵的平均值和標準差應該大致相同——但不能太相同。那樣就太完美得可疑了。

卡萊爾首先為每個配對構建一個P:一種統計測量,用於衡量如果假設志願者實際上被隨機分配到每個組,則報告的基線資料點有多大可能。然後,他彙總所有這些P 值,以瞭解測量的總體隨機性。組合的P 值如果看起來太高,則表明資料平衡得可疑地好;如果太低,則可能表明患者已被錯誤地隨機分組。

該方法並非萬無一失。統計檢查要求表格中的變數是真正獨立的——但在現實中,它們通常不是。(例如,身高和體重是相關的。)在實踐中,這意味著一些被標記為不正確的論文實際上並非如此——因此,一些統計學家批評了卡萊爾的工作。

但卡萊爾說,應用他的方法是一個很好的第一步,它可以突出顯示可能值得進一步研究的研究,例如請求論文背後的個人患者資料。

邁爾斯說:“它可以發出紅色警報。或者琥珀色警報,或者 5 個或 10 個紅色警報,表明這極不可能成為真實資料。”

錯誤與惡棍

卡萊爾說,他很注意不將任何原因歸因於他發現的可能問題。然而,在 2017 年,當卡萊爾對 5,000 項試驗的分析出現在麻醉雜誌(他是該雜誌的編輯)上時,悉尼大學的麻醉師約翰·勞茲曼和蒂姆·麥卡洛克撰寫的一篇隨刊社論採取了更具挑釁性的路線。

它談到了“不誠實的作者”和“惡棍”,並暗示“更多已發表 RCT 的作者最終將受到警告”。它還說:“可以有力地論證,世界上每家期刊現在都需要將卡萊爾的方法應用於他們曾經發表的所有 RCT。”

這引起了一家期刊麻醉學的編輯的強烈措辭回應,該期刊發表了卡萊爾強調的 12 篇有問題論文。“卡萊爾的文章在倫理上值得懷疑,並且是對其中‘點名’的先前發表文章的作者的不尊重,”該期刊的主編,北卡羅來納州達勒姆杜克大學的麻醉師埃文·卡拉什寫道。他的社論是與馬薩諸塞州綜合醫院的麻醉師蒂莫西·豪爾共同撰寫的,後者是麻醉學的統計顧問,強調了諸如該方法可能會標記出假陽性等問題。“一種檢測捏造和偽造(類似於抄襲檢查軟體)的有效方法將受到歡迎。卡萊爾方法並非如此,”他們在給麻醉雜誌的信中寫道。

5 月,麻醉學確實更正了卡萊爾強調的一篇論文,指出該論文報告了兩個表格中“系統性不正確”的P 值,並且作者丟失了原始資料,無法重新計算這些值。然而,卡拉什說,他堅持自己在社論中的觀點。卡萊爾說,勞茲曼和麥卡洛克的社論“合理”,並且對他的工作的批評並沒有削弱其價值。“我坦然地認為這項努力是值得的,而其他人可能不這麼認為,”他說。

資料檢查員

卡萊爾的方法並不是過去幾年中出現的唯一一種用於複核已發表資料的方法。

荷蘭蒂爾堡大學研究分析方法的米歇爾·努伊滕開發了一種她稱之為“統計學拼寫檢查”的軟體,該軟體可以掃描期刊文章,以檢查所描述的統計資料是否在內部一致。 statcheck 例如,它驗證結果部分中報告的資料是否與計算出的P 值一致。它已被用於標記期刊文章中通常是數字排印錯誤,可以追溯到幾十年前的錯誤。

荷蘭格羅寧根大學的心理學研究生尼克·布朗和馬薩諸塞州波士頓東北大學研究科學方法的詹姆斯·希瑟斯也使用了一個名為 GRIM 的程式來複核統計平均值的計算,作為標記可疑資料的另一種方法。

這兩種技術都不適用於描述 RCT 的論文,例如卡萊爾評估的研究。 Statcheck 在美國心理學會使用的嚴格資料呈現格式下執行。 GRIM 僅在資料為整數時才有效,例如心理學問卷中生成的離散數字,當一個值從 1 到 5 分時。

加利福尼亞州斯坦福大學研究科學方法並倡導更好地使用統計資料以提高科學可重複性的約翰·約安尼迪斯說,人們對這些型別的檢查越來越感興趣。“它們是非常好的工具,而且非常巧妙。”但他告誡不要對發現的問題的原因妄下結論。“如果我們談論的是欺詐,而不是一些排印錯誤,那麼情況就完全不同了,”他說。

布朗、努伊滕和卡萊爾都同意,他們的工具只能突出需要調查的問題。 “我真的不想將 statcheck 與欺詐聯絡起來,”努伊滕說。約安尼迪斯說,這些工具的真正價值在於在論文發表之前篩選有問題的論文資料——從而防止欺詐或錯誤首先進入文獻。

卡萊爾說,越來越多的期刊編輯聯絡他,詢問是否可以以這種方式使用他的技術。目前,大多數工作都是非官方的臨時完成的,並且僅當編輯已經感到懷疑時才進行。

至少有兩家期刊更進一步,現在將統計檢查用作所有論文發表過程的一部分。卡萊爾自己的期刊麻醉雜誌會例行使用它,NEJM 的編輯也是如此。 “我們正在努力預防罕見但可能具有重大影響的負面事件,”NEJM 的一位發言人說。 “這值得額外的花費和時間。”

卡萊爾說,他對NEJM 這樣具有地位的期刊引入這些檢查印象深刻,他親身知道這些檢查是費力、耗時且並非普遍受歡迎的。但他表示,即使要檢查每年全球發表的約 200 萬篇論文中的一小部分,也需要自動化才能引入這些檢查。他認為這是可以做到的。努伊滕說,Statcheck 以這種方式工作,並且正在被多家心理學期刊例行用於篩選投稿。文字挖掘技術使研究人員能夠評估數千篇論文中的P 值,例如一種調查P 值操縱的方法——其中調整資料以產生顯著的P 值。

該領域的幾位研究人員表示,一個問題是,資助者、期刊和科學界許多人對這些檢查的重視程度相對較低。 “做這種型別的工作並沒有什麼回報,”努伊滕說。 “這是你試圖找到別人作品中的缺陷,而這不會讓你很受歡迎。”

即使發現一項研究是欺詐性的,也並不總是能結束這件事。 2012 年,韓國的研究人員向麻醉與鎮痛雜誌提交了一份試驗報告,該報告研究了面部肌肉張力如何指示將呼吸管插入喉嚨的最佳時間。卡萊爾被非正式地要求檢視一下,他發現患者資料和摘要資料之間存在差異,並且該論文被拒絕。

值得注意的是,然後它被提交給了卡萊爾自己的期刊,其中包含不同的患者資料——但卡萊爾認出了這篇論文。它再次被拒絕,兩家期刊的編輯都向作者及其機構提出了他們的擔憂。令卡萊爾驚訝的是,幾個月後,這篇論文(與最後版本相同)發表在歐洲麻醉學雜誌上。在卡萊爾與期刊編輯分享了該論文的可疑歷史後,該論文於 2017 年因“資料中的違規行為,包括結果的虛假陳述”而被撤回。

在看到如此多的欺詐案例以及排印錯誤和錯誤之後,卡萊爾提出了他自己關於是什麼驅使一些研究人員編造資料的理論。 “他們認為,這次隨機機會妨礙了真理,妨礙了他們瞭解宇宙的真實運作方式,”他說。 “因此,他們將結果更改為他們認為應該有的結果。”

正如卡萊爾所表明的那樣,需要一位堅定的資料檢查員才能發現欺騙行為。

本文經許可轉載,並於 2019 年 7 月 23 日首次發表

大衛·亞當是倫敦的一位作家和記者。

更多作者:大衛·亞當

自然創刊於 1869 年,是世界領先的綜合性科學期刊。《自然》發表最優秀的同行評審研究,推動突破性發現,並被世界各地的思想領袖和決策者閱讀。

更多作者:自然雜誌
SA 健康與醫學 第 1 卷 第 5 期本文最初以“資料偵探如何揭露可疑的醫學試驗”為標題發表於 SA 健康與醫學 第 1 卷 第 5 期 ()
doi:10.1038/scientificamerican102019-R3T26qT3NVzlVZZ2NYklh
© .