2013年12月16日

生物醫學研究：信不信由你？

一篇研究文章飛速衝向其第一百萬次瀏覽量的情況並不常見。每天都有數千篇生物醫學論文發表。

作者：希爾達·巴斯蒂安

本文發表在《大眾科學》的前部落格網路中，反映了作者的觀點，不一定反映《大眾科學》的觀點

一篇研究文章飛速衝向其第一百萬次瀏覽量的情況並不常見。每天都有數千篇生物醫學論文發表。儘管作者們經常熱情地懇求“看看我！看看我！”，但大多數文章不會引起太多注意。

不過，吸引注意力從來都不是這篇論文的問題。2005年，現在在斯坦福大學的約翰·伊奧尼迪斯發表了一篇論文，至今仍像剛發表時一樣受到關注。它是總結孤立地看待研究的危險性以及其他偏見陷阱的最佳文章之一。

但是為什麼如此受關注？好吧，這篇文章認為大多數已發表的研究結果都是錯誤的。正如您所料，其他人認為伊奧尼迪斯發表的研究結果本身就是錯誤的。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您將幫助確保未來關於塑造我們當今世界的發現和想法的有影響力的故事。

您可能通常不會覺得關於統計方法的辯論有多麼吸引人。但是，如果您曾經對今天令人興奮的科學新聞經常變成明天的揭秘故事感到沮喪，請繼續關注這篇文章。

伊奧尼迪斯的論文基於統計建模。他的計算使他估計，超過 50% 的已發表生物醫學研究結果，其 p值 < 0.05 很可能是假陽性。我們稍後會回到這個問題，但首先請認識一下兩位挑戰這一點的數字專家。

2007 年第一輪：當時在約翰霍普金斯大學生物統計系和加州大學洛杉磯分校的史蒂文·古德曼和桑德·格林蘭加入。他們對原始分析的特定方面提出了挑戰。他們認為我們還不能對生物醫學研究中的假陽性做出可靠的全域性估計。伊奧尼迪斯在PLOS Medicine的原始文章的評論部分寫了反駁。

2013 年第二輪：接下來是來自美國海軍學院數學系的莉亞·賈格和約翰霍普金斯大學生物統計系的傑弗裡·利克。他們使用完全不同的方法來研究同一個問題。他們的結論是：醫學研究中只有 14%（上下浮動 1%）的 p 值可能是假陽性，而不是大多數。伊奧尼迪斯回應了。 其他統計學權威也做出了回應。

那麼到底有多少是錯誤的？大多數、14% 還是我們根本不知道？

讓我們從p值開始，這是一個經常被誤解的概念，它是關於研究中假陽性的爭論的組成部分。（請參閱我之前關於它在科學衰落中的作用的文章。）右邊那位興高采烈的數字運算員剛剛踏入了假陽性p值陷阱。

幾十年前，統計學家卡洛·邦費羅尼解決了試圖解釋不斷增加的假陽性p值的問題。使用一次測試，錯誤的機率可能是 1/20。但是，你使用統計測試尋找這種、那種資料之間是否存在正相關關係的情況越多，你認為自己取得的“發現”就越可能出錯。並且，大資料集中噪音與訊號的比率也會增加。（關於邦費羅尼、多重測試問題和錯誤發現率的更多資訊，請參見我的另一個部落格Statistically Funny。）

在他的論文中，伊奧尼迪斯不僅考慮了統計資料的影響，還考慮了研究方法的偏差。正如他指出的那樣，“隨著偏差的增加，研究結果為真的可能性會大大降低。”例如，在一個大型資料集中挖掘可能的關聯不如測試其他研究型別產生的假設的那種設計良好的大型臨床試驗可靠。

他是如何做到這一點的，這是他和古德曼/格林蘭分歧的第一個領域。他們認為伊奧尼迪斯用來解釋其模型中偏差的方法過於嚴厲，導致假陽性的假設數量過高。他們都同意偏見的問題——只是不同意量化偏見的方法。古德曼和格林蘭還認為，許多研究將p值扁平化為“< 0.05”而不是確切值，會阻礙這種分析，以及我們測試伊奧尼迪斯正在解決的問題的能力。

他們意見不一致的另一個領域是伊奧尼迪斯在高知名度研究領域得出的結論。他認為，當許多研究人員活躍在某個領域時，任何一項研究結果出錯的可能性都會增加。古德曼和格林蘭認為，該模型不支援這一點，而只是當有更多研究時，錯誤研究的機會會成比例增加。

賈格和利克使用完全不同的方法來研究伊奧尼迪斯提出的問題。他們從 5 個主要期刊的十年中所有論文的摘要中挖掘了 5,322 個 p 值。然後，他們使用了一種從基因組研究中改編而來的錯誤發現率 (FDR) 技術。他們承認需要研究 FDR 如何適用於非基因組研究，但他們的工作仍然表明，真正的錯誤發現率肯定遠低於“大多數”。

伊奧尼迪斯堅持自己的觀點。他指出，這 5 個期刊並不代表文獻。例如，偏差最小的研究型別（隨機對照試驗和系統綜述）的比例比一般文獻高出 10 倍以上。並且摘要中的p值也不能說明全部情況。

這把我們帶向何方？研究中全球假統計陽性的比率是接近 15% 還是 50% 或更高？我認為古德曼和格林蘭證明了我們仍然不知道。這兩項研究以及伊奧尼迪斯也指出的研究重複成功率較低的情況表明，這個比例高得令人不安。並且毫無疑問，在某些型別的研究中，出錯的可能性比其他型別的研究要高得多。伊奧尼迪斯的文章很好地總結了導致這種情況的問題和許多偏見。

高度偏差的研究造成損害的主要原因之一是，當我們所有人決定是否相信研究結果時，偏差會起作用。這就是我們傾向於相對不加批判地接受那些我們希望相信為真的發現，同時挑剔那些具有對抗性的研究發現。我們必須處理的最大偏見是我們自己。

~~~~

有關此內容的更多資訊，請參見我九月份的文章，不良研究抬頭和學術包裝。另請參見“保護自己免受資料主導錯誤影響的 6 個技巧”和“他們會那樣說，不是嗎？”

這篇文章中的漫畫是我從 Statistically Funny 帖子中摘取的原創作品，這些帖子講述了孤立地看待研究和多重測試/錯誤發現率的危險。

“大多數研究結果都是錯誤的”的論文追蹤

伊奧尼迪斯的原始論文
古德曼和格林蘭詳細回應並在評論部分中回應
伊奧尼迪斯回應古德曼和格林蘭
賈格和利克用一篇“錯誤發現率”研究回應
伊奧尼迪斯回應
倒計時到一百萬？*

披露：我是PLOS Medicine的學術編輯，該開放獲取醫學期刊發表了伊奧尼迪斯的論文。

* 希爾達·巴斯蒂安在Absolutely Maybe這裡表達的想法是個人觀點，不一定反映美國國立衛生研究院或美國衛生與公共服務部的觀點。