科學家們是否做了過多的研究?

這聽起來幾乎很荒謬,但這可能是所謂的“可重複性危機”背後的一個因素

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點


提出這個問題聽起來幾乎是異端邪說:科學研究是否過多?

對——填入您最喜歡的主題——進行更多研究的需求是那些不證自明的真理之一。 尋求政府資助、基金會撥款和捐款以治療疾病的多元化醫療界當然對此表示贊同。 關於氣候變化的政治辯論引發了激烈的口水戰,但雙方都認同需要更多研究的觀點。 大學和非營利研究機構大聲疾呼要求更多研究資金。 與這種巨大需求背道而馳的是人們感覺研究資金正在枯竭:由於激烈的財政鬥爭和國會的預算僵局,美國國立衛生研究院和其他政府研究機構的資金停滯不前。

那麼,人們怎麼可能認為研究過多呢?


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


對當前研究結果的審視具有啟發意義。 2015年8月,布萊恩·諾塞克和他在他共同創立的開放科學中心同事,分享了一項對2008年發表的100項不同研究的考察,所有研究都屬於心理學領域。 除三項研究外,所有研究都報告了具有統計學意義的發現。 諾塞克和他的同事著手重複這些研究,諮詢了原始作者並使用了相同的方法。 只有36%的原始研究得到了證實,而且那些得到證實的研究所重複出的效應量比原始研究中的效應量要小。 約翰·約阿尼迪斯曾廣泛撰寫關於科學發現經重新審查後消失的問題,他早在2005年的論文《為什麼大多數已發表的研究結果是錯誤的》中就引起了科學界對這個問題的關注。

這種可重複性問題的核心是用於驗證研究結果的統計推斷方法——特別是“統計顯著性”的概念。 統計學上顯著的結果是指與您可能從隨機機會中預期的結果有很大差異的結果。 這聽起來很合理,如果有點模糊,但當這個概念變得更具體時,它就會變成一個“統計黑匣子”,超出了大多數研究人員的理解或興趣。 大多數人只對他們的資料和他們的發現感興趣,而透過統計顯著性檢驗僅僅是一個必要的程式步驟,就像在邊境蓋護照章一樣。

幾乎就像那樣。 如果您是一位旅客,在一個入境點被拒絕入境,然後嘗試從另一個入境點入境,移民局會記住您的第一次嘗試,您可能會再次被拒絕。 但研究的守門人卻不是這樣。 如果您的初步發現沒有透過統計顯著性的門檻,您可以有其他的機會。 假設您正在研究維生素 X 對健康的影響,並且您決定使用大型流行病學佇列資料集之一(例如,1948年開始的針對馬薩諸塞州弗雷明翰居民的“弗雷明翰研究”)。

您可能會失望地發現,資料中維生素 X 與健康之間沒有關係。 但是您可以回頭只看女性;或男性;或50歲以上的男性。 誰知道您要檢視多少個亞組才能找到關係? 當您在大型資料集中反覆尋找有趣的模式時(除非您正確應用所謂的多次檢驗程式來提高統計顯著性的門檻),統計推斷提供的防止被“偶然性愚弄”的保護就會消失。

考慮以下情景——您將如何解讀它們?

情景 1. 有人聲稱能夠拋硬幣並“用意志力”使其每次都正面朝上。 您要求此人拋一枚25美分硬幣10次,結果每次都是正面朝上。

情景 2:在洋基隊比賽中,播音員要求在場的所有 20,000 名球迷拋硬幣 10 次,並報告他們是否全部正面朝上。 301 區 P 排 12 座位的球迷向一位引導員宣佈,他全部都是正面朝上。

在第一個情景中,您做了一次“測試”,結果非常出色,您對這些結果感到非常驚訝,以至於認為這個人具有非凡的能力。 在第二個情景中,您進行了 20,000 次測試——換句話說,您創造了 20,000 次發生不尋常事情的機會。 因此,一些球迷連續獲得 10 次正面朝上一點也不令人驚訝(事實上,這幾乎是必然的)。

美國統計協會在 10 月中旬舉辦了一次關於統計推斷的研討會。 會上,約翰·約阿尼迪斯和史蒂夫·古德曼闡述了統計專業面臨的挑戰,因為其研究的“良好管家認可印章”的價值正在穩步下降。 約阿尼迪斯說,“我們正淹沒在統計顯著性的海洋中”……並且……“p 值[一種計算顯著性的標準方法]已成為一種令人厭煩的麻煩。” 這次研討會是去年美國統計協會關於 p 值的宣告的後續行動,與會者討論瞭解決該問題的可能技術方案——例如,從 p 值切換到效應量周圍的置信區間。

但問題要 fundamental 得多。 太多研究人員在職業壓力下為了產生可發表的成果,正在進行過多的資料追逐和過度的分析,以追求顯著的結果。 2011 年 PubMed 收錄的科學論文數量超過 120 萬篇——自 1980 年以來增加了三倍。 這與等待被發現的突破性知識和創新數量成比例嗎?

布魯斯·阿爾伯茨等人。 在他們討論醫學研究中系統性缺陷的文章 (pdf) 中提到了這個問題。 正如他們所說:“……大多數成功的生物醫學科學家培養的科學家遠遠超過取代他們自己所需的數量; 總的來說,培訓渠道產生的科學家比學術界、政府和私營部門的相關職位所能吸收的還要多。”

隨著更多論文的發表,更多論文被撤回。 這個問題在中國尤其嚴重。 期刊《腫瘤生物學》在發現來自中國的 107 篇已發表論文的同行評審過程是偽造的後,於今年早些時候撤回了這些論文。 今年發表在《科學與工程倫理學》上的一項針對中國生物醫學研究人員的調查估計,中國 40% 的研究受到不端行為的影響。

史蒂夫·古德曼在研討會上傾向於贊同,研究中的可重複性問題是由尋求發表的研究人員數量驅動的,並且用其他標準取代 p 值會帶來暫時的改善,但其他發表標準也可能同樣被博弈。

考慮將 p 值閾值從 0.05 降低到 0.005 的提議。 這會有幫助嗎? 這可能會使情況更糟:將統計顯著性門檻提高 10 倍確實會對研究結果的發表構成更大的障礙。 但是,設計合理、誠實進行和報告且具有可重複性的良好研究將完全受阻。 不健全或不誠實的研究,如果依賴於“p 值操控”,則只需要更廣泛地搜尋以找到符合統計顯著性檢驗的神奇結果。

這是在誇大問題嗎? 也許是過於簡化了。

可重複性問題在探索現有資料以尋找有趣(即可發表)的東西的研究中尤為突出,而不是預先陳述假設,然後收集資料來檢驗假設的實驗。 後者如果誠實地進行,則具有限制虛假結果的內在機制。 而核心在於動機問題——研究是由好奇心和回答緊迫問題的需要驅動的嗎? 還是由研究人員的職業考慮驅動的?

加利特·什穆埃利是一位著名的資料分析作家,她廣泛發表了關於使用統計資料來解釋與預測之間的區別的文章,她對研究飽和的概念提出異議。 她認為,當今的技術格局將需要在管理、社會科學和人文學科領域進行更多高質量和相關的研究

然而,研究人員的供應(主要由政府資助和高等教育部門的規模擴大驅動)與良好、相關的研究成果的供應之間仍然沒有自然的聯絡。 正是大量且不斷增長的努力爭取可發表成果的研究人員導致了結論的誇大其詞和無法重複。 統計專業可以為發表提供一個更全面、更不易“被博弈”的門檻,但這並不能減輕博弈系統的壓力。

Peter Bruce founded The Institute for Statistics Education at Statistics.com in 2002. He is a co-author of "Data Mining for Business Analytics" (Wiley), and "Practical Statistics for Data Scientists: 50 Essential Concepts" (O'Reilly,2017), the author of "Introductory Statistics and Analytics: A Resampling Perspective" (Wiley), and the co-developer of Resampling Stats software.

More by Peter Bruce
© .