科學家對用於區分研究虛假與事實的統計工具的缺失感到不安

《基礎與應用社會心理學》期刊最近禁止使用p值和其他統計方法來量化研究結果中顯著性的不確定性

心理學研究人員最近發現自己陷入了一場統計學上的自我反省。在顯然是科學期刊有史以來的首次舉動中,《基礎與應用社會心理學》的編輯在二月份的一篇社論中宣佈,提交研究論文發表的研究人員將不允許使用一套常用的統計方法,其中包括一個有爭議的稱為p值的指標。

這些被稱為零假設顯著性檢驗(NHST)的方法,深深地嵌入了現代科學研究過程中,一些研究人員一直在想該轉向何處。“p值是最廣為人知的統計量,”約翰·霍普金斯大學的生物統計學家傑夫·利克說。利克估計,p值至少已被用於三百萬篇科學論文。顯著性檢驗如此受歡迎,以至於正如期刊社論本身所承認的那樣,沒有廣泛接受的替代方法來量化研究結果中的不確定性——而不確定性對於估計研究結果在多大程度上推廣到更廣泛的人群至關重要。

不幸的是,p值也被廣泛誤解,人們常常認為它提供的比實際資訊更多。許多研究人員一直錯誤地認為p值給出了他們研究結果純粹是隨機機會的機率。但統計學家說,p值的資訊要不那麼具體,只能在假設的替代情景下進行解釋:p值總結了如果這項研究重複無限次,並且事實上只有純粹的隨機機會起作用時,至少與觀察到的結果一樣極端的結果會出現的頻率。


支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。


這意味著p值是對假設研究重複中的虛構資料的陳述,而不是對任何特定研究中實際結論的陳述。p值不是可以探究特定科學發現真相的“科學測謊儀”,而更像是一個“替代現實機器”,讓研究人員將他們的結果與隨機機會可能產生的假設結果進行比較。“p值所解決的是錯誤的問題,這導致了廣泛的困惑,”阿姆斯特丹大學的心理學家埃裡克-揚·瓦根馬克斯說。

表面上,p值允許研究人員只要將其作為實驗設計和分析的仔細過程的一部分,就可以得出細緻的、客觀的科學結論。但批評人士抱怨說,在實踐中,顯著性檢驗中的p值已被濫用成了一種粗糙的科學發現垃圾郵件過濾器:如果一個潛在有趣結果的p值小於0.05,那麼根據規定,該結果就被認為是“統計學上顯著的”,並被送去發表;任何具有較大p值的結果都註定要被扔進垃圾桶。

徹底放棄p值是一個極端的舉動。“零假設顯著性檢驗程式在邏輯上是無效的,因此將其從科學中刪除似乎是明智的,”新墨西哥州立大學拉斯克魯塞斯分校的心理學家大衛·特拉菲莫夫說,他是該期刊的編輯。去年,一篇措辭強硬的社論不鼓勵在該期刊上進行顯著性檢驗。但在研究人員未能聽取警告後,特拉菲莫夫說,他和副編輯邁克爾·馬克斯今年決定繼續執行這項新規定。“統計學家們幾十年來一直在批評這些概念,但沒有期刊有膽量直接禁止它們,”瓦根馬克斯說。

當科學家們急於尋找易於非專業人士遵循的資料分析“方法”時,顯著性檢驗在20世紀40年代被寫入教科書,最終將兩個不相容的統計系統——p值和假設檢驗——混合成一個死記硬背的過程。“p值從來沒有打算以我們今天使用的方式使用,”斯坦福大學的生物統計學家史蒂文·古德曼說。

儘管對顯著性檢驗的抱怨清單很長而且相當技術性,但抱怨都圍繞一個共同的主題:顯著性檢驗的“科學垃圾郵件過濾器”在幫助研究人員將真實和重要的影響與相似的影響區分開來方面做得不好。這意味著科學期刊可能充斥著不太可能是真實的斷言和結論。“我相信心理學家已經醒悟過來,並意識到一些在高影響力期刊上發表的作品是徹頭徹尾的無稽之談,”瓦根馬克斯說。

並不是說心理學壟斷了發表經不起仔細檢查的結果。例如,大規模基因組研究中的基因搜尋研究人員過去常常被太多標記不重要基因的假警報結果所困擾。但利克說,自從該領域開發出新的統計技術並擺脫了p值的自動使用以來,結果的可靠性有所提高。

然而,儘管p值令人困惑,但並非所有人都贊成將其從研究人員的統計工具箱中移除。“這可能是一種治標不治本的情況,”古德曼說。“目標應該是明智地使用統計資料。如果期刊要移除一種工具,無論其被濫用,他們都需要用更有意義的東西來替代它。”

一種可能符合要求的替代方法是另一種資料分析方法,稱為貝葉斯主義。(該期刊表示,它將“在個案基礎上”考慮在其提交的論文中使用貝葉斯主義。)貝葉斯主義從完全不同的原則出發:該統計系統不是努力尋求科學客觀的結論,而是接受主觀性,允許研究人員結合他們自己的先驗知識和信念。貝葉斯主義廣泛應用的一個障礙是缺乏使用者友好的統計軟體。為此,瓦根馬克斯的團隊正在努力開發一個免費的、開源的統計軟體包,名為JASP。它的標語是:“讓貝葉斯統計變得可訪問。”

其他解決方案從不同的角度攻擊這個問題:人性。由於現代科學研究人員面臨激烈的競爭,並且需要產生足夠多的統計學上顯著的結果以供發表,從而獲得晉升,因此研究小組設法比預期的更頻繁地發現顯著的p值也就不足為奇了,這種現象在2011年被賓夕法尼亞大學的心理學家尤里·西蒙松稱為“p值破解”。

一些期刊正在嘗試一種新方法,由威爾士卡迪夫大學的心理學家克里斯托弗·錢伯斯率先提出,研究人員提前公開“預註冊”他們所有的研究分析計劃。這給了他們更少的迴旋餘地來從事當研究人員在研究過程中改變他們的分析以產生比原本更具有統計學意義的結果時發生的那種無意識的——甚至是故意的——p值破解。作為交換,研究人員可以優先發表這些預註冊研究的結果——即使他們最終得到的p值低於正常的發表標準。

最後,一些統計學家將教育作為答案。“p值很複雜,需要經過培訓才能理解,”利克說。他說,科學教育尚未完全適應資料豐富且不可避免的世界,而且沒有足夠的統計顧問可以提供幫助,因此大多數研究人員只能在接受過幾門統計學課程的情況下分析自己的資料。“大多數研究人員並不關心統計方法的細節,”瓦根馬克斯說。“他們使用它們只是為了在一般意義上支援他們的主張,以便能夠告訴他們的同事,‘看,我被允許提出這個主張,因為p小於0.05,現在不要再質疑我的結果了。’”

一個新的線上九門課程的“資料科學專業化”課程,為幾乎沒有統計學背景的專業人士開設,可能會改變這種情況。利克和他在約翰·霍普金斯大學的同事去年推出了這些免費課程,可透過受歡迎的Coursera線上繼續教育平臺獲得,並且已經有 200 萬學生註冊。利克說,作為該系列課程的一部分,將有一個長達一個月的課程專門用於理解允許研究人員傳達研究發現的不確定性和普遍性的方法——包括,是的,p值。

© .