1925年,英國遺傳學家和統計學家羅納德·費希爾出版了一本名為《研究工作者的統計方法》的書。書名聽起來並不像“暢銷書”,但這本書非常成功,並確立了費希爾作為現代統計學之父的地位。在書中,他探討了研究人員如何將統計檢驗應用於數值資料,以得出關於他們發現的結論,並確定其是否值得進一步研究的問題。他引用了一種統計檢驗,該檢驗總結了資料與提出的模型的相容性,併產生一個 p 值。費希爾建議,研究人員可以將 0.05 的 p 值視為一個方便的指南:“將這個點作為判斷偏差是否應被認為是顯著的界限是很方便的。”他建議,追求 p 值低於該閾值的結果,而不要在高於該閾值的結果上花費時間。因此,誕生了 p 值小於 0.05 等同於所謂的統計顯著性的概念——“顯著”結果的數學定義。
近一個世紀後,在許多科學研究領域,小於 0.05 的 p 值被認為是確定實驗價值的黃金標準。它為學術界的基本要素——資金和出版——打開了大門,因此也支撐著大多數已發表的科學結論。然而,即使是費希爾也明白,統計顯著性的概念以及支撐它的 p 值具有相當大的侷限性。大多數侷限性在幾十年前就已被認識到。“過度依賴顯著性檢驗,”心理學家保羅·米爾在 1978 年寫道,“[是]一種糟糕的科學研究方法。”P 值經常被誤解,統計顯著性與實際顯著性並非同一回事。此外,任何研究中所需的方法論決策都使實驗者有可能有意或無意地向上或向下調整 p 值。“正如常說的那樣,你可以用統計資料證明任何事情,”加州大學洛杉磯分校的榮譽退休教授、統計學家和流行病學家桑德·格林蘭說,他是改革的主要倡導者之一。僅僅依靠達到統計顯著性或指出其不存在的研究,經常會導致不準確的結論——它們表明虛假的事物是真實的,而真實的事物是虛假的。費希爾退休到澳大利亞後,有人問他在漫長的職業生涯中是否有任何遺憾。據說他怒斥道:“永遠不該提 0.05。”
在過去的十年中,關於統計顯著性的爭論異常激烈地爆發了。一篇出版物稱統計分析的脆弱基礎為“科學界最骯髒的秘密”。另一篇則指出顯著性檢驗中存在“無數深層缺陷”。實驗經濟學、生物醫學研究,尤其是心理學,都陷入了一場有爭議的可重複性危機,這場危機揭示了相當一部分已發表的發現是不可重複的。一個更臭名昭著的例子是權力姿勢的概念,即自信的肢體語言不僅會改變你的態度,還會改變你的荷爾蒙,這個說法是基於一篇論文,而該論文後來被其作者之一否定了。一篇關於氣候變化經濟學的論文(由一位懷疑論者撰寫)“最終出現的錯誤更正幾乎與資料點一樣多——開玩笑的!——但這些錯誤更正都不足以讓他改變自己的結論,”哥倫比亞大學的統計學家安德魯·格爾曼在他的部落格上寫道,他在部落格上經常批評研究人員的工作粗製濫造,並且不願承認他們研究中的問題。“嘿,做純粹的理論工作沒問題,但那就沒必要用資料來分散我們的注意力了,”格爾曼寫道。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
統計顯著性的概念雖然不是唯一因素,但已成為問題中顯而易見的一部分。在過去的三年中,數百名研究人員緊急呼籲改革,在著名期刊上撰寫或認可了關於重新定義統計顯著性或完全放棄統計顯著性的論文。美國統計協會 (ASA) 在 2016 年就此問題發表了一份強有力的、不同尋常的宣告,主張“走向超越 p < 0.05 的世界”。ASA 的執行董事羅納德·瓦瑟斯坦這樣描述:“統計顯著性應該像 Tinder 上的右滑。它只表明了一定程度的興趣。但不幸的是,統計顯著性並沒有變成這樣。人們說,‘我已經得到 0.05,我沒事了。’科學就此停止了。”
問題是是否會有任何改變。“沒有什麼新鮮事。這需要讓我們清醒地認識到,也許這次會和以往每次都一樣,”南加州大學的行為經濟學家丹尼爾·本傑明說,他也是改革的倡導者之一。儘管他們對補救措施存在分歧,但令人震驚的是,有多少研究人員確實同意,正如經濟學家斯蒂芬·齊利亞克所寫的那樣,“當前統計顯著性檢驗、解釋和報告的文化必須結束。”
致謝:阿曼達·蒙塔內斯(圖表)和希瑟·克勞斯
世界的本來面目
科學的目標是描述自然界的真相。科學家使用統計模型來推斷真相——例如,確定一種治療方法是否比另一種更有效,或者一個群體是否與另一個群體不同。每個統計模型都依賴於一組關於如何收集和分析資料以及研究人員如何選擇呈現其結果的假設。
這些結果幾乎總是以一種稱為零假設顯著性檢驗的統計方法為中心,該方法會產生一個 p 值。這種檢驗並不直接處理真相;而是間接地瞥視它。這是因為顯著性檢驗旨在僅指示一項研究路線是否值得進一步追求。“當我們進行實驗時,我們想知道的是我們的假設為真的可能性有多大,”本傑明說。“但 [顯著性檢驗] 回答了一個複雜的替代問題,即,如果我的假設是錯誤的,我的資料有多不可能出現?”
有時這很有效。尋找希格斯玻色子(物理學家在 20 世紀 60 年代首次提出的粒子)就是一個極端但有用的例子。零假設是希格斯玻色子不存在;備擇假設是它必須存在。歐洲核子研究中心大型強子對撞機的物理學家團隊進行了多次實驗,並獲得了相當於 p 值的極小值,這意味著如果希格斯玻色子不存在,他們的結果發生的可能性為 350 萬分之一。這使得零假設站不住腳。然後他們再次檢查以確保結果不是由錯誤引起的。“要確信這一結果的科學重要性以及諾貝爾獎的獲得,唯一的方法就是報告 [他們] 經歷了重重考驗,以確保 [沒有] 潛在的問題可能產生如此小的數值,”格林蘭說。“如此小的數值表明,沒有希格斯玻色子的標準模型 [不可能正確]。它在這個層面上尖叫。”
但物理學允許達到其他領域無法達到的精確度。當你在心理學中測試人時,你永遠無法達到三百萬分之一的機率。p 值為 0.05 時,在多次測試中重複拒絕正確假設的機率為 20 分之一。(它並不像人們通常認為的那樣,表明任何單次測試的錯誤機會為 5%。)這就是為什麼統計學家很久以前就添加了“置信區間”,作為提供科學家做出的估計中的誤差或不確定性程度的一種方式。置信區間在數學上與 p 值相關。P 值介於 0 到 1 之間。如果你從 1 中減去 0.05,你得到 0.95,即 95%,這是傳統的置信區間。但置信區間只是一種有用的方法,可以總結許多效應大小的假設檢驗結果。“它們沒有任何東西應該激發任何信心,”格林蘭說。然而,隨著時間的推移,p 值和置信區間都站穩了腳跟,提供了確定性的錯覺。
P 值本身不一定是問題所在。當在上下文中考慮時,它們是一種有用的工具。期刊編輯、科學資助者和監管機構聲稱他們就是這樣做的。令人擔憂的是,統計顯著性的重要性可能被誇大或過分強調,這在使用小樣本時尤其容易做到。這就是導致當前可重複性危機的原因。2015 年,開放科學中心聯合創始人布萊恩·諾塞克帶頭努力重複 100 篇著名的社會心理學論文,結果發現只有 36.1% 的論文可以明確地重複。2018 年,社會科學重複專案報告了對 2010 年至 2015 年間在《自然》和《科學》雜誌上發表的社會科學領域 21 項實驗研究的直接重複。他們發現,在 13 項研究(62%)中,重複研究的效果與原始研究的方向相同,並且重複研究的效應大小平均約為原始效應大小的一半。
遺傳學在 21 世紀初至中期也經歷了一場可重複性危機。經過多次辯論,該領域統計顯著性的閾值發生了巨大變化。“當你發現與某些疾病或其他表型相關的遺傳變異的新發現時,統計顯著性的標準是 5 × 10−8,這基本上是 0.05 除以一百萬,”也曾在遺傳學領域工作的本傑明說。“當前一代人類遺傳學研究被認為是非常可靠的。”
生物醫學研究的情況並非如此,生物醫學研究的風險傾向於假陰性,研究人員在存在效應時報告無統計顯著性。證據的缺失不是缺失的證據,正如某人手上沒有結婚戒指並不能證明該人未婚,只能證明該人沒有戴戒指。當公司責任和消費者安全受到威脅時,此類案件有時會最終訴諸法庭。
模糊的明線
科學究竟陷入了多大的麻煩?許多學科的科學家之間普遍認為,誤解和過分強調 p 值和統計顯著性是真實存在的問題,儘管有些人對其嚴重程度的診斷比其他人溫和。“我持長期觀點,”康涅狄格大學的社會心理學家布萊爾·T·約翰遜說。“科學經常這樣做。鐘擺會在極端之間擺動,你必須忍受這一點。”他說,這一輪的好處是,它提醒人們對推論保持謙虛。“如果我們學者不謙虛,我們就不會前進。”
然而,為了真正前進,科學家必須就解決方案達成一致。這幾乎與統計實踐本身一樣困難。“人們擔心,取消長期以來建立的能夠宣佈事物具有或不具有統計顯著性的做法,會給這個過程引入某種程度的無政府狀態,”瓦瑟斯坦說。儘管如此,建議仍然很多。它們包括統計方法的改變、用於描述這些方法的語言的改變以及統計分析使用方式的改變。最重要的想法已在一系列論文中提出,這些論文始於 2016 年的 ASA 宣告,其中二十多位統計學家就幾項改革原則達成一致。隨後是該協會期刊的特刊,其中收錄了 45 篇關於如何超越統計顯著性的論文。
2018 年,由 72 位科學家組成的小組在《自然-人類行為》雜誌上發表了一篇題為“重新定義統計顯著性”的評論,贊同將新發現宣告的統計顯著性閾值從 0.05 調整為 0.005。(0.05 和 0.005 之間的結果將被稱為“暗示性的”。)該論文的主要作者本傑明認為,這是一個不完美的短期解決方案,但可以立即實施。“我擔心的是,如果我們不立即採取行動,我們將失去進行更大規模變革的勢頭,而這些變革將真正改善現狀,我們最終將花費所有時間爭論理想的解決方案。與此同時,將會造成更多損害。”換句話說,不要讓完美成為優秀的敵人。
其他人則表示,重新定義統計顯著性根本無濟於事,因為真正的問題是閾值本身的存在。今年 3 月,加州大學洛杉磯分校的格林蘭、巴塞爾大學的動物學家瓦倫丁·阿姆林和西北大學的統計學家兼營銷專家布萊克利·麥克沙恩在《自然》雜誌上發表了一篇評論,主張放棄統計顯著性的概念。他們建議將 p 值用作其他證據中的連續變數,並將置信區間重新命名為“相容性區間”,以反映它們實際發出的訊號:與資料的相容性,而不是對結果的信心。他們在 Twitter 上徵集了對其想法的認可。包括本傑明在內的八百名科學家簽署了該倡議。
顯然,有更好——或者至少更直接——的統計方法可用。格爾曼經常批評其他人的統計方法,但他在自己的工作中根本不使用零假設顯著性檢驗。他更喜歡貝葉斯方法,這是一種更直接的統計方法,其中一個人採用初始信念,新增新證據並更新信念。格林蘭正在推廣使用驚奇度,這是一種數學量,可以調整 p 值以產生資訊位(如計算機位)。0.05 的 p 值僅為反對零假設的 4.3 位資訊。“這相當於如果有人拋硬幣,連續看到四次正面,”格林蘭說。“這能證明硬幣拋擲是公平的觀點嗎?不能。你會一直看到這種情況發生。這就是為什麼 0.05 如此薄弱的標準。”他認為,如果研究人員必須在每個 p 值旁邊都標上驚奇度,他們就會被要求達到更高的標準。強調效應大小(它說明了發現的差異的量級)也會有所幫助。
改進對科學家和公眾的統計教育可以從使統計語言更易於理解開始。早在費希爾接受“顯著性”概念時,這個詞的份量就比較輕。“它的意思是‘表示’,但不是‘重要’,”格林蘭說。而術語“置信區間”傾向於灌輸不應有的、嗯,信心,這並不奇怪。
擁抱不確定性
統計顯著性滿足了人類對確定性的需求。“最初的原罪是人們在不適當的時候想要確定性,”格爾曼說。我們或許已經到了可以安坐於不確定性的不適之中的時候。如果我們能做到這一點,科學文獻將會看起來不同。瓦瑟斯坦說,關於一項重要發現的報告“應該是一段話,而不是一句話”。它不應該基於單一研究。最終,一個成功的理論是能夠經受住數十年反覆審查的理論。
微小的變化正在科學界的權力機構中發生。“我們同意 p 值有時被過度使用或誤解,”《新英格蘭醫學雜誌》發言人詹妮弗·蔡斯說。“如果 p < 0.05 就得出結論認為治療對結果有效,而如果 p > 0.05 就得出結論認為治療無效,這是對醫學的還原論觀點,並不總是反映現實。”她說,他們的研究報告現在包括更少的 p 值,更多結果以置信區間報告,而沒有 p 值。該雜誌還在擁抱開放科學的原則,例如釋出更詳細的研究方案,並要求作者遵循預先指定的分析計劃,並在他們偏離計劃時進行報告。
美國食品和藥物管理局生物統計學部門主任約翰·斯科特表示,臨床試驗的要求沒有任何變化。“我認為 p 值在短期內不太可能從藥物開發中消失,但我預見到替代方法的應用會越來越多,”他說。例如,申請人對使用貝葉斯推斷越來越感興趣。“當前的辯論總體上反映了人們對傳統統計推斷的一些侷限性的認識有所提高。”
即將上任的《心理學公報》編輯約翰遜表示,他與現任編輯意見一致,但他說,“我打算強制遵守相當嚴格的報告標準。這樣,我確信每個人都知道發生了什麼以及原因,他們可以更容易地判斷方法是否有效或存在缺陷。”他還強調了執行良好的薈萃分析和系統評價作為減少對單一研究結果依賴性的方法的重要性。
麥克沙恩說,最關鍵的是,p 值“不應該是看門人”。“讓我們採取更全面、更細緻和更具評估性的觀點。”這甚至也是羅納德·費希爾的同代人所支援的。1928 年,另外兩位統計學巨匠耶日·內曼和埃貢·皮爾遜在談到統計分析時寫道:“檢驗本身並沒有給出最終結論,但作為工具,它們可以幫助使用它們的工人形成最終決定。”

