2013年11月11日

統計顯著性及其在科學衰落中的作用

想象一下，如果存在一個簡單的單一統計量，每個人都可以將其用於任何資料集，並且它可以可靠地將真與假區分開來。

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定反映《大眾科學》的觀點。

想象一下，如果存在一個簡單的單一統計量，每個人都可以將其用於任何資料集，並且它可以可靠地將真與假區分開來。啊，我們將會知道多少事情！雖然期望這種魔法是不現實的，不是嗎？

然而，統計顯著性通常被視為那根魔杖。假設一個零假設，或者在資料集中尋找因素之間的任何關聯，然後“abracadabra”！得到一個大於或小於 0.05 的“p 值”，你就可以95% 確定它要麼是偶然事件，要麼不是。你可以消除偶然性的作用！你可以將訊號從噪聲中分離出來！

除非你不能。這並不是統計顯著性檢驗的真正作用。問題就在這裡。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過訂閱來支援我們屢獲殊榮的新聞報道。透過購買訂閱，您將有助於確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。訂閱

統計顯著性檢驗估計的是，如果假設研究是正確的，則大致得到該結果的機率。它本身不能告訴你這個假設是否正確，或者結果是否在不同情況下成立。它提供了機率的有限檢視，只考慮了關於資料的有限資訊，並僅提供“是”或“否”作為選項。

更重要的是，統計顯著性本身可能是一個“偶然事件”，並且在較大的資料中以及當你對相同資料中的多個比較執行測試時，這種情況會變得更有可能。你可以在這裡閱讀更多相關內容。

統計顯著性檢驗很容易聽起來像是將麥子從穀殼中分離出來，告訴你什麼是“真”什麼是“假”。但是它本身做不到這一點。更重要的是，“顯著”並不意味著它也很重要。效果的細微差別也可能達到小於 5% 的閾值。我們稍後將回到這一切的實際含義。

統計顯著性檢驗的常用方法非常簡單易懂，即使在沒有計算機之前也易於操作，因此它席捲了科學界。正如 Stephen Stigler 在他關於費希爾和 5% 水平的文章中所解釋的那樣，“它向實驗者和研究人員的世界開放了統計計算的神秘領域。”

但也導致了一些濫用行為。過度簡化地使用統計顯著性需要對許多問題負責。正如約翰·伊安尼迪斯在此處指出的那樣，這是科學無法重複結果的一個重要原因。

在我們進一步討論之前，我需要坦白。我不是統計學家，但我解釋統計概念已經很長時間了。在這個問題上，我長期以來也採取了簡單的方法。但是我現在認為，在如此多的培訓中延續過度簡化的解釋方式是問題的主要部分。

在我們在最近在佛羅里達州舉行的全國科學作家協會年會的小組討論會上，我們需要更好地溝通統計顯著性意味著什麼以及不意味著什麼的複雜性。

統計學愛好者和SciAm 博主 Kathleen Raven 組織並領導了我、SciAm 數學家博主 Evelyn Lamb、統計學教授 Regina Nuzzo 和數學家 John Allen Paulos 的小組。Raven 正在圍繞這群熱愛樂趣的、撰寫科學文章的極客們組織一個名為 Noise and Numbers 的部落格。我當天的幻燈片在這裡的左側。

我在那裡提出的兩點與這個問題相關。首先，需要避免過度精確並考慮置信區間或標準差。當您擁有置信區間的資料時，您會比統計顯著性的 p 值提供更好的圖片。它更有趣，也更直觀。您可以在這裡和這裡瞭解更多關於這些概念的資訊。

其次，重要的是不要孤立地考慮一項研究的資訊，我在這裡深入探討了一個話題。一項研究本身很少會提供“最終”答案。

這最終將我們帶到了托馬斯·貝葉斯，這位 1700 年代的數學家和牧師，他的思想對於討論計算和解釋機率至關重要。貝葉斯認為，我們在考慮機率時應該考慮我們先前的知識，而不僅僅是根據一個固定的、不變的數量來計算我們面前的特定資料集的頻率，而不管問題是什麼。

您可以在維基百科上閱讀更多關於貝葉斯統計的資訊。那裡給出的一個例子是這樣的：假設有人告訴你他們在和某人說話。這個人是女性的可能性通常可能是 50%。但是如果他們說他們在和一個長髮的人說話，那麼這個知識可能會增加這個人是女性的可能性。你可以根據這些知識計算一個新的機率。

統計學家通常被分為貝葉斯學派或頻率學派。在我帖子頂部的漫畫中進行病房查房的統計學家絕對是貝葉斯學派！

無論如何都絕對堅持 p < 0.05（或 0.001）將是典型的頻率學派。關注此問題的重要原因是我們的先前知識的薄弱——以及人們可能會非常偏頗並且如果沒有固定的目標柱，可能會隨意處理資料的知識。

貝葉斯主義興衰了幾次，但統計複雜性的提高和計算機能力的提高使其能夠在 21 世紀嶄露頭角。而且並非每個人都屬於其中一個陣營：存在很多“融合”思想。

Valen Johnson 剛剛在 PNAS（美國國家科學院院刊）中指出，用於計算統計顯著性的貝葉斯方法已經發展到足以影響實踐的地步。Johnson 的意思是，統計顯著性的閾值需要大大降低——更像是 0.005 而不是 0.05。哎呀。這對於研究所需的樣本量的影響將是巨大的。

不過，這並非真的完全取決於 p 值的閾值在哪裡。統計上顯著的發現可能因各種原因而重要或不重要。一條經驗法則是，當結果確實達到該數值水平時，資料會顯示某些東西，但始終需要將其嵌入到對超出此範圍的考慮之中。例如，例如，明顯效果的大小和重要性，以及置信區間是否表明該估計是極不可能的。

但是，關於統計顯著性水平的爭論並不意味著不具有統計顯著性是無關緊要的。沒有達到統計顯著性的資料過於薄弱，無法得出任何結論。但是，正如具有統計顯著性並不一定意味著某件事是“真”的一樣，沒有足夠的證據並不一定證明某件事是“假”的。更多相關資訊請點選這裡。

關於貝葉斯學派與頻率學派以及假設檢驗的爭論生動地提醒我們，統計學領域是動態的——就像科學的其他部分一樣。並非每個統計學家都會以相同的方式看待事物。理論和實踐將受到質疑，知識將得到發展。有很多方法可以詢問資料並解釋其含義，並且僅透過一種度量的角度來看待資料是沒有意義的。p 值不是可以統治所有數值的唯一數字。

~~~~

有關統計學和科學寫作的更多資訊，請訪問我們在佛羅里達州的冒險之旅產生的網站：Noise and Numbers。

如果您有以通俗易懂的方式精確解釋統計顯著性的好方法，請將其新增到評論中！我非常渴望找到更好的方法來做到這一點。解釋統計顯著性實際含義的段落已根據原始段落進行了改進。

一本免費線上的優秀書籍可以幫助您理解健康統計資料，該書是 Steve Woloshin、Lisa Schwartz 和 Gilbert Welch 撰寫的《瞭解你的機會》。

Gerd Gigerenzer 在他的文章《盲目的統計學》中探討了關於簡單假設和顯著性檢驗的許多侷限性和“一廂情願的想法”。維基百科是一個很好的起點，可以瞭解更多資訊。另一篇關於理解機率的優秀文章是 Gerd Gigerenzer 和 Adrian Edwards 在這裡撰寫的。

Statistically Funny 上的相關帖子是

Statistically-Funny 漫畫是我的原創作品（知識共享、非商業、共享相似許可）。

聲稱描繪托馬斯·貝葉斯的肖像圖片來自維基媒體共享。

*希爾達·巴斯蒂安在此《絕對可能》中表達的想法是個人觀點，不一定反映美國國立衛生研究院或美國衛生與公眾服務部的觀點。