如果你想讓世界相信魚能感知你的情緒,那麼只有一個統計指標就足夠了:p 值。
p 值是科學家經常使用的一種通用指標,用於確定實驗結果是否“具有統計顯著性”。不幸的是,有時這種檢驗並不像宣傳的那樣有效,研究人員會賦予一個觀察結果很大的意義,但實際上它可能是一個毫無價值的偶然事件。
假設你進行了一項科學實驗,測試一種新的心臟病藥物與安慰劑的效果。在試驗結束時,你比較了兩組。瞧,服用該藥物的患者比服用安慰劑的患者心臟病發作次數更少。成功!藥物有效!
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。
嗯,也許不是。即使該藥物完全無效,服用該藥物的患者也有 50% 的可能性比服用安慰劑的患者表現更好。(畢竟,一組必須比另一組表現更好;藥物組或安慰劑組哪個會更好只是碰運氣。)
p 值將隨機性的影響量化。它是指即使你的假設是錯誤的,看到積極實驗結果的機率。許多科學領域長期以來的慣例是,任何 p 值低於 0.05 的結果都被認為是具有統計顯著性的。這是一個武斷的慣例,而且往往是錯誤的。當你將一種無效藥物與安慰劑進行比較時,通常每 20 次會得到一次具有統計顯著性的結果。如果你在一篇科學論文中進行 20 次這樣的比較,那麼平均而言,你將得到一個 p 值小於 0.05 的顯著結果——即使該藥物無效。
許多科學論文會進行 20 次、40 次甚至數百次的比較。在這種情況下,不調整 0.05 標準 p 值閾值的研究人員幾乎可以肯定會在毫無意義的統計偶然事件中找到統計顯著性。《美國臨床營養雜誌》二月號刊登的一項研究
對數十種化合物進行了測試,並得出結論,藍莓中發現的化合物可以降低高血壓的風險,p 值為 0.03。但是研究人員研究瞭如此多的化合物並進行了如此多的比較(超過 50 次),幾乎可以肯定的是,論文中的某些 p 值僅憑偶然性就會小於 0.05。
同樣的情況也適用於神經科學家團隊曾經對鮭魚進行的一項廣為人知的研究。當他們向魚展示表達人類情感的圖片時,鮭魚大腦的某些區域亮了起來。結果具有統計顯著性,p 值小於 0.001;然而,正如研究人員所論證的那樣,可能的模式太多了,以至於統計顯著性結果幾乎是可以保證的,因此結果完全沒有價值。儘管存在 p 值,但這條魚不可能對人類情感做出反應。fMRI 中的鮭魚碰巧是死的。