來自五大洲的調查人員報告稱,在一項今天發表在有影響力的期刊《科學》雜誌上的研究中,他們只能重複出認知和社會心理學領域先前發表的100項研究中約40%的結果。“可重複性專案:心理學”這項大規模合作,可以作為檢驗其他領域研究可重複性的模型,而一項類似的審查癌症生物學研究的工作已經在進行中。
《科學》雜誌資深編輯吉爾伯特·欽說,實驗“必須是可重複的”,這對於科學方法至關重要。“也就是說,除了最初的實驗者之外的其他人,應該能夠透過遵循相同的實驗協議獲得相同的發現。”一項研究越容易被重複,其結果就越值得信賴。但弗吉尼亞大學心理學教授、通訊作者布萊恩·諾塞克說,“人們越來越擔心可重複性可能低於預期或期望。”
為了解決這個問題,來自多個學科的科學家在弗吉尼亞州夏洛茨維爾建立了開放科學中心 (COS)。“可重複性專案:心理學”是他們的第一個研究倡議,於2011年開始招募志願者。他們要求研究團隊(共有270名合作作者)從一組研究中選擇——所有研究都反映了基礎科學,不需要專門的樣本或裝置——這些研究發表在2008年的三份受人尊敬的心理學期刊之一上:《心理科學》、《人格與社會心理學雜誌》和《實驗心理學雜誌:學習、記憶與認知》。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
總的來說,在重複研究中證據較弱。然而,最初的證據越有力,包括更大的效應量,結果就越有可能被重複。
欽在討論調查結果的電話會議上說,儘管結果“有點令人失望”,但他強調,這並不一定說明所檢驗的理論甚至得出的結論的有效性。科學過程包括“對理論和實驗的持續質疑和評估”。即使是不可重複的實驗,也有助於我們理解科學,因為它有助於排除其他解釋。相反,這項研究表明,“對於許多最初作為支援這些理論的經驗證據提供的實驗結果,我們應該減少信心。”
心理科學協會執行主任兼COS董事會成員艾倫·克勞特在同一次電話會議上提出了類似的觀點:研究參與者、時間、地點、研究團隊的技能和許多其他因素的不可避免的變異總是會影響結果。“唯一能夠100%重複的發現,”克勞特指出,“很可能是陳腐乏味的。”
各團隊收到了設定的協議和分析計劃,並與原始研究作者協商,以便儘可能地與他們的研究設計相匹配。實驗結束後,專案協調員彙總了資料並獨立審查了分析結果。
研究作者使用五個標準來衡量重複研究的成功:統計顯著性和p值——評估在一定預定可能性(通常為95%,或p值為0.05)內發生事件的機率;效應量,它表明了所檢驗現象的強度;重複研究團隊的主觀判斷;以及對所有100個實驗的效應量進行元分析。他們還考慮了可能影響結果的各種其他特徵——其中包括樣本量、所謂的“效應驚奇性”和原始團隊的專業知識。
在最終分析中,他們發現,儘管97%的原始研究報告了統計上顯著的結果(獲得p值0.05或更低),但只有36%的重複研究做到了這一點。然而,使用p值的一個缺點是,它將0.05視為顯著和不顯著結果之間的“明顯界限”。為了解決這個問題,研究人員還檢查了效應量。當以此方式衡量時,重複實驗的結果略好一些。總共有47%的重複研究顯示出的效應與原始結果在95%的置信度下相符,儘管通常效應的強度有所降低。主觀上,39%的研究團隊認為他們的重複研究是成功的。
有趣的是,作者發現某些型別的研究比其他型別的研究更容易被重複。在專案中包含的57項社會心理學研究中,只有約25%成功地被重複,而43項認知心理學研究中則有50%被重複。社會心理學研究的效應量也較弱。此外,原始實驗的設計越簡單,其結果就越可靠。研究人員還發現,“令人驚訝”的效應不太容易重複。
在這項研究中,作者排除了需要高階神經影像的研究,可能也排除了那些可能更容易被重複的精確實驗。但作者指出,可重複性問題在所有科學領域都普遍存在,部分原因可能是發表偏倚。“發表是科學的通行貨幣,”諾塞克說。“為了成功,我的合作者和我需要定期在最負盛名的期刊上發表文章。”但他補充說,學術期刊通常優先考慮“新穎、積極和整潔的結果”。未能發現顯著結果的研究很少見天日。此外,對先前發表的實驗的重複研究——這對於推動科學進步至關重要——不太可能透過同行評審。
為了改變這種狀況,《科學》雜誌主編瑪西婭·麥克納特指出,她的雜誌和其他雜誌最近釋出了指導方針,鼓勵在其選擇和評審過程中提高透明度和開放性。她補充說,“作者和期刊編輯應該警惕發表邊際顯著的結果,因為這些結果不太可能被重複。”諾塞克總結道,如果他們忽視了這一事實,“那麼發表的文獻可能會比現實更美好。”