科學審查之下:可重複性問題

更好的激勵機制可以減少在重複實驗中被證實為錯誤的驚人數量的研究

尼爾·韋伯

凱蒂·科克爾想知道咖啡應該是什麼溫度。她正在做一個心理學實驗——確切地說,是重做一項實驗。最初的研究結果表明,拿著溫暖的東西可以使一個人表現得熱情,該研究於 2008 年發表在著名的《科學》雜誌上,引起了媒體的廣泛報道。然而,當科克爾試圖重現研究的每個步驟時,卻有如此多的未知數:分發給受試者的熱咖啡的溫度,馬克杯在他們手中冷卻的速度。

科克爾是格蘭谷州立大學的一位心理學家,她正在嘗試少數科學家才會嘗試的事情:認真地重複研究並發表結果。在她的案例中,目標是找出她在另一個實驗室,使用不同組別的受試者工作時,是否會發現與《科學》雜誌研究相同的效應,該研究僅由一個研究小組進行,只有 94 名參與者拿著咖啡或不同溫度的治療墊。理論上,科學本應如此運作:作為一個自我糾正的過程,研究人員在前人的發現基礎上不斷進步。

幾十年來,某些領域的一些文獻存在明顯的錯誤,這已經是一個公開的秘密。在生物醫學領域,真相在 2012 年變得清晰起來。當時,C·格倫·貝格利是製藥公司安進的副總裁兼全球血液學和腫瘤學研究主管,負責根據部分來自學術界的有前景的突破來開發癌症藥物。在該職位工作十年後,他想知道為什麼一些研究有希望的藥物靶點的專案會被中止。他查閱了公司的檔案,驚人地發現,問題通常出在臨床前研究上,而他的團隊在投入資金和資源以其為基礎開發治療方法之前,會對臨床前研究進行復核。“令我震驚的是,我發現 90% 的情況下,我們無法重複已發表的內容,”貝格利說,他現在是澳大利亞公司 BioCurate 的執行長。一項研究後來發現,在美國,生物醫學領域臨床前工作無法重複的失敗每年耗費 282 億美元。貝格利甚至派安進的科學家去一些實驗室觀察他們嘗試重複自己的結果。他們也失敗了。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事能夠繼續存在。


與此同時,危機在心理學領域變得顯而易見。作為弗吉尼亞大學心理學家布萊恩·諾塞克的可重複性專案:心理學的一部分,近 300 名科學家自願花費時間重複該領域 100 篇論文中的實驗。他們在 2015 年宣佈,只有 36% 的重複實驗顯示出與原始研究結果一致的顯著結果。

圖片來源:尼爾·韋伯

儘管具有里程碑意義的可重複性研究主要集中在生物醫學和心理學領域,但這個問題並不侷限於這些領域。洛雷娜·A·巴爾巴是喬治·華盛頓大學的工程師,從事計算流體動力學研究。她花了整整三年時間與一名學生合作,重建了她自己實驗室的一個複雜模擬,模擬飛蛇(從樹枝上跳下,滑翔在空中)在翱翔時如何擺動。新的結果是一致的,但她瞭解到,梳理別人的程式碼來拼湊他們所做的事情可能是一場噩夢。她基本上遇到了科克爾遇到的熱咖啡杯子的同樣問題。科學家專注於發表結果,而不是他們如何得出結果的每一個瑣碎的步驟。“只是沒有很多書面記錄,”科克爾說。不過,她很幸運:最初的咖啡研究的第一作者“非常願意與我們合作”。她還與一位化學家合作,使測試裝置改變溫度的速度標準化。“我發現這比我做過的一些原始研究更具挑戰性,”她說。

長期以來根深蒂固的科學習慣,例如害怕被搶先而回避分享技術,往往與可重複性的目標背道而馳。巴爾巴自己的領域誕生於新墨西哥州洛斯阿拉莫斯曼哈頓計劃的秘密之中,當時設計第一批核武器的研究人員使用早期計算機來計算空氣和能量爆炸如何從爆炸的炸彈中擴散開來。當然,曼哈頓計劃為大部分硬科學提供了動力。當時的科學家積極試圖阻止外人重複他們的工作。

此外,期刊和終身教職委員會通常更看重新穎、引人注目的結果,而不是在現有文獻基礎上精心構建的零星進展。“我的訓練是關於試圖找到意想不到的效果,”舊金山州立大學的社會和人格心理學家夏洛特·泰特說。她開玩笑說,她所在領域的成員“帶著我們必須登上《每日秀》節目的模式四處奔走。”這種態度不僅僅是虛榮心:引人注目的結果通常是你獲得工作的方式。那些默默地核實他人工作或花費額外時間努力確保他們的程式碼易於其他研究人員理解的人,不會名聲大噪——甚至不會在成堆的簡歷中脫穎而出。

許多人強調,更好的培訓——關於如何撰寫論文中萬無一失的“方法”部分,或者仔細記錄程式碼以便其他人可以閱讀——可以在幫助解決危機中發揮作用。巴爾巴就屬於這一陣營,她指出,在工作中使用程式碼的人最好參加軟體禮儀課程,以便他們可以將良好記錄的程式碼與他們的結果一起呈現。她還使用一種稱為版本控制的技術,該技術記錄對檔案所做的任何更改,以使她團隊程式碼的演變儘可能清晰易讀。該工具是軟體開發中的標準工具,但令巴爾巴困惑的是,在科學領域卻並非如此。“在進行實驗和記錄實驗之間存在著根本的矛盾,”查爾斯·弗拉基亞說,他正試圖透過他的公司 BioBright 增加生物醫學實驗日誌的細節和深度。他的工具之一 DarwinSync 記錄來自每種儀器的可能資料,包括看似不重要的東西,例如計算機是插著電源還是使用電池供電,或者房間內的環境光量,以防這些細節後來具有啟發意義。在科克爾的重複嘗試案例中,如果原始研究更好地評估了馬克杯的溫度,那將為她提供更多資訊以便稍後重新進行試驗。

但是,耗時的解決方案和昂貴的裝置是不夠的。“做正確的事情沒有獎勵,”巴爾巴說。諾塞克說,訣竅在於調整激勵機制,以確保“對科學家有利的事情對科學也有利”。例如,資助研究的機構可以選擇僅資助包含使其工作透明化計劃的專案。2016 年,美國國立衛生研究院推出了新的申請說明和審查問題,以鼓勵尋求資助的科學家提高其工作的可重複性。美國國立衛生研究院現在要求提供更多關於研究如何在前人工作基礎上進行的資訊,以及可能影響調查的變數列表,例如大鼠受試者的性別(以前被忽視的因素,導致許多研究將雄性大鼠中發現的現象描述為普遍現象)。

資助者可以在前期提出的所有問題,期刊和審稿人也可以提出。對於諾塞克來說,一個有希望的解決方案在於所謂的註冊報告,即研究的預先註冊,科學家在實際進行研究之前提交研究分析和設計計劃以供發表。然後,同行評審員評估方法——方法是否合理,是否建立在過去的研究結果之上——期刊承諾發表結果,無論結果如何。論文的獎勵來自於經過深思熟慮的實驗,而不是引人注目的結果。有些人懷疑這種改變是否只會產生枯燥的科學。諾塞克認為情況並非如此。他目前正在完成兩項調查,以檢查已發表的早期註冊報告的影響和質量;初步結果表明,它們的引用頻率與傳統論文一樣高。不過,他指出,過度依賴預先註冊的研究可能會鼓勵更安全的研究,從而可能過度糾正問題。他認為該模型與傳統的以結果為中心的模型並存,後者對偶然發現,“事物的意外到來”持友好態度,他說。

一個更難解決的問題是研究人員為謀生而承受的產生突破的壓力。諾塞克指出,需要發生更大的文化轉變。目前,僅僅小心翼翼地沿著有趣的道路前進,結果卻發現是空無一人,透過照亮死衚衕來擴大知識地圖,這並不一定足夠。我們生活的世界裡,事實核查員不會成名。

然而,可重複性問題並不一定意味著科學從根本上是崩潰的。“進步取決於失敗,”印第安納大學伯明頓分校的心理學家理查德·M·希夫林說,他對人們對“危機”的關注持懷疑態度。他認為,對不可重複性的關注可能會掩蓋科學給我們帶來的進步。那些確實認為危機是真實的人並不總是不同意他的評估。貝格利指出,這個問題有實際後果:如此多的發現經不起仔細審查,以至於藥物的上市速度比在一個更清潔的系統下更慢,成本也更高。“我們花了很多時間追逐無用的東西,”他說。

咖啡研究中的效應最終被證明是其中之一。科克爾使用熱墊和冷墊完成的工作最終表明,沒有證據表明拿著溫暖的東西可以讓你表現得更熱情。儘管最初的工作發表在頂級期刊上,但重複研究工作可以在一個相對較小的期刊上找到。這是一項不同型別的突破,但受到的關注較少。

夏農·帕勒斯是一位自由記者,也是 Wirecutter 的常駐記者,Wirecutter 是《紐約時報》公司的一部分。她的作品曾發表在 Slate、《大眾科學》、《大西洋月刊》、《發現》、《奧杜邦》、《石英》、《史密森尼》和撤稿觀察網。

更多作者夏農·帕勒斯的文章
大眾科學 Magazine Vol 319 Issue 4本文最初以“使研究可重複”為題發表於《大眾科學》雜誌 第 319 卷第 4 期(),第 56 頁
doi:10.1038/scientificamerican1018-56
© .