在又一次統計障礙之後，fMRI 科學是否正在從錯誤中吸取教訓？

最近的一項研究及其回應預示著該領域自我審視的新水平

作者：安娜·弗拉西茨

Getty Images/iStockphoto/Thinkstock Images/奧利弗·斯維德

神經科學界的一個小角落陷入了狂熱。當時是六月中旬，一篇科學論文剛剛發表，聲稱多年的研究成果都充滿了錯誤。

這項研究深入研究了用於分析一種名為功能性磁共振成像的大腦掃描的軟體。研究人員寫道，該軟體的方法是錯誤的，這讓人懷疑“大約 40,000 項 fMRI 研究的有效性”——換句話說，就是所有研究。

反應迅速。推特上擠滿了驚慌失措的神經科學家。部落格作者和記者紛紛釋出標題，引用“嚴重缺陷”、“故障”和“漏洞”。其他科學家則紛紛發表文章捍衛他們的研究。

關於支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您將有助於確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。

最後，《美國國家科學院院刊》上發表的這篇論文的作者之一托馬斯·尼科爾斯站出來發聲。在一篇博文中，托馬斯·尼科爾斯寫道：“我後悔說出一個數字：40,000。” 尼科爾斯接著寫道，他們的發現僅影響了所有 fMRI 論文的一部分——或者，一些科學家認為，可能根本沒有影響。這遠沒有炒作的那麼糟糕。

這場短暫的騷動可能只會被當作茶杯裡的風波一笑置之，這是科學的自我糾正機制在起作用。但這項研究及其回應預示著 fMRI 研究的自我審視將達到新的水平，幾十年來，fMRI 研究一直受到科學草率和迎合流行文化的指責。

換句話說，fMRI 正在成長，但並非一帆風順。

腦部掃描的坎坷起步

當 fMRI 於 1992 年首次用於人體時，fMRI 藉助強大的磁鐵，可以測量流向大腦不同部位的血液中的氧氣，從而使科學家們首次真正動態地觀察到人類的大腦。在機器內部，研究人員可以看到當人們觀察動物、做出決定或回憶記憶時，大腦的不同區域“活躍起來”。這是一項突破。

很快，大量研究湧現，聲稱使用 fMRI 來證明“男性只用一半的大腦來聽”，找到“哎呀中心”的位置，或者解讀 2008 年選舉中搖擺選民的想法。

此後，fMRI 滲透到大眾的想象和社會的許多領域。基於 fMRI 的測謊儀被譽為比多導睡眠圖測試更高科技的改進（儘管使用這種型別的證據仍然是法律辯論的主題）。“神經營銷”使用 fMRI 來策劃如何向我們推銷商品。而科普作家則在他們的書中大量使用 fMRI 研究來證明，例如，我們如何做出決定。

但多年來，該領域不得不應對的最大問題是持續存在的統計問題。錯誤的統計方法可能導致假陽性結果——該領域的研究人員傾向於同意可能存在假陽性結果。

2009 年，科學家將一條死鮭魚放入 fMRI 掃描器中，向鮭魚展示照片，進行了一些典型的分析，並發現了與鮭魚“看到”的東西相關的“大腦活動”，這有力地證明了這一點。在這種情況下，統計資料的糟糕使用導致了假陽性結果。

同年，其他研究人員指出，fMRI 研究中人格特質與大腦活動之間存在“令人費解的高相關性”——令人費解是因為人格特質和大腦活動的測量都非常嘈雜，理論上不可能如此緊密地相關。在這種情況下，統計資料的糟糕使用誇大了效應量，導致了誤導性的結論。

科學家們會在發現這些方法學問題時糾正它們，儘管扭轉局面需要一些時間。但總的來說，科學家們似乎趨於保守，堅持使用他們以前使用過的方法，即使舊方法已被反覆證明存在缺陷。

進步的跡象

現在，隨著 fMRI 使用近四分之一個世紀，它已發展成為一項主要的神經科學研究技術。PubMed 中引用 fMRI 的論文數量從 1995 年的不到 200 篇增加到 2015 年的 6,700 多篇。全球有數百個實驗室使用這項技術。

與此同時，質疑 fMRI 方法論的研究也大量湧現。這表明科學家和資助機構願意努力正視該領域過去的一些罪惡。

“我認為如果我在五年前做這件事，有人會說，‘哦，好吧，你只是在胡說八道，’”尼科爾斯說。“而現在我認為這就像，‘好吧，是的，我們確實需要關注這些事情，不是嗎？’”

英國華威大學的統計學教授尼科爾斯現在認為，有欺騙性的統計資料出現在大約 3,500 項研究中，而不是他最初引用的 40,000 項。他已向該雜誌提交了一份更正。

在這 3,500 項研究中，只有一部分會因為這個錯誤而得出錯誤的結論。如果重新分析，大腦活動非常顯著的研究仍然會得到陽性結果；而那些處於臨界點的研究則更危險。“只有當你逐一檢查這些[研究]時，你才會知道，”尼科爾斯說。

這種情況不太可能發生。但 fMRI 分析軟體包的開發者們正在忙於更新他們的軟體，即使在我們說話的時候也是如此。

還有其他表明新成熟度的跡象。著名的 fMRI 科學家，包括斯坦福大學可重複神經科學中心主任羅素·波爾德拉克，以及尼科爾斯和其他人，最近發表了一篇關於“使用 MRI 進行神經影像學資料分析和共享的最佳實踐”的白皮書。該論文提出了結果、資料和分析報告標準化的建議，以及將這些公開的做法。

這可以解決尼科爾斯論文發表後出現的一個大難題：研究人員無法確定哪些過去的研究使用了錯誤的統計方法。如果新的研究使用最佳實踐，這些方法將更加透明。

這也意味著其他人可以回顧並重新分析研究結果——或者更好的是，彙集來自不同研究的結果，看看這些結果是否在更大的樣本中成立。

彙集資料似乎是顯而易見的，但並非總是如此。當 fMRI 大約 10 年時，研究人員開始進行“研究生旅行實驗”：派遣研究生到三到四個不同的實驗室，在不同的 fMRI 掃描器上執行相同的任務。他們發現，同一個人的影像有時在不同的機器上看起來不同。其中一個原因是人們使用的 fMRI 機器在磁鐵強度方面有所不同。這項技術沒有標準化，這在今天仍然是一個問題。

然後，在 2009 年，來自兒童心理研究所的邁克爾·米爾漢姆博士彙集了資料來自許多實驗室的 1,000 多個 fMRI 掃描資料集，並證明它們具有共同特徵。“我認為這真的讓所有人感到震驚，”美國國家心理健康研究所 (NIMH) 技術開發與協調辦公室主任格雷格·法伯說。他認為米爾漢姆的論文是 fMRI 資料彙集的轉折點。

從那時起，資料共享變得更加容易，並且被更多人談論。“網際網路速度更快，資料儲存庫更大，至少對於 fMRI 而言，該領域正變得更加標準化，因此您實際上可以共享資料並讓人們檢視它，”NIMH 功能成像方法主管彼得·班德蒂尼說。

至少在過去一年中，NIMH 一直在收集其資助的實驗室的原始 fMRI 資料，並將其放入他們託管的資料存檔中。現在，從 NIMH 獲得資金進行 fMRI 研究的大多數研究人員都被要求或至少強烈建議將其資料提交到少數線上儲存庫之一。

另一個儲存庫 Neurosynth 由尼科爾斯、波爾德拉克和其他人建立，已收集了來自 10,000 多篇 fMRI 文章的資訊——包括使用錯誤方法的研究——並使用計算機演算法將資料合成在一起，對同一主題的許多研究進行薈萃分析。根據該分析，“很明顯，您可以獲得非常可靠的發現，”波爾德拉克補充說，“從最大的角度來看，我認為我們不必擔心一切都丟失了。”

“斑點學”的風險

但大多數研究都不會被重新分析。缺乏重複性和錯誤方法的持續存在讓一些研究人員感到沮喪。

以《美國國家科學院院刊》論文可能質疑的 3,500 項研究為例。尼科爾斯說，他們甚至沒有犯最嚴重的錯誤。在他的博文中，他估計有 13,000 篇論文犯了一個更基本的錯誤，即七年前在死鮭魚研究中最初發現的錯誤。

“從這個意義上說，我們並沒有真正成熟，因為人們仍然在使用已被反覆證明存在問題的方法，”一位匿名為《探索》雜誌撰寫部落格的 fMRI 研究人員 Neuroskeptic 說。

加州大學伯克利分校的 fMRI 研究科學家馬修·佈雷特博士在一封電子郵件中表示，他認為當科學家分析錯誤時，後果太少。“這就是我後來認為的‘扔過牆’研究，即一項發現是否正確始終是別人的問題。”

其他人則更進一步。加州大學伯克利分校的心理學教授傑克·加蘭特說，神經科學研究的這個子集“完全崩潰了”。“這個問題”——在《美國國家科學院院刊》的研究中強調——“只是崩潰的一個方面，甚至不是最糟糕的一個，”他在一封電子郵件中說。

加蘭特避免使用《美國國家科學院院刊》論文揭露的統計方法，這些方法用於一些科學家所稱的“斑點學”，或者尋找大腦中針對特定任務活躍的斑點。

相反，他們開發了其他型別的資料分析，這些分析的假設更少。加蘭特團隊的最新工作是全腦語言反應圖譜。在那裡，加蘭特建立了大腦在聽到單詞時如何反應的模型，並用這些模型來預測大腦在聽到其他單詞時會做什麼。他們的研究不是揭示你大腦中關於飛蛾的斑點，而是試圖展示你整個大腦在聽到任何昆蟲時的反應。

加蘭特說，大多數 fMRI 研究問題的根源在於人們如何解釋他們的統計資料。“人們把統計顯著性視為重要性，但實際上這兩個概念彼此無關，”他說。

杯子是半空還是半滿？

在 fMRI 社群內部，這些想法正在醞釀之中。最近，斯坦福大學科學家波爾德拉克在他的部落格上解決了有關過去 fMRI 研究缺陷的問題。

“我自己一直在與完全相同的問題作鬥爭，我對我們過去 fMRI 分析方法的缺點的認識深深地動搖了我，”他寫道。

波爾德拉克告訴 STAT，他認為發現研究很糟糕是科學進步的標誌。他指出了 fMRI 的臨床前景，並引用了自 2007 年以來，外科醫生可以使用 fMRI 來規劃他們的手術，幫助他們避免切除關鍵腦組織這一事實。

“很多人都在努力做正確的事情，”波爾德拉克說。“當我們發現我們認為正確的事情實際上並不正確時，他們有望改變他們的做法，努力做得更好。”

他的 Neurosynth 資料庫——擁有 10,000 篇論文的資料庫——是 fMRI 當前成就的另一個標誌。如果你想知道某人是否正在經歷疼痛、快樂或美好的回憶，波爾德拉克可以使用他們的大腦掃描“並以相當高的準確度預測這個人正在做的三件事中的哪一件。顯然，如果這 10,000 篇論文都只是垃圾，你就做不到這一點，”他說。

總的來說，波爾德拉克說，既有樂觀的理由，也有悲觀的理由。與其認為“杯子主要是空的，我試圖更平衡地認為杯子裡有空氣和水，我們必須弄清楚如何解釋其中的混合物。”

經 STAT 許可轉載。這篇文章最初發表於 2016 年 8 月 3 日