埃德·武爾是麻省理工學院腦與認知科學系的博士研究生。他也是近期論文《社會神經科學中的偽相關性》的主要作者,該論文探討了個體人格或情緒特徵(如恐懼體驗或信任他人的意願)的測量結果與透過 fMRI 機器觀察到的特定腦區活動之間的高度相關性。該論文引發了大量評論。“Mind Matters” 編輯喬納·萊勒與武爾討論了這項研究對社會神經科學未來的意義、媒體是否應為此負責,以及我們為什麼應該始終進行多次猜測。
萊勒:是什麼最初讓您有興趣批判性地審視社會神經科學中的 fMRI 論文?
武爾:大約四年前,[加州大學聖地亞哥分校神經科學家] 哈爾·帕什勒和我參加了一次演講,其中報告了腦活動與某人在研究結束後走出房間的速度之間存在非常高的相關性。
支援科學新聞報道
如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的具有影響力的故事。
鑑於我們對 fMRI 的瞭解以及決定我們通常步行速度的因素,我們覺得難以置信的是,這個特定腦區的活動可以解釋步行速度如此大的差異。尤其如此,因為 fMRI 活動是在步行發生前大約兩小時測量的。因此,要麼這個區域的活動直接控制著延遲兩小時的運動動作——我們覺得難以置信——要麼就是有什麼蹊蹺的地方。在那時,儘管我們有所懷疑,但我們並不確切知道那個蹊蹺之處是什麼,所以我們將這個話題擱置了。
幾年前,我加入了 [麻省理工學院神經科學家] 南希·坎維舍的實驗室,開始直接處理 fMRI 資料,我學習了相關的術語和統計學。在這一點上,[麻省理工學院博士後] 克里斯·貝克和南希·坎維舍對自然神經科學上的一篇論文提出了批評,該論文存在非獨立分析的問題。在自己研究了一般情況(並寫了一個關於該主題的章節)之後,我意識到很久以前在我們看來很可疑的相關性可能是如何產生的,因此我們著手調查——最終導致了這篇論文。
萊勒:“偽相關”是什麼?
武爾:我們使用這個術語作為一種幽默的方式來描述複雜的統計方法產生的神秘高相關性(這些方法通常從未在我們研究的科學論文中清楚地描述過)——但不幸的是,這些方法最終產生了一些非常誤導性的結果。我們關注的具體問題,也是造成許多神秘相關性的原因,是我們稱之為“非獨立”的測試和相關性測量。基本上,這涉及無意中選擇性地挑選資料,並導致相關性估計被誇大。
要更詳細地說明
fMRI 掃描會產生大量資料:頭部的三維影像,它被分成許多小區域,稱為體素。在高解析度 fMRI 掃描中,三維影像中將有成千上萬個這樣的體素。
當研究人員想要確定大腦的哪些部分與行為的某個方面相關時,他們必須以某種方式選擇這些數千個體素的子集。一種誘人的策略是選擇與這種行為顯示出高度相關的體素。到目前為止,這種策略是可行的。
當研究人員隨後繼續向讀者提供僅在他們預先選擇的具有高度相關性的體素內測量的相關性大小的定量測量時,問題就出現了。這個兩步程式是迴圈的:它選擇具有高度相關性的體素,然後估計一個高的平均相關性。這種做法誇大了相關性測量,因為它選擇了那些既受益於偶然性,又受益於任何真實潛在相關性的體素,從而推高了數值。
人們可以在生活的許多領域看到非常類似的現象。假設我們挑選出 2005 年 4 月股票選擇表現最佳的投資分析師。這些人可能傾向於擁有天賦,但他們也可能運氣特別好(一些金融專家,如納西姆·塔勒布,實際上說運氣可能是更大的因素)。但即使假設他們比平均水平更有才華——正如我們懷疑的那樣——如果我們要求他們再次預測,在隨後的某個月份,我們總會發現,作為一個群體,他們無法複製他們在 4 月份的表現。原因是下一次,運氣會幫助他們中的一些人,也會傷害他們中的一些人——而在 4 月份,他們都運氣好,否則他們就不會進入頂尖群體。因此,他們在 4 月份的平均表現是對他們真實能力的過高估計——他們可以在平均月份複製的表現。
fMRI 資料和體素的情況完全相同。如果研究人員只選擇高度相關的體素,他們會選擇“運氣好”的體素,以及具有一些潛在相關性的體素。因此,如果您將您用來挑選體素的相關性作為衡量這些體素真實相關性的標準,您將得到一個非常具有誤導性的過高估計。
那麼,這就是我們認為偽相關性的根源:分析無意中利用了偶然性,導致相關性測量被誇大。棘手的部分,我無法在此詳細說明,是調查人員實際上試圖考慮到他們正在檢查如此多不同的大腦區域——但他們的預防措施使我正在描述的問題變得更糟,而不是更好!
萊勒:您的論文引發了社會神經科學家之間的大量辯論,一些科學家發表了對您的論文的反駁。(您隨後反駁了這種反駁。)您希望這場辯論帶來什麼?您希望使用 fMRI 的社會神經科學家採用哪些方法論上的改變?
武爾:我們引發的辯論非常有趣。起初,一些我們批評其論文的作者對我們的統計觀點提出了挑戰,但——出於充分的理由——這種論證路線似乎沒有流行起來。就我所知,目前似乎每個人都承認,這些研究中使用的分析在提供可以認真對待的相關性數值方面是不合規的。相反,我們現在主要聽到其他一些論點。
其中一種觀點是,相關性值本身並不重要——重要的是頭部某個位置存在相關性這一事實。我完全不同意這種觀察,我們認為這些論文中的許多論文出現在如此引人注目的地方,是因為編輯們(有道理地)對巨大的影響印象深刻。如果一個人可以解釋個體在焦慮或共情等重要事物上的差異的四分之三,那麼這顯然是一個真正的突破,它不僅告訴您未來的研究應該關注哪裡,而且還告訴您不應該關注哪裡。另一方面,如果只有 3% 的方差,那就遠沒有那麼令人印象深刻,並且可能反映更間接的關聯型別。
我還聽到有人抱怨說,即使我們在數學觀點上是正確的,我們提出論點的方式也有點粗魯——批評特定文章,引起外界對該領域的不利關注,並使用了幽默的術語“巫毒”。
我們和任何人一樣驚訝於我們的論文引起了如此多的興趣。顯然,它以某種“病毒式”的方式傳播開來——我們認識的一位神經科學家說他收到了七份副本(沒有一份是我們寄的)。好的一面是,人們現在更認真地思考他們如何進行分析。壞的一面是,所有這些宣傳都讓一些作者感到尷尬和受到指責。在我們看來,獨立性和多重比較的統計問題充滿了棘手的陷阱——我們並不認為這是人們犯的愚蠢錯誤,我們對傷害任何人的感情感到遺憾。但是,我認為寫一篇沒有“指名道姓”的文章是沒有意義的,因為如果科學文獻要指導未來的研究決策,人們必須知道哪些結果可以依賴,哪些結果不能依賴。(事實上,我們懷疑我們只標記了有這些問題的一小部分論文,而且有些論文在其他領域,例如神經遺傳學、更廣泛的認知神經科學和其他領域。)
萊勒:您是否認為媒體在一定程度上應對社會神經科學發現的聳人聽聞負責?媒體如何才能更好地報道腦部掃描資料?
武爾:社會神經科學令人興奮!誰不想知道我們為什麼會感到愛、嫉妒或幸災樂禍;我們如何決定懲罰他人;以及為什麼被拒絕會感到痛苦?因此,在這個領域中,不需要太多的東西就能使發現變得聳人聽聞——大多數發現已經能夠抓住公眾的想象力,他們只需要媒體稍微推動一下。
總的來說,我主張記者對所有科學發現都持 более skepticism 的態度。我認為記者通常會試圖用比科學家最初使用的更宏大的措辭來寫結論。他們可能沒有意識到的是,科學家自己也經常過分誇大其發現的意義。您將這些東西放在一起,最終可能會得到非常誇大的報道。(另一方面,也許如果遵循這個建議,科學專欄最終會變得枯燥乏味且無人閱讀,所以也許我應該撤回這個建議。)。
當涉及到報道腦部掃描資料時,我注意到似乎讓公眾和記者興奮的發現主要是“大腦做 X”這一類,其中 X 是我們珍視的某些深刻的人類特徵(例如愛、語言等等)。也許這對試圖堅持認為心靈和大腦是不同實體的外行人來說仍然令人興奮。但是,我不認為有很多研究神經科學的人會覺得這特別有趣。我們大多數人都深信心靈和大腦是一回事。也許如果記者專注於某事物在大腦中如何運作的問題,而不是它在大腦中運作的問題,他們可能會選擇該領域中稍微更(科學上)令人興奮的子集。
萊勒:當您不考慮偽相關性時,您研究什麼?
武爾:最近我一直在認知心理學和機器學習的介面上工作,詢問人們如何進行相當困難的統計計算(我們似乎總是無意識地和自動地進行這些計算)。
我一直在探索人類思維是一個“取樣引擎”的想法,基本上,它體現了複雜的統計模型,但只能透過抽取樣本來對它們做出判斷。這相當於給某人一枚彎曲的硬幣:他不知道它正面或反面朝上的機率,但他可以隨意翻轉它。
關於這個主題的一個實驗最近引起了一些媒體的興奮(當我的論文的結論被誇大時,我非常高興),我們稱之為“內在群體智慧”。
如果您要求兩個人猜測紐約有多少人居住,平均而言,他們的兩個猜測的平均值將比任何一個單獨的猜測都更好。這種群體智慧效應是來自不同人的猜測具有獨立誤差的結果。
我們測試了即使來自一個個體的兩個猜測的平均值也會比任何一個單獨的猜測更準確的假設。如果來自一個個體的多個反應是來自內部機率模型的某種獨立樣本——就像拋硬幣一樣——情況就會如此。事實上,這正是我們發現的。來自一個人的兩個猜測的平均值(平均而言)比任何一個單獨的猜測都更好——如果兩個猜測之間間隔兩週,改進甚至更大。因此,我們實際上擁有自己思維中不斷發展的群體——在某些情況下,我們可以透過諮詢該群體而不是僅僅做出一個即時判斷來獲益。
您是科學家嗎?您最近是否讀過一篇您想撰寫的同行評審論文?然後聯絡“Mind Matters”編輯喬納·萊勒,他是部落格The Frontal Cortex和書籍《普魯斯特是神經科學家》背後的科學作家。他的下一本書《我們如何決定》將於 2009 年 2 月出版。