關注錯誤:大腦如何監控錯誤並從失誤中學習

腦科學家已經確定了神經細胞,這些細胞可以監控表現、檢測錯誤並控制從不幸中學習的能力

1986年4月26日:在例行測試期間,切爾諾貝利核電站4號反應堆發生爆炸,引發了民用核能史上最嚴重的災難。

2006年9月22日:在試執行中,實驗性磁懸浮列車Transrapid 08在德國拉滕附近以每小時125英里的速度撞上一輛維修車,殘骸散落數百碼,造成23名乘客死亡,另有10人重傷。

人為錯誤是這兩起事故的幕後原因。當然,人們每天都會犯錯誤,無論大小,監控和糾正失誤是日常生活的一部分。雖然人們可以理解地希望避免嚴重的錯誤,但大多數失誤都有好的一面:它們為大腦提供了關於如何改進或微調行為的資訊。事實上,從錯誤中學習可能對我們物種的生存至關重要。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


近年來,研究人員已經確定了大腦中一個稱為內側前額葉皮層的區域,該區域在檢測錯誤和對錯誤做出反應方面起著核心作用。每當人們或猴子在因錯誤而產生的負面反饋或獎勵減少後改變其行為時,這些額葉神經元就會變得活躍。

最新的研究表明,我們從失誤中學習的大部分能力源於神經遞質多巴胺的作用。事實上,影響多巴胺訊號傳遞的基因變異可能有助於解釋人與人之間從過去的失誤中學習程度的差異。與此同時,某些腦部活動模式通常預示著錯誤,從而為使用行動式裝置預防容易出錯的腦部狀態開闢了可能性,這些裝置可以檢測容易出錯的腦部狀態。

錯誤檢測器
大腦錯誤檢測裝置的線索在 1990 年代初期意外出現。德國多特蒙德大學的心理學家邁克爾·法爾肯斯坦及其同事在使用腦電圖 (EEG) 監測受試者大腦進行心理學實驗時,注意到每當受試者按下錯誤的按鈕時,額葉的電位突然下降約 10 微伏。伊利諾伊大學的心理學家威廉·J·格林及其同事證實了這種效應,研究人員將其稱為錯誤相關負性,或 ERN。

ERN 可能出現在各種型別的錯誤、不利結果或衝突情況下。當一個人的行為產生意想不到的結果時,就會發生行動錯誤。例如,時間壓力通常會導致打字時的拼寫錯誤或電子郵件上的錯誤地址。行動錯誤發生後,ERN 會迅速出現,並在不正確的肌肉活動結束後 100 毫秒內達到峰值。

一種稍晚出現的 ERN,在結果發生後 250 到 300 毫秒達到峰值,發生在對不利反饋或金錢損失的反應中。這種所謂的反饋 ERN 也可能出現在一個人面臨艱難選擇(稱為決策不確定性)並且即使在做出選擇後仍然感到衝突的情況下。例如,一個人在超市選擇了一條結賬隊伍,然後意識到這條隊伍比鄰近的隊伍移動得更慢,這時可能會出現反饋 ERN。

ERN 起源於大腦的哪個部位?研究人員使用功能性磁共振成像以及其他成像方法反覆發現,錯誤識別發生在內側前額葉皮層,即大腦表面額葉中間的區域,包括前扣帶回。此類研究表明,該大腦區域是負面反饋、行動錯誤和決策不確定性的監控器——因此也是人類表現的總體主管。

在 2005 年的一篇論文中,我與英國南安普頓聽力研究所的心理學家斯特凡·德貝納和我們的同事一起表明,內側前額葉皮層可能是 ERN 的可能來源。在這項研究中,受試者執行了一項所謂的側翼任務,在該任務中,他們在周圍的誘餌箭頭中指定了中心目標箭頭的方向,同時我們使用 EEG 和 fMRI 同時監測他們的大腦活動。我們發現,一旦 ERN 出現,內側前額葉皮層的活動就會增加,並且 ERN 越大,fMRI 訊號越強,這表明該大腦區域確實產生了經典的錯誤訊號。

從失誤中學習
除了識別錯誤之外,大腦還必須有一種適應性地響應錯誤的方式。在 1970 年代,英國曼徹斯特大學的心理學家帕特里克·拉位元是第一個系統地研究此類反應的人之一,他觀察到,與正確的擊鍵相比,打字錯誤擊鍵的鍵盤壓力略小,就好像打字員試圖在最後一刻退縮一樣。

更普遍的是,人們經常透過在犯錯後減速來對錯誤做出反應,這大概是為了更仔細地分析問題並切換到不同的策略來處理任務。這種行為變化代表了我們從錯誤中學習的方式,希望避免將來發生類似的失誤。

內側前額葉皮層似乎也控制著這個過程。成像研究表明,例如,在一個人因行動錯誤而減速之前,該區域的神經活動會增加。此外,研究人員在猴子的內側前額葉皮層中的單個神經元中發現了反應,這些神經元與動物對負面反饋的行為反應有關,類似於錯誤產生的負面反饋。

1998 年,日本仙台東北大學醫學院的神經科學家島桂雪和丹治淳訓練了三隻猴子,讓它們根據視覺訊號推或轉動手柄。猴子會根據它期望的獎勵來選擇它的反應:例如,如果推動手柄一直伴隨著獎勵,它就會推手柄。但是,當研究人員連續減少推動的獎勵時——一種負面反饋或錯誤訊號——動物會在幾次試驗後切換為轉動手柄。與此同時,研究人員正在記錄猴子扣帶回部分單個神經元的電活動。

島和丹治發現,有四種類型的神經元在獎勵減少後改變了它們的活動,但這僅當猴子將這種減少用作推動而不是轉動,或反之亦然的線索時才會發生。如果猴子沒有決定切換動作,或者它是為了響應音調而不是較少的獎勵而切換動作,這些神經元就不會退縮。當研究人員暫時停用該區域的神經元時,猴子在獎勵減少後不再切換動作。因此,這些神經元為了改變行為而傳遞有關獎勵程度的資訊,並且可以將負面反饋用作改進的指南。

2004 年,馬薩諸塞州總醫院的神經外科醫生齊夫·M·威廉姆斯及其同事報告說,他們在人類前扣帶回中發現了一組具有相似特性的神經元。研究人員從五名安排在該大腦區域進行手術切除的患者身上記錄了這些神經元。當這些神經元被接通時,患者完成了一項任務,在該任務中,他們必須根據視覺提示選擇兩個方向之一來移動操縱桿,該視覺提示還指定了金錢獎勵:九美分或 15 美分。在九美分的試驗中,參與者應該改變他們移動操縱桿的方向。

與猴子神經元的反應類似,當前扣帶回神經元的活動在提示表明獎勵減少以及運動方向改變時升至最高水平。此外,神經元活動的水平預測了一個人是會按照指示行動還是會犯錯。在手術切除這些細胞後,當提示患者面對報酬減少時改變他們的行為時,他們犯了更多錯誤。因此,這些神經元似乎將有關獎勵的資訊與行為聯絡起來。在檢測到實際結果與期望結果之間的差異後,這些細胞會確定最佳化獎勵所需的糾正措施。

但是,除非被指示這樣做,否則動物通常不會在僅僅一次事故後就改變它們的行為。相反,它們僅在多次失敗嘗試的模式之後才會改變策略。前扣帶回似乎也以這種更實際的方式工作,以仲裁對錯誤的反應。在 2006 年的一項研究中,實驗心理學家斯蒂芬·肯納利和馬修·拉什沃斯及其牛津大學的同事教會了恆河猴拉動槓桿以獲得食物。經過 25 次試驗後,研究人員改變了規則,當猴子轉動槓桿而不是拉動槓桿時,就會分配食物。猴子適應並切換為轉動槓桿。過了一段時間,研究人員再次更改了規則,猴子再次更改了它們的行為。

每次猴子都沒有立即切換動作,而是在幾次虛假啟動後才切換動作,使用前四到五次試驗作為指導。然而,在扣帶前回受到損傷後,動物失去了這種長期視角,而是僅使用它們最近的成功或失敗作為指導。因此,前扣帶回似乎控制著動物評估一段短暫的命中和未命中歷史作為未來決策指南的能力。

化學激勵
這種評估可能取決於多巴胺,多巴胺在大腦中傳遞成功訊號。劍橋大學的神經生理學家沃爾夫拉姆·舒爾茨及其同事在過去 15 年中表明,當獎勵大於或小於預期時,產生多巴胺的神經細胞會改變它們的活動。例如,當猴子因正確的反應而意外獲得獎勵時,細胞會變得興奮,釋放多巴胺,而當猴子在犯錯後未能獲得食物時,它們的活動就會下降。如果多巴胺的數量穩定地改變了神經細胞之間的連線,那麼它的差異釋放可能會促進從成功和失敗中學習。

事實上,多巴胺水平的變化可能有助於解釋我們如何從積極和消極強化中學習。多巴胺會激發大腦所謂的“去”通路,該通路促進反應,同時還會抑制抑制行動的“不去”通路。因此,積極強化產生的多巴胺爆發透過啟用“去”通道和阻斷“不去”通道來促進學習。相反,消極結果後多巴胺的下降應該透過使“去”通路失活,同時釋放對“不去”通路的抑制來促進迴避行為。

2004 年,當時在科羅拉多大學博爾德分校的心理學家邁克爾·J·弗蘭克及其同事報告了多巴胺對學習影響的證據,這項研究針對的是患有帕金森病(神經遞質產生過少)的患者。弗蘭克推測,帕金森病患者可能難以產生從積極反饋中學習所需的多巴胺,但他們低水平的多巴胺可能有助於基於負面反饋的訓練。

在該研究中,研究人員在計算機螢幕上顯示成對的符號,並要求 19 名健康人和 30 名帕金森病患者從每對符號中選擇一個符號。每當受試者選擇了任意正確的符號時,就會出現“正確”字樣,而每次“錯誤”選擇後都會閃爍“不正確”字樣。(沒有符號總是正確或不正確。)其中一個符號被認為是正確的機率為 80%,另一個符號的機率為 20%。對於其他對,機率分別為 70:30 和 60:40。受試者應該從這種反饋中學習,從而增加稍後測試執行中正確選擇的數量。

正如預期的那樣,健康人在偏好正確符號和避免不正確符號方面的能力大致相同。另一方面,帕金森病患者表現出更強的拒絕負面符號的傾向,而不是選擇正面符號——也就是說,他們從錯誤中學習的比從成功中學習的更多,這表明多巴胺的缺乏確實以預期的方式偏向了他們的學習。此外,在患者服用提高大腦多巴胺水平的藥物後,他們從積極反饋中學習的能力超過了從消極反饋中學習的能力,這突顯了多巴胺在積極強化中的重要性。

學習能力中基於多巴胺的差異也出現在健康人群中。去年 12 月,我與心理學研究生蒂爾曼·A·克萊恩和我們的同事一起表明,這種差異部分是基於 D2 多巴胺受體基因的個體差異。這種基因的一種變體稱為 A1,會導致神經細胞膜上這些受體的密度降低高達 30%。

我們要求 12 名攜帶 A1 變體的男性和 14 名擁有該基因更常見形式的男性執行一項類似於弗蘭克使用的基於符號的學習測試。我們發現,與沒有這種基因形式的參與者相比,A1 攜帶者記住和避免負面符號的能力較差。A1 攜帶者避免負面符號的頻率也低於他們選擇正面符號的頻率。非攜帶者從好符號和壞符號中學習的效果大致相同。

因此,較少的 D2 受體可能會損害一個人從錯誤或負面結果中學習的能力。(這種分子怪癖只是影響這種學習的眾多因素之一。)因此,我們的 fMRI 結果表明,A1 攜帶者的內側前額葉皮層對錯誤的反應弱於其他人群,這表明該大腦區域是多巴胺對從負面反饋中學習產生影響的位點之一。

但是,如果較少的 D2 受體導致迴避學習受損,那麼為什麼提高多巴胺訊號傳遞的藥物也會導致帕金森病患者出現此類損傷?在這兩種情況下,多巴胺訊號傳遞實際上都可能透過其他多巴胺受體增加;研究表明,A1 攜帶者產生異常大量的多巴胺,這可能是為了補償他們缺乏 D2 受體。無論原因是什麼,對不愉快後果的不敏感都可能導致 A1 攜帶者中的肥胖、強迫性賭博和成癮的發生率略高於一般人群。

預測錯誤
雖然從錯誤中學習可能有助於我們避免未來的失誤,但缺乏經驗或注意力不集中仍然可能導致錯誤。然而,根據我的團隊 4 月份發表在《美國國家科學院院刊》上的研究,許多此類失誤被證明是可以預測的,並且腦代謝中預示性的變化預示了這些失誤。

我與挪威卑爾根大學的認知神經科學家湯姆·艾謝勒和幾位同事一起,要求 13 名年輕人執行一項側翼任務,同時我們使用 fMRI 監測他們的大腦活動。從我們的受試者犯錯前約 30 秒開始,我們發現兩個大腦網路的啟用發生了明顯但漸進的變化。

其中一個網路稱為預設模式區域,通常在人處於休息狀態時更活躍,而在人從事任務時會安靜下來。但在犯錯之前,該網路的後部——包括位於大腦中心表面附近的後扣帶皮層——變得更加活躍,表明大腦正在放鬆。與此同時,每當一個人努力工作時就會活躍起來的額葉區域的活動下降,這表明這個人也變得不太專注於手頭的任務。

我們的結果表明,錯誤是大腦中逐漸變化的產物,而不是大腦活動中不可預測的閃爍。這種調整可以用來預測錯誤,特別是那些在單調的任務中發生的錯誤。未來,人們可能會佩戴行動式裝置來監測這些大腦狀態,作為預防最有可能發生且最重要的錯誤的第一步。

編者注:本文最初以“關注錯誤”為標題發表

(延伸閱讀)

  • 內側前額葉皮層在認知控制中的作用。K. 理查德·裡德林克霍夫、馬庫斯·烏爾斯佩格、伊芙琳·A·克羅內和桑德·紐文豪斯,《科學》,第 306 卷,第 443-447 頁;2004 年 10 月 15 日。

  • 胡蘿蔔加大棒:帕金森病中的認知強化學習。邁克爾·J·弗蘭克、勞倫·C·西伯格和蘭德爾·C·奧萊利,《科學》,第 306 卷,第 1940-1943 頁;2004 年 12 月 10 日。

  • 人類前扣帶回神經元和貨幣獎勵與運動反應的整合。齊夫·M·威廉姆斯等,《自然神經科學》,第 7 卷,第 12 期,第 1370-1375 頁;2004 年 12 月。

  • 錯誤監控的神經變化:最新發現和理論視角。S. F. 泰勒、E. R. 斯特恩和 W. J. 格林,《神經科學家》,第 13 卷,第 2 期,第 160-172 頁;2007 年 4 月。

  • 從錯誤中學習的基因決定差異。蒂爾曼·A·克萊恩等,《科學》,第 318 卷,第 1642-1645 頁;2007 年 12 月 7 日。

  • 事件相關腦網路中適應不良的變化對人類錯誤的預測。湯姆·艾謝勒等,《美國國家科學院院刊》,第 105 卷,第 15 期,第 6173-6178 頁;2008 年 4 月 22 日。

SA Mind Vol 19 Issue 4本文最初以“關注錯誤”為標題發表於SA Mind 第 19 卷第 4 期(),第 52 頁
doi:10.1038/scientificamericanmind0808-52
© .