大腦如何識別面孔

處理面孔的大腦區域揭示了視覺神經機制的深刻見解

Brian Stauffer

我還在上高中的時候,在微積分入門課程中,有一天我學到了曲線的密度。 模擬捕食者和獵物之間相互作用的一對簡單微分方程可以產生無數條閉合曲線——想象一下同心圓,一個巢狀在另一個之內,就像靶心一樣。 更重要的是,這些曲線的密度隨其位置而變化。

最後一個事實對我來說似乎很奇怪。 我很容易想象有限數量的曲線靠近或拉開。 但是,無限數量的曲線怎麼可能在一個區域更密集而在另一個區域更稀疏呢? 我很快了解到,存在著具有悖論性質的不同型別的無窮大,例如希爾伯特旅館(房間總是訂滿,但總能容納新客人)和巴拿赫-塔斯基蘋果(可以分成五塊並重新排列以製作成兩個與原始蘋果體積相同的蘋果)。 我花了幾個小時仔細研究這些數學證明。 最終,它們給我的印象是毫無實際意義的象徵性魔法,但興趣的種子已經紮根。

後來,在加州理工學院讀本科時,我瞭解到了 David Hubel 和 Torsten Wiesel 的實驗,以及他們具有里程碑意義的發現,即大腦中稱為初級視覺皮層的區域如何從眼睛傳遞的影像中提取邊緣。 我意識到,高中時讓我感到困惑的是試圖想象不同密度的無窮大。 與我在高中時研究的數學技巧不同,Hubel 和 Wiesel 描述的邊緣是由神經元處理的,因此它們實際上存在於大腦中。 我逐漸認識到,視覺神經科學是理解這種神經活動如何產生對曲線的意識感知的一種方式。


關於支援科學新聞業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。 透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


這種認識引發的興奮感難以形容。 我相信在人生的每個階段,人們都有責任。 而大學生的責任是去夢想,去找到能夠抓住自己的心並值得為之奉獻一生的事物。 事實上,這是科學中最重要的一步:找到正確的問題。 我被理解視覺的挑戰所吸引,並開始探索大腦中的電活動模式如何能夠編碼對視覺物體的感知——不僅是線條和曲線,甚至是像面孔這樣難以定義的物體。 實現這一目標需要查明專門用於面部識別的特定大腦區域,並破譯其底層的神經程式碼——即電脈衝模式使我們能夠識別周圍人的方式。

發現之旅始於哈佛大學的研究生院,我在那裡研究立體視覺,即深度感知從雙眼影像之間的差異中產生的機制。 有一天,我偶然看到神經科學家 Nancy Kanwisher(現就職於麻省理工學院)及其同事的一篇論文,報告稱他們在人腦中發現了一個區域,當一個人在功能性磁共振成像 (fMRI) 腦部掃描器內時,該區域對面孔圖片的反應遠強於對任何其他物體影像的反應。 這篇論文似乎很奇怪。 我習慣於大腦由諸如“基底神經節”和“眶額皮層”之類的部分組成,這些部分具有一些模糊的目的,人們只能開始理解。 專門用於處理面孔的區域的概念似乎太容易理解,因此是不可能的。 任何人都可以對人臉區域的功能做出合理的推測——它可能應該代表我們認識的所有不同的人臉以及關於他們的表情和性別的一些資訊。

作為一名研究生,我曾在猴子身上使用 fMRI 來識別由影像中三維感知啟用的區域。 我決定向猴子展示面孔和其他物體的圖片。 當我比較猴子大腦對面孔的反應與對其他物體的反應的啟用時,我發現顳葉(太陽穴下方的區域)中有幾個區域選擇性地對面孔亮起——特別是在一個稱為顳下 (IT) 皮層的區域。 物體視覺領域的先驅 Charles Gross 在 1970 年代初期在獼猴的 IT 皮層中發現了面孔選擇性神經元。 但他報告說,這些細胞隨機分散在整個 IT 皮層中。 我們的 fMRI 結果首次表明面孔細胞可能集中在定義的區域。

面孔補丁

在發表我的工作後,我被邀請做一次演講,將 fMRI 研究描述為加州理工學院教職職位的候選人,但我沒有得到這份工作。 許多人對 fMRI 的價值持懷疑態度,fMRI 測量的是區域性血流,即大腦的管道系統。 他們認為,當受試者看著面孔時,顯示大腦區域血流量增加遠未澄清該區域的神經元實際編碼的內容,因為血流量和電活動之間的關係尚不清楚。 也許偶然的是,這些面孔補丁僅僅包含稍微多一些對面孔有反應的神經元,就像海面上隨機聚集的冰山一樣。

因為我已經在猴子身上做了成像實驗,所以我可以直接透過將電極插入 fMRI 識別的面孔區域並詢問:什麼影像最強烈地驅動該區域的單個神經元?來解決這個擔憂。 我與 Winrich Freiwald 一起進行了這項實驗,當時他是瑪格麗特·利文斯通在哈佛大學實驗室的博士後研究員,我在那裡是一名研究生。 我們向猴子展示面孔和其他物體,同時放大電極記錄的單個神經元的電活動。 為了即時監測反應,我們將神經元的電訊號轉換為音訊訊號,我們可以在實驗室的揚聲器中聽到。

這個實驗揭示了一個驚人的結果:透過 fMRI 識別的區域中幾乎每個細胞都專門用於處理面孔。 我可以回憶起我們第一次記錄時的興奮,聽到一個又一個細胞“砰”的一聲,對面孔反應強烈,而對其他物體的反應卻很小。 我們感覺到我們正在研究一些重要的東西,一塊可以揭示大腦視覺物體高階程式碼的皮層。 Marge 評論面孔補丁時說:“你找到了一個金蛋。”

我還記得在第一次實驗中感到驚訝。 我曾期望面孔區域會包含對特定個體選擇性反應的細胞,類似於初級視覺皮層中每個細胞都對特定邊緣方向做出反應的方向選擇性細胞。 事實上,許多廣為人知的研究表明,單個神經元可能對熟悉的人的面孔具有顯著的選擇性——例如,僅對詹妮弗·安妮斯頓做出反應。 與我的預期相反,每個細胞似乎對幾乎任何面孔都強烈放電。

在早期的這些實驗中,我瘋狂地使用 Photoshop,發現細胞不僅對人類和猴子的面孔有反應,甚至對高度簡化的卡通面孔也有反應。

觀察到這種現象後,我決定建立具有 19 種不同特徵的卡通面孔,這些特徵似乎與定義面孔的身份有關,包括眼間距、面部縱橫比和嘴巴高度等特徵。 然後我們繼續改變這些值——例如,眼間距從幾乎是獨眼巨人到剛好在面部邊界內不等。 單個細胞對大多數面孔都有反應,但有趣的是,並非總是對所有面孔都表現出完全相同的放電率。 相反,它們的反應存在系統的變化:當我們繪製不同卡通特徵的細胞放電時,我們發現一種模式,其中對一種特徵極端(例如最小的眼間距)的反應最小,而對相反的極端(最大的眼睛分離)的反應最大,對中間的特徵值的反應是中間的。 作為每個特徵值的函式的響應看起來像一個斜坡,一條向上或向下傾斜的線。

再一次,我被邀請在加州理工學院做一次工作演講。 回來後,我可以提供的不僅僅是 fMRI 影像。 加上來自單細胞記錄的新結果,每個人都清楚地認識到這些面孔補丁是真實存在的,並且可能在面部識別中發揮重要作用。 此外,理解它們底層的神經過程似乎是解決大腦如何表示視覺物體這一普遍問題的有效途徑。 這次我得到了這份工作。

對比是關鍵

在加州理工學院,我和我的同事們深入研究了這些細胞如何檢測面孔的問題。 我們從麻省理工學院的視覺和計算神經科學家 Pawan Sinha 的一篇論文中獲得靈感,該論文提出,可以根據面部不同區域之間的特定對比關係來辨別面孔——例如,額頭區域是否比嘴巴區域更亮。 Sinha 提出了一種巧妙的方法來確定哪些對比關係可以用來識別人臉:它們應該是那些不受光照變化影響的關係。 例如,“左眼比鼻子暗”是檢測面孔的有用特徵,因為無論從上方、左側、右側還是下方拍攝面孔,都沒有關係:左眼總是比鼻子暗(自己檢查一下)。

從理論角度來看,這個想法為面部識別提供了一種簡單、優雅的計算機制,我們想知道面孔細胞是否可能正在使用它。 當我們測量細胞對面部不同區域亮度不同的面孔的反應時,我們發現細胞通常對影像中的特定對比特徵有明顯的偏好。

圖片來源:Body Scientific(大腦); 來源:“獼猴面孔處理系統內的功能區隔化和視點泛化”,Winrich A. Freiwald 和 Doris Y. Tsao,發表於Science,第 330 卷; 2010 年 11 月 5 日(資料網格和照片插頁

令我們驚訝的是,幾乎所有細胞的對比度偏好都完全一致——只發現一個細胞偏好相反的極性。 此外,首選特徵正是 Sinha 確定的那些不易受光照變化影響的特徵。 因此,該實驗證實,面孔細胞使用對比關係來檢測面孔。

更廣泛地說,結果證實這些細胞確實是面孔細胞。 在演講中,懷疑論者會問,你怎麼知道? 你無法測試每一種可能的刺激。 你怎麼能確定它是面孔細胞而不是石榴細胞或割草機細胞? 這個結果讓我信服了。 細胞對面部不同部位之間對比度變化的反應方式與 Sinha 的計算預測之間的精確匹配是不可思議的。

我們最初的實驗揭示了兩個附近的面孔皮質補丁,它們對面孔亮起。 但在進一步掃描(在對比劑的幫助下,對比劑使訊號的穩健性提高了數倍)之後,很明顯,實際上每個大腦半球都有六個面孔補丁(總共十二個金蛋)。 它們分佈在整個顳葉的長度上。 而且,這六個補丁並非隨機分散在整個 IT 皮層中。 它們位於每隻動物半球的相似位置。 我們小組和其他人的工作發現,人類和其他靈長類動物(如狨猴)的 IT 皮層中也存在類似的多個面孔補丁模式。

對刻板模式的這種觀察表明,這些補丁可能構成一種用於處理面孔的裝配線。 如果是這樣,人們會期望這六個補丁彼此連線,並且每個補丁都具有不同的功能。

為了探索補丁之間的神經連線,當猴子在 fMRI 掃描器內時,我們用微小的電流電刺激不同的補丁——一種稱為微刺激的技術。 目的是找出當特定面孔補丁受到刺激時,大腦的其他哪些部分會亮起。 我們發現,每當我們刺激一個面孔補丁時,其他補丁都會亮起,但周圍的皮層不會,這表明面孔補丁確實是強烈互連的。 此外,我們發現每個補丁都執行不同的功能。 我們向猴子展示了 25 人的照片,每個人都有八種不同的頭部方向,並記錄了來自三個區域的細胞的反應:中間外側和中間穹窿補丁 (ML/MF)、前外側補丁 (AL) 和前內側補丁 (AM)。

圖片來源:Jen Christiansen(圖表); 來源:“靈長類動物大腦中面部身份的程式碼”,Le Chang 和 Doris Y. Tsao,發表於Cell,第 169 卷,第 6 期; 2017 年 6 月 1 日(面部影像

我們發現這些區域之間存在顯著差異。 在 ML/MF 中,細胞選擇性地對特定檢視做出反應。 例如,一個細胞可能更喜歡直視前方的面孔,而另一個細胞可能更喜歡看向左側的面孔。 在 AL 中,細胞的檢視特異性較低。 一類細胞對向上、向下和直視前方的面孔做出反應; 另一類細胞對看向左側或右側的面孔做出反應。 在 AM 中,細胞對特定個體做出反應,而不管面孔的檢視是正面還是側面。 因此,在 AM 網路末端,特定於檢視的表示已成功縫合為與檢視無關的表示。

顯然,面孔補丁確實像一條裝配線一樣運作,以解決視覺的重大挑戰之一:如何在周圍事物的外觀發生變化時識別它們。 汽車可以有任何品牌和顏色,以任何視角和距離出現,並且可能被樹木或其他汽車等較近的物體部分遮擋。 儘管存在這些視覺轉換,但識別物體被稱為不變性問題,我們清楚地認識到,面孔補丁網路的主要功能是克服這一障礙。

鑑於面孔補丁中的細胞對人臉身份變化的巨大敏感性,人們可能會期望改變這些細胞的反應應該會改變動物對人臉身份的感知。 斯坦福大學的神經科學家 Josef Parvizi 和 Kalanit Grill-Spector 對植入電極的人類受試者的大腦中的面孔補丁區域進行了電刺激,目的是確定癲癇發作的來源,並發現刺激扭曲了受試者對面孔的感知。

我們想知道,當我們刺激猴子的面孔補丁時,是否會在猴子身上發現同樣的效果。 這樣做只會改變對面孔的感知,還是也會影響對其他物體的感知? 面孔和非面孔物體之間的界限是流動的——如果受到提示,人們可以在雲朵或電源插座中看到面孔。 我們想使用電微刺激作為一種工具來精確描繪對於面孔補丁而言什麼構成面孔。 我們訓練猴子報告順序呈現的兩個面孔是相同還是不同。 與早期在人類身上獲得的結果一致,我們發現面孔補丁的微刺激強烈扭曲了感知,以至於動物總是將兩個相同的面孔標記為不同的面孔。

有趣的是,微刺激對許多非面孔物體的感知沒有影響,但它確實顯著影響了對一些形狀與面孔一致的物體的反應——例如蘋果。 但是,為什麼這種刺激會影響對蘋果的感知呢?

一種可能性是,面孔補丁通常不僅用於表示面孔,還用於表示其他圓形物體,如蘋果。 另一種假設是,面孔補丁通常不用於表示這些物體,但刺激會誘導蘋果看起來像面孔。 面孔補丁是否可用於檢測任何非面孔物體仍不清楚。

破解密碼

揭示面孔補丁系統的組織結構和內部細胞的特性是一項重大成就。 但當我們第一次開始從面孔補丁中記錄時,我的夢想是取得更大的成就。 我預感到這些細胞將使我們能夠破解面部身份的神經程式碼。 這意味著要理解單個神經元如何在細節層面上處理面孔,從而使我們能夠預測細胞對任何給定面孔的反應,或者僅根據神經活動解碼任意麵孔的身份。

中心挑戰是找出一種以高精度定量描述面孔的方法。 Le Chang,當時是我實驗室的博士後,他敏銳地洞察到可以採用計算機視覺領域的一種稱為主動外觀模型的技術。 在這種方法中,一張臉有兩組描述符,一組用於形狀,另一組用於外觀。 將形狀特徵視為骨架定義的特徵——頭部有多寬或眼睛之間的距離。 外觀特徵定義了面部的表面紋理(膚色、眼睛或頭髮顏色等等)。

圖片來源:Jen Christiansen(圖表); 來源:“靈長類動物大腦中面部身份的程式碼”,Le Chang 和 Doris Y. Tsao,發表於Cell,第 169 卷,第 6 期; 2017 年 6 月 1 日(面部網格

為了生成面孔的這些形狀和外觀描述符,我們從一個大型人臉影像資料庫開始。 對於每個人臉,我們在關鍵特徵上放置了一組標記。 這些標記的空間位置描述了面部的形狀。 從這些不同的形狀中,我們計算出一個平均面孔。 然後,我們對資料庫中的每個人臉影像進行變形,使其關鍵特徵與平均面孔的關鍵特徵完全匹配。 生成的影像構成了獨立於形狀的面孔外觀。

然後,我們對整個人臉集中的形狀和外觀描述符分別進行了主成分分析。 這是一種數學技術,用於查詢複雜資料集中變化最大的維度。

透過取形狀的前 25 個主成分和外觀的前 25 個主成分,我們建立了一個 50 維的人臉空間。 這個空間類似於我們熟悉的 3-D 空間,但每個點代表一張臉而不是一個空間位置,並且它包含的維度遠不止三個。 對於 3-D 空間,任何點都可以用三個座標 (x,y,z) 來描述。 對於 50-D 人臉空間,任何點都可以用 50 個座標來描述。

圖片來源:Jen Christiansen(圖表); Doris Y. Tsao(面部影像

在我們的實驗中,我們隨機抽取了 2,000 張面孔,並在從兩個面孔補丁記錄細胞的同時將其呈現給猴子。 我們發現,幾乎每個細胞都對 50 個特徵的子集表現出分級反應——類似於向上或向下傾斜的斜坡——這與我早期使用卡通面孔進行的實驗一致。 但我們對為什麼這很重要有了新的認識。 如果面孔細胞對不同特徵具有斜坡形調諧,則其反應可以透過面部特徵的簡單加權和來粗略近似,權重由斜坡形調諧函式的斜率確定。 換句話說

面孔細胞的反應 = 權重矩陣 × 50 個面部特徵

然後,我們可以簡單地反轉這個方程,將其轉換為一種形式,使我們能夠根據面孔細胞的反應預測正在顯示的面孔

50 個面部特徵 = (1/權重矩陣) × 面孔細胞的反應

起初,這個方程對我們來說似乎簡單得令人難以置信。 為了測試它,我們使用了對 2,000 張面孔中除一張以外的所有面孔的反應來學習權重矩陣,然後嘗試預測排除的面孔的 50 個面部特徵。 令人驚訝的是,預測結果與實際面孔幾乎沒有區別。

雙贏的賭注

在瑞士阿斯科納的一次會議上,我介紹了我們使用神經活動重建面孔的發現。 在我的演講之後,英國萊斯特大學的 Rodrigo Quian Quiroga(他與同事於 2005 年在人類內側顳葉發現了所謂的詹妮弗·安妮斯頓細胞)問我,我的細胞與他的概念(單個神經元對特定人的面孔做出反應)有何關係。 詹妮弗·安妮斯頓細胞,也稱為祖母細胞,是一種假定的神經元型別,它在響應可識別的人(名人或近親)的面孔時會開啟。

我告訴 Rodrigo,我認為我們的細胞可以成為他的細胞的構建塊,但我沒有深入思考這會如何運作。 那天晚上,由於時差反應而失眠,我認識到我們的面孔細胞和他的細胞之間存在重大差異。 我在演講中描述了我們的面孔細胞如何計算它們對不同面部特徵的加權和的反應。 在半夜,我意識到這種計算與稱為點積的數學運算相同,其幾何表示是將向量投影到軸上(就像太陽將旗杆的陰影投影到地面上一樣)。

回想起我的高中線性代數,我意識到這意味著我們應該能夠為每個細胞構建一個大的“零空間”面孔——一系列身份各異的面孔,它們位於垂直於投影軸的軸上。 此外,所有這些面孔都會導致細胞以完全相同的方式放電。

反過來,這將表明面孔補丁中的細胞與祖母細胞根本不同。 這將打破每個人都對人臉細胞的模糊直覺——即它們應該被調整為特定的面孔。

第二天早上 5 點,我是會議早餐大廳裡的第一個人,並希望找到 Rodrigo,以便我可以告訴他這個違反直覺的預測。 令人驚訝的是,當他終於出現時,他告訴我他也有完全相同的想法。 因此我們打了個賭,Rodrigo 允許以一種對我來說是雙贏的方式來確定條款。 如果每個細胞真的對不同的面孔表現出相同的反應,那麼我將送給 Rodrigo 一瓶昂貴的葡萄酒。 另一方面,如果預測沒有實現,他將送給我安慰酒。

為了在我們在加州理工學院的實驗室中尋找答案,Le Chang 首先使用對 2,000 張面孔的反應繪製了給定細胞的首選軸。 然後,他在仍然從同一細胞記錄的情況下,生成了一系列面孔,所有這些面孔都可以放置在垂直於細胞首選軸的軸上。 值得注意的是,所有這些面孔都在細胞中引起了完全相同的反應。 下週,Rodrigo 收到了一瓶精美的赤霞珠。

這一發現證明,面孔細胞並沒有在 IT 皮層中編碼特定個體的身份。 相反,它們正在執行軸投影,這是一種更加抽象的計算。

可以類比顏色。 顏色可以用特定的名稱來編碼,例如長春花色、白屈菜色和天藍色。 或者,人們可以用代表構成該顏色的紅色、綠色和藍色量的三個簡單數字的特定組合來編碼顏色。 在後一種方案中,對紅色軸執行投影的顏色細胞將發出與任何顏色中的紅色量成比例的電脈衝或尖峰。 這樣的細胞對於含有相同量的紅色與其他顏色混合的棕色或黃色會以相同的強度放電。 面孔細胞使用相同的方案,但不是隻有三個軸,而是有 50 個。 而且,每個軸編碼的不是紅色、綠色或藍色的量,而是每個軸編碼任何給定面孔的形狀或外觀與平均面孔的偏差量。

這樣看來,詹妮弗·安妮斯頓細胞似乎不存在,至少在 IT 皮層中不存在。 但是,對特定熟悉個體做出選擇性反應的單個神經元可能仍然在大腦中處理面孔細胞輸出的部分發揮作用。 記憶儲存區域——海馬體和周圍區域——可能包含有助於人們根據過去的經驗識別某人的細胞,類似於祖母細胞。

因此,IT 皮層中的面部識別依賴於總共約 50 個數字的集合,這些數字表示沿著一組軸對面孔的測量。 並且,發現這種極其簡單的面部身份程式碼對我們理解視覺物體表示具有重大意義。 IT 皮層的所有部分都可能按照控制面孔補丁系統的相同原則組織起來,神經元簇編碼不同的軸集來表示物體。 我們現在正在進行實驗來驗證這個想法。

神經羅塞塔石碑

如果您去過大英博物館,您會看到一件令人驚歎的文物,羅塞塔石碑,上面用三種不同的語言刻著孟菲斯的同一法令:埃及象形文字、世俗體和古希臘語。 因為語文學家懂古希臘語,他們可以使用羅塞塔石碑來幫助破譯埃及象形文字和世俗體。 同樣,面孔、面孔補丁和 IT 皮層構成了一塊神經羅塞塔石碑——一塊仍在破譯中的石碑。 透過向猴子展示面孔圖片,我們發現了面孔補丁,並瞭解了這些補丁內的細胞如何檢測和識別面孔。 反過來,理解面孔補丁網路中的編碼原則可能有一天會讓我們深入瞭解整個 IT 皮層的組織結構,揭示更普遍的物件身份編碼方式的秘密。 也許 IT 皮層包含專門用於處理其他型別物體的額外網路——一個擁有多條裝配線的呼呼作響的工廠。

我也希望瞭解面部身份的程式碼可以幫助我實現我大學時的夢想,即發現我們如何想象曲線。 既然我們瞭解了面孔補丁,我們就可以開始訓練動物想象面孔,並探索神經活動如何被純粹的內部想象行為所塑造。 出現了許多新問題。 想象力是否會重新啟用面孔補丁中想象的面孔的程式碼? 它是否會帶回甚至更早的輪廓和陰影表示,這些表示為面孔補丁系統提供輸入? 我們現在擁有探索這些問題的工具,並更好地瞭解大腦如何看待物體,無論是想象的還是真實的。

由於幾乎所有大腦的核心行為——意識、視覺記憶、決策、語言——都需要物體互動,因此深入理解物體感知將有助於我們深入瞭解整個大腦,而不僅僅是視覺皮層。 我們才剛剛開始解開面孔之謎。

Doris Y. Tsao 是加州大學伯克利分校海倫·威爾斯神經科學研究所的生物學教授,也是霍華德·休斯醫學研究所的研究員。 2018 年,她被任命為麥克阿瑟研究員。

更多作者:Doris Y. Tsao
大眾科學 Magazine Vol 320 Issue 2這篇文章最初以標題“Face Values”發表於《大眾科學》雜誌 第 320 卷第 2 期(),第 22 頁
doi:10.1038/scientificamerican0219-22
© .