我們對世界的感知似乎毫不費力,以至於我們認為這是理所當然的。但想想看,即使你觀看最簡單的視覺場景,也涉及哪些過程。你的眼球中呈現出兩個微小的、倒立的影像,但你所看到的卻是一個統一的三維世界。正如已故神經心理學家理查德·格雷戈裡曾經說過的,這種現象簡直是“一個奇蹟”。
實際上,這個“奇蹟般”的過程涉及我們的大腦利用許多不同的線索。這些線索可能包括遮擋(如果A覆蓋了B的某一部分,則A必須在前面)、運動視差(其中離我們較近的物體看起來比離我們較遠的物體移動得更快)以及從陰影中辨別出的形狀——本文的主要主題。陰影遠非藝術家用來傳達深度印象的簡單手段,而是關於外部世界三維佈局的強大資訊來源。這些資訊是透過使用一組我們在實驗室中研究的簡單規則提取的。
作為感知科學家,我們研究人們對世界做出的無意識假設,以及大腦如何利用這些想法來預測它將在世界中遇到的事物。為了做到這一點,我們與許多視覺科學家同事並肩工作,包括德國蒂賓根馬克斯·普朗克生物控制論研究所的海因裡希·H·比爾特霍夫、明尼蘇達大學的丹尼爾·J·柯斯頓、俄亥俄州立大學的詹姆斯·託德和哈佛大學的帕特里克·卡瓦納夫。我們共同致力於揭示在從陰影解釋形狀時能夠解決歧義的感知規則,並探索所涉及的認知加工階段。這些研究可以深入瞭解大腦在感知世界時使用的“規則”,其中許多規則反映了我們的進化歷史。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和思想的具有影響力的故事的未來。
在科學領域中,很少有哪個領域像感知科學這樣,你只需在筆記型電腦上塗鴉幾個小時,就能在一個擁有 150 多年曆史的領域中做出令人驚訝的新觀察。在大多數科學學科中,例如物理學或化學,目標是描述“客觀”的定律,因為這些定律有意排除觀察者的主觀性。感知研究的獨特之處在於,客體就是主體,這賦予了這項事業一種奇特的遞迴性質。因此,以下演示本身就是一個獨特的實驗,讀者可以參與其中。
應該注意的是,我們的非正式觀察需要進行仔細的測量才能跟進,並且還有許多問題有待解答。但我們希望說服讀者,視覺錯覺不僅僅是有趣的奇觀。它們允許我們測量視覺系統的“智商”。它的處理策略通常非常複雜,但同樣經常使用啟發式方法和捷徑。
陰影的基本規則
考慮一個簡單的圓形,其漸變表明一側被照亮,另一側在陰影中 (1)。這樣的插圖通常被視為從左側照亮的球體或球,儘管稍加努力,您也可以將其視為從右側照亮的凹陷。這個演示揭示了形狀陰影的第一個規則:在其他條件相同的情況下,凸面是更優選的。我們可能有這種偏好,因為我們在自然界中遇到的物體通常是凸面的。在沒有固體物體的金星上進化的生物不會表現出這種偏好。
現在檢查右側的插圖 (2),您會注意到一些奇怪的事情:當頂行被視為球體時,有強烈的趨勢將底行視為凹陷,反之亦然。這個觀察結果證明了單光源規則,即在解釋陰影影像時,大腦假設整個場景都被單個光源照亮。您永遠不會看到頂部和底部行既是凸面的又是從相反方向照明的。考慮到我們的星球只有一個太陽,這種特殊的偏見是有道理的。
接下來看 3a。請注意,頂部明亮的圓盤總是看起來像球體,而底部明亮的圓盤看起來像凹陷。這證明了第三個原則:大腦假設,除了只有一個光源外,光源必須從上方照射(同樣是因為太陽從上方而不是下方照射)。蘇格蘭物理學家大衛·布魯斯特爵士在 100 多年前觀看從不同方向照明的浮雕時就注意到了這種頂置照明偏差。我們的多個陰影圓盤大大放大了效果,並將錯覺剝離到其最基本要素。
感知不涉及忠實地將視網膜影像傳輸到大腦的視覺區域。這個過程更為複雜。影像中的不同屬性(稱為基本特徵)在視覺處理的早期被神經元提取,然後在啟用一系列最終達到您的最終感知行為的事件。此類特徵的示例包括邊緣(尤其是其方向)、運動和顏色,所有這些特徵都在早期提取——很可能在大腦皮層的第一個視覺處理區域 17 區。另一方面,面部表情等更復雜的特徵在過程的後期才被計算出來。
基本特徵的一個特點是,即使它們混合在一起,它們也會清晰地分成不同的組。陰影也遵循這種模式。例如,大多數觀看 3a 的人可以毫不費力地將球體分組,並將它們與凹陷分開。但對於 3b 來說,情況並非如此。這種比較表明,陰影——但不僅僅是光強度(稱為亮度)在圓盤上的變化——可能是早期在處理流中提取的基本特徵。事實上,1997 年,西安大略大學的一個研究團隊證實了我們的推測,即陰影是在視覺處理的早期提取的,他們使用功能性磁共振成像測量了六位觀察者的大腦活動。
但是,大腦如何將不同的深度線索組合在一起,以構建世界的整體三維表示?正如所討論的,有許多不同的深度資訊來源,因此有理由認為大腦最初獨立處理這些特徵中的每一個。是否有可能來自不同深度線索的訊號會匯聚到大腦更遠處的總深度圖上?
答案可以在 4 中看到。即使是粗略的檢查,也很明顯,在 4b 中,分離是強大的,但在 4a 中遠沒有那麼生動——換句話說,在 4b 中更容易感知不同的圓盤平面。在 4a 中,細水平線覆蓋了球體並在凹陷後面延伸,這感覺不對,因為我們期望凹陷的空腔在凸面球體的後面。這些插圖揭示的是,我們的大腦在組合線索以構建三維現即時會尋找一致性——否則我們就不會檢測到這種不和諧。
下一個問題是,視覺系統如何“知道”光線來自哪裡?為了解決這個難題,我們建立了垂直的“蠕蟲”,它們在這個插圖中總是顯得飽滿,而絕不是凹陷的 (5a)。然而,簡單的陰影圓盤更具歧義性(正如我們已經確定的,它們會根據我們對照明的假設而變成凸面或凹面)。當我們將這些圓盤分散在最右側插圖 (5b) 中的蠕蟲中時,它們傾向於被視為凸面,以符合蠕蟲暗示的來自左側的光源。(相反的情況發生在演示的左側部分。)因此,大腦正在使用明確的物件(我們的蠕蟲)來破譯光線來自何處,然後解釋影像中更模糊的細節。
形狀和陰影
我們的下一個展示 (6a 和 6b) 是對單光源約束的又一次演示。但這一次我們使用陰影而不是陰影。在 6a 中,最初被視為隨機黑色碎片的東西很快就凝結成三維字母表。另一方面,在 6b 中,相同的字母更難被感知為三維,因為它們是隨機地從左下方或右上方照明的。儘管可以認知地推斷出單個字母,但事實確實如此。如果以整體方式檢視字母簇,則差異尤其明顯。如果將紙張的任何邊緣傾斜超過 60 度,效果也會放大。
在前面的插圖中,三維字母具有所謂的附加陰影,其中陰影出現在物體上。我們現在轉向圖形設計師和藝術家憑直覺使用的東西:投射陰影,這些陰影不附加到其來源 (7a 和 7b)。我們的下一個問題是,我們的大腦用來使用陰影確定深度的系統有多智慧?
首先請注意,帶有半影的陰影(7a 中邊緣較柔和的陰影)比帶有銳利邊緣的陰影(例如 7b)更逼真。德國生理學家埃瓦爾德·赫林在 19 世紀就提出了這個觀察結果。在 7 中,您可以看到,即使在 7a 和 7b 中,陰影區域與正方形的距離相同,但帶有模糊邊緣陰影的正方形看起來比帶有銳利邊緣陰影的正方形更靠近觀察者。
下一個插圖顯示了正方形和陰影之間的距離很重要(比較 8a 和 8b)。陰影不僅可以表示深度的存在,還可以表示深度的幅度。然而,如果陰影完全與物體分離 (8c),情況就不再如此。即使這在現實世界中會發生,但它發生的頻率也不足以作為經驗法則納入視覺處理中。
當系統失效時
我們的感知真正有多複雜是有限制的。我們觀察到,陰影的形狀不會抑制我們將物體與其陰影聯絡起來的能力 (9)。該系統很智慧,但顯然還不夠智慧。更深入的研究可能會揭示陰影及其來源之間形狀不匹配的容忍度的限制。
我們感知侷限性的另一個例子來自考慮某些規則如何推翻其他規則。例如,除了具有單光源和上方光線的約束外,還有一個較弱的假設,即即使從下方照明,單個孤立的陰影圓盤也最有可能凸面(而不是從上方照明的凹陷)。當使用多個圓盤時,這種效果尤其明顯,大多數幼稚的受試者——作為預設設定——將它們視為一堆球體 (10a)。
然而,如果在它們之間插入一個從上方照明的單個球體 (10b),則由於單個球體提供的新資訊,其他圓盤會立即轉變為凹陷。這種變化是一個引人注目的例子,說明單個但強烈的線索如何否決多個模糊輸入的效果。
注意力在光源解釋中的重要作用可以在下一個插圖中看到。如果您注視 11 顯示器中間的“X”,並將注意力集中在右側的簇上,您會看到它是由球體(從下方照明)組成的。但如果您讓您的注意力擴充套件到包括左側的單個球體,則右側的圓盤會立即開始看起來像凹陷。我們可以得出結論,光源規則不適用於整個視野,而僅適用於注意力視窗所包含的部分。
透過使用其他線索傳達深度,我們可以發現測試我們感知智慧的新方法。儘管視覺影像的不同方面(例如顏色和陰影)最初是由視覺處理早期的單獨神經通道提取的,但它們最終被組合在一起,在視覺場景中形成連貫的物體或事件。我們已經開始進行實驗,以探索不同資訊來源如何相互作用。
在一項未發表的研究中,我們透過使用 12a 中顯示的兩個幀建立動畫來研究陰影和運動之間的相互作用。在一個電影序列的第 1 幀中,一個球體和一個凹陷並排同時呈現。接下來,在第 2 幀中,球體和凹陷出現在相反的位置。在我們的演示中,這兩個幀不斷迴圈。理論上,人們至少可以透過三種方式看到顯示器
1. 兩個平面、陰影圓盤反轉亮度極性(方向)。
2. 左側的靜止球體變成凹陷,而右側的凹陷變成球體。
3. 球體和凹陷交換位置。
超過三分之二的 15 名參與者實際看到的卻完全不同且出乎意料:一個球在左右跳躍——填充和清空背景中的兩個靜止凹陷!在不使用陰影漸變的控制設定中(12a,最右側面板),人們沒有看到任何此類運動。這個實驗表明,視覺系統即使在早期處理中,也部署了關於運動物體的驚人複雜的知識——即在現實世界中,凹陷不會移動,但球或球體會移動。
值得注意的是,如果僅為一個圓盤而不是另一個圓盤反轉照明 (12b),則顯示器的整個感知都會發生變化。這一次,左側的圓盤被看到向內和向外脈動,在球體和凹陷之間變形。為了遵守單光源規則,大腦願意接受變形的球體。
另一方面,如果沒有頂置照明,視覺系統會恢復到單光源規則,如 13 所示。這裡一半的圓盤是左右陰影,一半是從右向左陰影。
現在讓某人相對於重力垂直握住頁面(就像大多數人自然會做的那樣來閱讀頁面上的文字),同時您將頭側向傾斜 90 度,使其與地面平行。(如果您側躺,您可能會覺得更容易。)您會發現一半的圓盤(左側照明的圓盤)突然變成壯觀的球體,其餘的變成凹陷。因此,“上方光線”指的是相對於頭部而不是世界的“上方”!
儘管作為有意識的觀察者,您知道太陽仍然在頭頂,但您的視覺系統(處於自動駕駛狀態)卻不知道。它做了一個愚蠢的假設,即太陽仍然在上方——就好像它粘在您的頭上一樣——即使在您的頭部傾斜時也是如此,這可能是因為我們的祖先並沒有經常側著頭走路,以至於需要一種機制來使用前庭反饋來糾正這種傾斜。透過使用快速而骯髒的捷徑,完全避免了這樣做的計算負擔。您付出的代價是容易受到錯誤解釋的影響——當他們的頭意外傾斜時,您的祖先可能看到了凹面橙子。但只要人們能夠繼續存活足夠長的時間來生育後代,這種代價在進化方面就不是問題。
那麼大腦是如何透過使用這種捷徑來逃避的呢?進化的目標是充分性——而不是最優性——在人工智慧、機器人技術和計算機視覺領域工作的科學家應該效法自然的腳步。正如我們的同事弗朗西斯·克里克所說,“上帝是一位駭客。”
每當我們的大腦失誤並且我們錯誤地感知到某些東西時,我們都會體驗到一種錯覺。這些演示也具有審美成分,不僅因為它們在視覺上具有吸引力,而且還因為研究人員的科學推論直接基於觀察。(因此,我們的觀察結果與資料的距離並不遠,這在科學的其他領域中經常出現。)與自然如此密切地合作是一種美。
最後,這些錯覺對深度感知以外的視覺其他方面也有影響。例如,我們的研究深入瞭解了我們如何感知明度和亮度。考慮一下左側陰影圓盤的三重奏與 14 中三個頂部照明的球體相比。此演示深入瞭解了亮度梯度陡度的現象——即,從圓盤一側到另一側的感知亮度對比度。儘管這些形狀在物理上是相同的,但您可能會在左右陰影集中看到更大的對比度。我們感知到差異是因為——考慮到頂置照明規則——頂部照明的球體看起來更凸出,並且視覺系統將大部分光強度歸因於表面曲率。在左右陰影圓盤的情況下,大腦將亮度差異歸因於表面本身,這稱為反射率。
使用這些演示,人們可以扮演夏洛克·福爾摩斯來解開感知的奧秘。我們邀請讀者建立自己的影像,然後透過 vramacha@ucsd.edu 或 cchunharas@ucsd.edu 寫信給我們,講述他們的發現。

