設計像眼睛一樣工作的相機

為了改進攝影技術,工程師們正在設計更像眼睛的相機

在澳大利亞北部亞熱帶雨林的一片空地上,你可以觀看光線穿過沙沙作響的樹冠時舞動。下面,灌木的葉子在樹幹上形成了錯綜複雜的陰影圖案。一隻小沙袋鼠在空地上吃草。你舉起智慧手機,對準這隻寧靜的有袋動物。就在你點選按鈕拍照時,小沙袋鼠注意到了你,跳開了。在你螢幕上的影像中,快照的一半太暗而無法辨認細節,而樹梢之間的天空看起來像被漂白了一樣白。跳躍的小沙袋鼠是照片中心附近一個模糊的小點。放大動物後,會看到幾乎是立體主義風格的畫素場,它的輪廓明顯地分解成相機感測器最小的方格。

對於我們這些拍照的人來說,無論是輕觸螢幕還是舉起專業級裝置,上述經歷——如果不是小沙袋鼠的話——都會很熟悉。智慧手機的普及幾乎使我們所有人都變成了業餘攝影愛好者。根據皮尤研究中心的一項調查,超過一半的美國網際網路使用者在網上釋出原創照片。流行的分享服務Instagram報告稱,每天約有5500萬張照片被髮布到其網路上——也就是每分鐘38000張。然而,數百萬張影像中沒有一張能夠接近捕捉到我們用眼睛體驗到的生動、豐富的世界。

當你使用眼睛時,曝光、畫素化或運動模糊等問題永遠不會發生。那麼,將你的智慧手機相機變成你眼睛的等效物的應用程式在哪裡呢?工程師們現在正在研究這個問題。透過設計模仿進化在人腦中解決影像建立問題的方式的相機,他們希望提高我們個人照片的質量。但這不僅僅是這樣。有了更好的相機,我們將擁有能夠獨立、智慧地導航世界的機器人,以及能夠像人一樣識別出一個人是否遇到麻煩並迅速派遣幫助的安全攝像頭。當我們越來越多地透過計算機的眼睛來看事物時,我們的計算機也將學會像人類一樣看事物。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。


為了理解這項技術創新是如何產生的,我們必須首先理解眼睛是如何完成其無與倫比的工作的——以及相機在哪裡顯得不足。

曝光的本質

相機的一個明顯的弱點是它們無法在單次拍攝中處理高光和低光條件。在極少數情況下,我們的眼睛也會遇到這個問題。例如,當從黑暗的地下室走到陽光下時,我們會說“被光線刺瞎了眼睛”。這種短暫的時刻,我們的眼睛很快就能從中恢復過來,是我們眼睛可以說遭受過度曝光的少數情況之一。歷史上,英語甚至沒有“過度曝光”這個詞,因為我們的視力在避免這個問題方面一直無與倫比。正是相機的發明才使不適當照明的影像的概念出現。

原因是動態範圍。它是我們的眼睛或相機可以記錄的最低和最高光強度之間的差異。光以微小的包裹形式出現,稱為光子,它們以——你猜對了——光速在宇宙中穿梭。但它們以不同的能量水平這樣做。高能量光子被感知為藍色,而能量低得多的光子看起來是紅色。當光子與物質碰撞時,它們可能會被重新定向或吸收。例如,水分子選擇性地吸收低能量光子,這就是水看起來是藍色的原因。堅實的深色牆壁幾乎吸收所有照射到它的光子,並將它們的能量轉化為微小的熱量,這就解釋了為什麼牆壁有時摸起來會感到溫暖。更奇異的材料吸收光子,並且不是發出熱量,而是將能量放大成對相機和大腦有用的訊號。

在數碼相機中,吸收光子的物體稱為光電二極體。一個光電二極體相當於一個畫素,因此相機擁有的光電二極體越多,照片的質量就越高。這種裝置通常由矽製成,它只是一個光探測器。當光子擊中它時,粒子會將矽中的一個電子擊打到更高的能量水平。產生的電荷激發電子,導致電流流動。半導體晶片放大來自每個光電二極體的電訊號。

佳能 5D II——一款頂級單反相機——可以區分的最亮光線比它可以感應到的最弱光線強 2000 倍。如果場景的亮度超過此範圍,則會出現過度曝光和曝光不足的影像區域,並隨之而來的是攝影上的恥辱。但是,如果你用眼睛看同樣的光子,它會擊中你的視網膜。更準確地說,它會進入你視網膜中的一個細胞,稱為感光細胞,並激發一個電子。所討論的粒子位於視網膜分子(一種維生素 A)內部,該分子是感光細胞中蛋白質的一部分。

受到激發電子的刺激,視網膜分子開始扭曲,這反過來又觸發包圍它的蛋白質改變其構型。這種形狀的改變啟動了一系列下游效應,涉及其他蛋白質變形、細胞膜中的通道猛然關閉以及氨基酸穀氨酸流量減慢。所有這些黏糊糊的生物機械都極大地放大了光子的無限小能量,產生了足夠強大的訊號來驅動神經元。

事實上,視網膜的放大能力非常強大,以至於在完全黑暗的房間裡,光源只需發射大約五個光子,你就能感知到它。為了達到這種靈敏度水平,我們的眼睛進化出一種特殊的超靈敏感光細胞,專門用於黑暗、類似夜晚的條件。這些所謂的視杆細胞,雖然僅在黑暗中使用,但數量是我們在白天使用的錐形感光細胞的 20 倍。夜間視覺顯然在我們的進化史上非常重要,因為包括所有這些視杆細胞並沒有為我們的錐形白天感受器留下太多空間。

這兩種感光細胞共同使我們能夠記錄巨大的光照水平範圍。然而,即使沒有夜間感受器,我們的眼睛也能在令人難以置信的範圍內工作。如果你在燈光明亮的辦公室工作到很晚,你可能會望著窗外,看著夕陽西下,樹木變成黑色的剪影而感到惆悵。然而,你仍然可以同時看到外面的物體和你燈光明亮的辦公室裡的東西。你的眼睛敏感的光照水平範圍如此之廣,以至於它可以區分兩個物體,其中一個物體比另一個物體亮一百萬倍。

優勢在於每個感光細胞都有自己的曝光設定,該設定會不斷變化以響應接收到的光照水平。為了模仿眼睛的範圍,一些相機現在可以組合快速連續拍攝的多次曝光。過度曝光的照片提供了場景黑暗部分的適當照明檢視,而曝光不足的照片則捕捉了明亮的部分,例如天空。這些太亮和太暗的照片融合在一起,產生了一個範圍大於任何單張照片可能範圍的影像。當拍攝快速移動的物體時,這種技巧會失敗,因為它們在不同的曝光之間會改變位置,但它對於風景攝影效果很好。即使您的相機沒有內建高動態範圍功能,您也可以在筆記型電腦上事後融合多張影像,以獲得沒有過度曝光和曝光不足區域的合成影像。

捕捉瞬間

讓我們回到跳躍的小沙袋鼠,以及它為什麼變得模糊。問題之一是相機的快門速度只有那麼快(比如,五十分之一秒),因此照片會捕捉到整個時間跨度內的光線,在此期間,小沙袋鼠的身體移動了幾釐米。我們的視覺系統也不快,因此我們的感光細胞建立的影像也會模糊。然而,不知何故,我們並沒有感覺到太多模糊。

光線到達視網膜後,幾種專門型別的神經元(連線相鄰的感光細胞)會在將光訊號傳送到大腦之前對其進行修改。其中一些神經元對特定方向的運動做出反應,另一些神經元對黑暗包圍的明亮訊號做出反應,等等。它們共同使眼睛能夠調整其靈敏度。

最終,你的視覺系統對變化最感興趣。眼睛不斷移動,改變照射到你的感光細胞上的光量,並保持你對世界的影像。如果你的眼睛保持靜止,場景中缺乏變化會導致視網膜停止發出訊號,物體將開始消失。瑞士醫生伊格納茨·特羅克斯勒在 1804 年首次注意到這種現象。對變化的偏好有助於強調新資料而不是舊資料。這是一種克服光學裝置缺陷的巧妙技巧。例如,這種變化偏好是我們永遠看不到眼睛中的血管的原因,血管位於外部世界和我們的感光細胞之間。

雖然這種技巧尚未融入消費級相機,但蘇黎世神經資訊學研究所的託比·德爾布呂克開發的一種實驗性相機展示了一種極端形式的變化偏好。這款相機的晶片不僅僅像標準相機那樣簡單地記錄照射到每個畫素上的光量,而是依賴於光強度的變化。這款相機建立的影像本質上是在拍攝照片時發生的運動和變化的記錄。強度增加的畫素顯示為白色,而強度減小的畫素顯示為黑色畫素。如果畫素從始至終沒有變化,則影像僅顯示平淡的灰色畫素。這種對變化的強調忽略了靜止、不變的物體,以幫助隔離移動的物體。

西悉尼大學的研究生格雷格·科恩(斯蒂費爾的同事)正在使用這款受視網膜啟發的相機晶片來建立一個可以打乒乓球的機器人,乒乓球是一項完全關於變化和運動的遊戲。在乒乓球中,對手、他的球拍,尤其是球都以驚人的速度移動。乒乓球場景中的並非所有資訊都有助於將球擊回球桌對面,例如對手身後的窗戶或地板上的圖案。受視網膜啟發的相機忽略靜態物體的功能有助於完成這項任務,使機器人能夠專注於檢測和響應運動。打乒乓球需要如此出色的手眼協調能力,以至於在這項任務中取得成功可能會為各種應用帶來有用的解決方案,例如照顧老人或搜救行動。

拯救面孔

雖然視網膜負責視覺的第一步,但在大腦中會發生更多的處理。例如,當我們的大腦可以輕鬆地將主要物件與其背景分離時,我們會快速欣賞照片。熟練的攝影師知道如何讓大腦輕鬆完成這項任務,例如,透過將一個人的臉部對焦,同時限制景深,使背景模糊。面孔對我們來說是一類特殊的物體。在繁忙的視覺場景中,人類的目光會優先尋找它們。照片中如果面孔模糊,幾乎總是被認為是毀壞的照片。

幾個大腦區域有助於我們處理面孔的能力。當視覺訊號離開視網膜時,它會傳播到大腦的一個稱為丘腦的部分。丘腦是通往皮層(構成大腦表面的緊密摺疊的外層)的複雜中繼站。許多皮層區域幫助我們處理我們所看到的東西。初級視覺皮層是大腦後部的一大塊區域,大多數離開丘腦的訊號最終都會到達那裡。從那裡,有關我們視覺世界的資訊會傳播到皮層的幾個額外的視覺區域。在這些區域中,顳葉皮層(位於大腦側面)的各個小區域對看到面孔的反應非常具體。

相機制造商已開始實施類似於我們大腦識別和優先處理面孔的能力。當今的許多相機,即使是簡單的傻瓜相機,也能識別其視野中的面孔。這通常是透過一種稱為 Viola-Jones 演算法的先進統計方法完成的。簡而言之,相機的晶片會過濾影像以查詢基本特徵,例如邊緣和角。然後,它逐區域執行一系列測試以查詢面部特徵。例如,它會檢視兩個較暗的點(眼睛)之間是否出現一個亮點(鼻子)。只有當影像的一部分透過所有這些測試時,該演算法才會判定它看到了面孔。現在,相機可以確保將該面容保持對焦。

最有可能的是,大腦處理面孔的方法與 Viola-Jones 演算法大相徑庭。因此,現代相機中的面部識別演算法不是大腦識別面孔方式的軟體實現,而是解決同一問題的不同解決方案。透過將影像處理方面的此類進步與有關人類視覺偏好的知識相結合,我們可以極大地改進我們製作的照片。

心中的百萬畫素

皮層中對面孔選擇性的區域只是大腦用於視覺的區域的一小部分。它的其他部分對視覺場景的不同方面做出反應,例如顏色、運動和方向。這種喧囂的活動最終在我們周圍感知的視覺世界中達到高潮。

這些大腦區域的協調努力是你在現實生活中永遠不會看到任何粗糙顆粒的原因,就像你在放大照片時看到的那樣。增加相機中的百萬畫素 (MP) 數量並不能解決這個問題。斯蒂費爾自豪地擁有的第一臺數碼相機配備了 2MP 感測器,但如今即使是大多數智慧手機也至少是這個數字的兩倍。我們可以繼續塞入更多畫素——製造技術的進步很可能會進一步縮小硬體尺寸——但放大看似平滑的影像最終會將其變成一堆方塊狀顏色的情況仍然存在。

當兩個相鄰的光子擊中同一個光電二極體時,就會出現這種限制,這意味著它們的能量將合併為一個畫素。在那時,有關它們確切原始位置的資訊將永遠丟失。不幸的是,沒有影像處理軟體可以建立更有意義的畫素。你可以放大數碼照片的尺寸,但新建立的畫素不會包含任何關於你按下快門時進入相機的光線的新資訊。此外,縮放並不像你想象的那麼大。16MP 相機的畫素僅是 4MP 相機的兩倍小。相比之下,人類視網膜僅包含約 600 萬個功能正常的白天感光細胞(視錐細胞)——僅 6MP。

本質上,我們的大腦構建了一個它進化為視為現實的感知——而人類大腦不認為人類視網膜的顆粒感是外部現實的特徵。我們感知到的東西是一種構建,一幅傑作,它涉及到我們各個感測器之間的大量填充。我們的感知中沒有畫素這樣的東西——我們的大腦不會像生物超級相機那樣逐片地複製光的影像。相反,大腦為特定目的合成連貫的印象——即讓我們在世界中找到自己的路。眼睛的原理和相機的原理從根本上不同。除非在遙遠的未來,我們開發出真正智慧的機器並將其中一臺放入相機機身中,否則這種差異將無法彌合。

儘管如此,工程師可用的可能性仍在不斷增加,同時對眼睛和大腦的瞭解也在不斷加深。將這些與一點創造性思維相結合,應該會在相機技術方面產生更多令人興奮的進步。

延伸閱讀

  • 視覺的第一步。 羅伯特·W·羅迪克。 Sinauer Associates,1998 年。

  • 好奇攝影師的科學:攝影科學導論。 小查爾斯·S·約翰遜。 A. K. Peters/CRC Press,2010 年。

  • 基本視覺:視覺感知導論。 修訂版。 羅伯特·斯諾登、彼得·湯普森和湯姆·特羅斯基安科。 牛津大學出版社,2012 年。

來自我們的檔案

克勞斯·M·斯蒂費爾是一位水下攝影師,也是西悉尼大學的研究員,他在那裡研究腦細胞及其網路。他還是《性、毒品和水肺潛水》的作者,這是一本關於海洋生物學、水下攝影和潛水的科普書籍。

更多作者:克勞斯·M·斯蒂費爾

亞歷克斯·O·霍爾科姆是悉尼大學心理學副教授,研究感知。

更多作者:亞歷克斯·O·霍爾科姆
SA Mind Vol 25 Issue 3這篇文章最初以“眼睛、相機、行動!”為標題發表在SA Mind 第 25 卷第 3 期(),第 52 頁
doi:10.1038/scientificamericanmind0514-52
© .