本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點
詹姆斯·迪卡洛是麻省理工學院腦與認知科學系神經科學教授,研究靈長類動物的視覺物體識別。我曾有機會在五月下旬在第79屆冷泉港實驗室定量生物學研討會上採訪他,該研討會重點介紹了關於認知的研究成果。在採訪中,迪卡洛談到了他的研究,也回答了一些基本問題,例如什麼是物體識別。以下是經過編輯的採訪文字記錄——或者您可以觀看完整影片。
大眾科學:吉姆,你能給我們一個物體識別的定義嗎?
詹姆斯·迪卡洛: 我們都有對物體識別的直觀感受。 它是將你的臉與其他人臉區分開來的能力,將汽車與其他汽車區分開來的能力,將狗與駱駝區分開來的能力,我們都直觀地感受到這種能力。 但是,在理解我們的大腦如何能夠完成這項任務方面取得進展是一個非常具有挑戰性的問題,部分原因是定義它是什麼和不是什麼具有挑戰性。 我們認為這個問題是理所當然的,因為它對我們來說似乎毫不費力。 然而,計算機視覺人員會告訴你,這是一個極其具有挑戰性的問題,因為每個物體都會向你的視網膜呈現基本上無限數量的影像,因此你基本上永遠不會看到每個物體的相同影像兩次。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您正在幫助確保有關發現和塑造我們當今世界的想法的有影響力的故事的未來。
大眾科學: 看起來物體識別實際上是神經科學和機器學習計算科學中的一個大問題?
迪卡洛: 是的,不僅是機器學習,還有心理學或認知科學,因為我們看到的物體是世界上我們用來構建更高認知的來源,例如記憶和決策。 我應該伸手去拿這個嗎,我應該避開它嗎? 如果沒有這些我們經常認為是理所當然的基礎要素,我們的大腦就無法完成你所說的更高認知。
大眾科學: 也許你可以談談在這個過程中大腦中實際發生了什麼。
迪卡洛: 幾十年來人們都知道,大腦的一部分,即頭部兩側的顳葉,在人類和非人類靈長類動物中,當丟失或受損時,會導致識別缺陷。 因此,我們有線索表明,這些物體識別演算法就存在於那裡。 但僅僅說你大腦的某個部分解決了這個問題還不夠具體。 它仍然是非常大的一塊組織。 解剖學告訴我們,那裡存在著一個完整的區域網路,現在神經生理學的工具以及更先進的工具使我們能夠深入研究神經活動,尤其是在非人類靈長類動物中。 然後,我們可以開始破譯實際的計算,達到工程師可能達到的水平,例如,為了模仿我們頭腦中發生的事情。
大眾科學: 也許你可以更詳細地說明你實際上是如何嘗試找到這些網路的組成部分的。
迪卡洛: 嗯,我想首先說,任何科學的基礎實際上都是擁有對某種現象的預測模型的能力。 因此,對於物體識別領域,如果你想從工程角度模仿它,你首先需要定義你想要預測什麼。 我們稱之為核心物體識別的目標是你在觀看影像僅 200 毫秒時所擁有的能力,這大約是你的眼睛在探索場景時停留在一個物體上的時間。 但是我們人類可以在這短短的時間視窗內做很多事情。 在這短短的 200 毫秒(五分之一秒)的瞥見中,我們可以輕鬆地識別一個或多個物體。 你可以看到這不是視覺的全部,但這是一個已定義的行為領域,現在我們可以開始在這個問題上取得一些進展。
大眾科學: 好的,所以你有一個預測模型,然後你想測試該模型……
迪卡洛: 嗯,所以我為你描述的是一個要理解的任務領域,我們稱之為核心識別,我們知道,當然,影像會進入並透過眼睛處理,然後在大腦中的一系列視覺區域中移動以進行進一步處理,其方式有時很模糊,但我們可以記錄那裡的神經活動。 在我們之前其他人已經做過,現在我們正在更大規模地做。 我們可以記錄神經活動,我們對大腦中一個叫做顳下皮層的地方特別感興趣,它位於我們之前談到的這個處理鏈的最高層。 我們發現那裡的神經活動模式與一個非常簡單的模型非常吻合,該模型可以非常準確地預測動物的感知以及我們自己的感知,即我們在核心領域進行識別的能力。
大眾科學: 你可以預測,比如說,我正在觀察背景中的一棵樹,透過觀察神經活動?
迪卡洛: 這正是我所說的意思。 現在我們能夠做到這一點的粒度仍然是積極研究的一部分,但我們當然可以進行“樹木檢測”。 透過觀察神經活動。 我們可以預測受試者是否會報告說它看到了一棵樹而不是一隻狗,或者如果它報告說是一棵樹而不是一輛汽車,以及它是否正在看一棵樹而不是另一棵樹。 我們現在正在嘗試看看我們是否可以在逐個瞬間的基礎上做到這一點,以及我們是否可以準確地預測受試者報告中的錯誤模式——這意味著受試者在看到貓時報告說是一隻狗。
大眾科學: 物體識別的問題是,如果我正在看那棵樹,然後我稍微向左或向右移動,樹會發生變化,或者我開始看到另一棵樹。 這個模型是否仍然能夠識別出那是一棵樹,或者它是同一棵樹?
迪卡洛: 我應該說得更清楚些。 這是模型必須處理的最大問題,當我說模型處理這個問題時,我的意思是已經記錄了神經元直到顳下皮層的啟用。 因此,一旦我們構建了一個讀取顳下皮層活動的解碼器,樹的影像將被正確解碼為樹。 這是一個全新的影像,但該模型仍然可以預測你將看到什麼,並且該模型將非常準確。
大眾科學: 這對機器學習以及有一天甚至對理解神經迴路中斷的人們的問題有什麼影響?
迪卡洛: 從機器學習的角度來看,這些神經活動是機器學習人員所說的特徵。 因此,這些是在影像上計算出的特徵,它們是一組非常強大的特徵。 許多人希望做的是能夠擁有產生這些特徵的演算法。 因此,機器學習的大部分致力於尋找好的特徵,而大腦的進化已經找到了一些好的特徵,這基本上就是我們所報告的內容:這裡有一些很好的特徵。 這是它們的位置,這是我們關於它的證據。 因此,現在我們正在與機器學習科學家一起工作,以幫助構建所謂的編碼演算法來產生這些特徵,並且在過去幾年中,該領域在本質上是由大腦啟發的模型驅動下取得了許多令人興奮的進展,這些模型實際上現在是一些最先進的計算機視覺演算法。
大眾科學: 您正在做的宏偉願景是從編碼到神經啟用,再到大腦中的解碼和感知,對這一切進行建模。
迪卡洛: 這正是宏偉願景。 如果我們能夠做到這一切,我們就可以說我們對這個行為領域有了完整的端到端理解。
大眾科學: 你認為這一切什麼時候會發生?
迪卡洛: 這取決於細節的程度,但我想說,肯定在未來十年內,我們將對核心基礎水平的物體識別有非常好的理解,以至於許多工程師會感到滿意。 我們不會知道它細緻到突觸水平,但我們會知道它,以至於這些演算法可以非常準確地預測系統中各個級別的神經活動。
大眾科學: 您認為這可以為有時會出錯的電路提供一些見解嗎?
迪卡洛: 會影響識別的最常見的缺陷是透過中風或病變對顳下區域的重大損害,當然,很明顯哪裡出了問題:你已經去除了這些神經元。 現在也許這會帶來可以繞過或替換它的方法。
顳葉還有其他缺陷,人們在區分面孔或極少數情況下在其他型別的物體之間存在缺陷。 它們不是很常見,但這類工作也應該與這些缺陷有關。 我們希望它也與孩子們如何學習閱讀有關。 歸根結底,無論你何時執行視覺任務,你都在依賴視覺系統中的這些型別的表徵,因此我認為它將幫助我們理解更高層次的問題,例如,社會認知或像閱讀障礙之類的事情。
大眾科學: 儘管人們在電影中看到的那樣,但現實世界中的機器人仍然在它們能做的事情上非常有限,其中一個大問題是它們識別和處理它們感知到的資訊的能力。 您認為您的模型可以對此有所幫助嗎?
迪卡洛: 計算機視覺界現在已經在使用類似大腦的演算法,下一個前沿是擴充套件任務領域,不僅是你 200 毫秒內所做的事情,還有當你用多次眼動探索場景或導航場景時你可能會做的事情。 為此,你必須隨著時間的推移積累資訊。 系統中會有更多的反饋。 我不會說我們可以完成這項工作,然後我們將擁有像你在《星際迷航》中看到的那樣無所不能的機器人,但它將成為使我們能夠邁出下一步的基礎。
大眾科學: 過去幾年在視網膜假體方面已經開展了一些工作,正在追求的一種方法是將神經編碼植入到其中一些假體中,以便它們可以像視網膜一樣處理傳入的光子。 您正在進行的這類工作是否有可能在某些方面與此相吻合?
迪卡洛: 這實際上是我們現在最興奮的事情之一。 有針對視網膜受損者的視覺假體,並且有各種方法。 但主要的方法是嘗試繞過視網膜,並將空間活動模式重新注入,例如,在早期視覺區域或視網膜之後立即出現的皮層下區域之一,稱為外側膝狀體核。 從工程的角度來看,這很有意義。 考慮到我們對你可能嘗試如何做到這一點的瞭解,這很有意義。
缺點是嘗試在非常高維的空間中獲得影像,其中有許多畫素,這些畫素將類似於正常視覺。 但是我們正在最高級別上工作,在這個級別上,你的大腦已經將維度從數百萬畫素降低到更抽象的東西,大約是 100 個維度。 我們或許能夠模擬非常豐富的視覺全景。 這可能是一種更好的思考腦機介面的方式,因為我們理解它們,你可能只有 100 種方式來注入訊號,100 個通道而不是數百萬個通道來建立一個豐富的感知空間。
大眾科學: 總結一下,您的工作正在做的是採取我們所有人都可以關聯到的非常基本的東西,然後對這個真正巨大的挑戰達成基本的物理和理論理解。
迪卡洛: 是的,我認為這說得非常好,這確實是神經科學自形成以來的目標——我們相信大腦是一組機制,可以產生我們每個人都可以關聯的驚人的精神狀態和行為。 物體識別只是這種精神現象學的一個核心例子,但卻是我們許多人都可以關聯到的一個例子。 因此,如果我們對這種行為及其潛在的神經機制達成端到端理解,那將是一個基礎性的成功。 如果你想的話,它將是構建認知理解的基礎中的一塊大磚。
加里·斯蒂克斯: 祝你好運。
迪卡洛: 謝謝。
圖片來源:麻省理工學院