無需贅言:人們透過視覺化“骨架”來識別物體

這項基本能力使人類優於計算機

人類的學習方式與計算機相同嗎?認知心理學家已經爭論這個問題幾十年了,但在過去的幾年裡,深度學習計算機系統取得了顯著成就,這尤其激起了研究物體識別的研究人員的熱情。

無論樹木或狗的大小、顏色或觀看角度如何,人類都能毫不費力地知道樹是樹,狗是狗。事實上,識別這些視覺元素是兒童最早學習的任務之一。但研究人員一直在努力確定大腦如何進行這種簡單的評估。隨著深度學習系統開始掌握這種能力,科學家們開始詢問計算機分析資料(尤其是影像)的方式是否與人腦相似。“人類的思想,人類的視覺系統,理解形狀的方式是一個困擾人們許多代人的謎團,部分原因是它如此直觀,但又非常難以程式設計,”羅格斯大學心理學教授雅各布·費爾德曼說。

6 月份發表在 Scientific Reports 上的一篇論文比較了各種物體識別模型,得出的結論是,人們不是像計算機處理畫素那樣評估物體,而是基於想象的內部骨架。在這項研究中,埃默裡大學的研究人員在心理學副教授斯特拉·洛倫佐的帶領下,想知道人們是否根據物體的骨架(物體形狀表面下貫穿中心的無形軸)來判斷物體的相似性。科學家們生成了 150 個獨特的 3D 形狀,這些形狀圍繞 30 個不同的骨架構建,並要求參與者確定兩個物體是否相同。果然,骨架越相似,參與者就越有可能將物體標記為相同。研究人員還比較了其他模型(如神經網路(基於人工智慧的系統)和基於畫素的物體評估)在預測人們決策方面的表現。雖然其他模型在任務上的表現也相當不錯,但骨架模型始終勝出。


支援科學新聞報道

如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。透過購買訂閱,您正在幫助確保有關塑造當今世界的發現和想法的具有影響力的故事的未來。


“對於解決這些物體識別問題,人們非常重視深度神經網路。這些網路需要大量的訓練才能學習單個物體類別,而我們研究的模型,即骨架模型,似乎無需這種經驗就能做到這一點,”洛倫佐實驗室的博士生弗拉迪斯拉夫·艾森伯格說。“我們的研究結果表明,即使將骨架模型與這些其他成熟的物體識別神經網路模型進行比較,人類也可能透過其內部骨架來識別物體。”

接下來,研究人員將骨架模型與其他形狀識別模型(例如側重於輪廓的模型)進行了對比。為此,艾森伯格和洛倫佐以某些方式操縱物體,例如移動手臂相對於身體其餘部分的位置,或改變輪廓的粗細、凸起或波浪形程度。人們再次根據物體的骨架而不是其表面質量來判斷物體是否相似。

“這是一流的工作,我對結果印象非常深刻,”未參與這項研究的費爾德曼說。“他們確實給出了經驗證據——我會說它比我以前見過的任何東西都更有說服力地證明,人類大腦透過形狀骨架的相似性來計算形狀相似性。”

這項研究的一個擔憂是,作者專門從骨架生成物體,而不是從形狀(無論是天然的還是人造的)中推匯出物體,這些形狀被皮膚、金屬或其他人們在日常生活中遇到的材料覆蓋。“他們生成的形狀與他們正在測試的假設和他們正在得出的結論直接相關,”多倫多約克大學人類和計算機視覺教授詹姆斯·埃爾德說。“如果我們對骨架對形狀和物體感知的重要性感興趣,我們就不能僅僅透過觀察骨架生成的形狀的感知來回答這個問題。因為顯然在骨架生成的形狀的世界中,骨架可能相當重要,因為形狀就是這樣製作出來的。”

埃爾德認為,雖然該模型可能解釋了人們對具有清晰定義的骨架的形狀(如動物或樹木)的解釋,但它不適用於所有型別的形狀,如岩石或揉成一團的報紙。艾森伯格說,他們正在後續研究中使用 傳統形狀 和自然物體來解決這個問題。

研究人員現在想知道骨架模型是否可以融入深度學習系統,這樣科學家們就可以幫助計算機像人類一樣學習,而不是探索人類是否像計算機一樣學習。

“我們樂觀地認為,它也將有助於和啟發試圖模擬人類感知的神經網路,”洛倫佐說。“它們以令人震驚的方式崩潰,而人類不會,因此,瞭解人類如何識別物體對於它們來說也非常重要。”

Dana Smith 是一位自由科學作家,專門研究大腦和身體。她曾為大眾科學、《大西洋月刊》、《衛報》、NPR、《發現》和《快公司》等媒體撰稿。在之前的生活中,她獲得了劍橋大學實驗心理學博士學位。

更多作者:Dana G. Smith
SA Mind Vol 30 Issue 6本文最初以“無需贅言:人們透過視覺化“骨架”來識別物體”為標題發表於SA Mind 第 30 卷第 6 期(),第 17 頁
doi:10.1038/scientificamericanmind1119-17
© .