人類的聲音是獨一無二的,但我們並不擅長識別它們

人們擅長辨認熟悉的人的聲音,但對陌生人聲音的耳證證詞卻出了名的不可靠和不準確

以下文章經The Conversation許可轉載,The Conversation是一個報道最新研究的線上出版物。

“Alexa,我是誰?” 亞馬遜Echo的聲控虛擬助手Alexa尚無法回答這個問題。然而,對於語音技術的其他應用,計算機演算法越來越能夠從錄音中區分、識別和辨認個人。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續刊登關於塑造我們當今世界的發現和想法的有影響力的報道。


當然,這些演算法遠非完美,正如最近一位BBC記者闖入了自己的聲控銀行賬戶時所展示的那樣 使用了他雙胞胎兄弟的聲音。這是否是計算機在人類可以完美完成的事情上失敗的案例?我們決定找出答案。

每個人都擁有 獨特且與眾不同的聲音。因此,我們似乎很直觀地認為我們可以很容易地透過聲音識別某人。但是,您實際上能做到多好呢?當涉及到識別您最親近的家人和朋友時,您可能相當擅長。但是,如果您今天再次聽到您的小學第一任老師的聲音,您能認出來嗎?今天早上在火車上對著手機大喊大叫的那個人呢?如果讓您從他的笑聲或歌聲樣本中而不是從他的說話聲中認出他,又會怎樣呢?

迄今為止,研究僅使用有限的一組發聲來探索聲音身份感知,例如朗讀的句子或對話片段。這些研究發現,我們實際上可以 很好地識別熟悉的人的聲音。但他們也表明存在問題:耳證證詞是出了名的 不可靠和不準確的

重要的是要記住,這些研究並沒有捕捉到我們可以用聲音發出的聲音的很多靈活性。這勢必會對我們處理我們正在聽的聲音背後的人的身份產生影響。因此,我們目前遺漏了拼圖中非常重要且很大的一塊。

識別聲音需要兩個廣泛的過程協同運作:我們需要區分不同人的聲音(區分人),並且我們需要能夠將單一身份歸因於可能來自同一人的所有不同聲音(說話、笑、喊叫)(“將人聯絡在一起”)。我們著手調查人類在這方面的能力的極限。

聲音實驗

我們最近的研究, 發表在《實驗心理學雜誌:總論》上,證實了聲音身份感知可能極具挑戰性。利用一個人聲音的可變性,我們向46名聽眾展示了五個人發出的笑聲和母音。聽眾被要求對聲音對做出非常簡單的判斷:它們是由同一個人發出的,還是由兩個人發出的?只要他們可以將母音與母音或笑聲與笑聲進行比較,區分說話者就相對成功。

但是,當我們要求聽眾根據混合的聲音對(例如,直接比較一對中的母音和笑聲)做出此判斷時,他們根本無法區分說話者——特別是當他們不熟悉說話者時。然而,即使一部分認識說話者的人總體表現更好,他們仍然在“將人聯絡在一起”的挑戰中掙扎。

類似的效果已在研究報告中被報道,例如,研究表明, 跨兩種語言識別雙語說話者 很困難。這些發現令人驚訝的是,一旦聽眾接觸到聲音可能產生的自然變化,聲音感知會變得多麼糟糕。因此,有趣的是,雖然我們每個人都擁有獨特的聲音,但我們尚不知道這種獨特性有多大用處。

但是,如果我們甚至無法識別它們,為什麼我們會進化出獨特的聲音呢?到目前為止,這確實是一個懸而未決的問題。我們實際上並不知道我們是否進化出了獨特的聲音——我們也都擁有不同且在很大程度上獨一無二的指紋,但就我們所知,這並沒有任何進化優勢。只是恰好基於解剖結構上的差異,可能最重要的是我們使用聲音的方式,我們彼此聽起來都不同。

幸運的是,計算機演算法仍然能夠充分利用人類聲音的個性。在某些情況下,它們可能已經超越了人類——並且它們將不斷改進。這些機器學習演算法識別說話者的方式基於數學解決方案,以建立“聲紋”——獨特的表示形式,用於拾取每個人聲音的特定聲學特徵。

與計算機相比,人類可能不知道他們在傾聽什麼,或者 如何分離出這些聲學特徵。因此,為演算法建立聲紋的方式並非嚴格模仿人類聽眾似乎在做的事情——我們仍在努力解決這個問題。從長遠來看,觀察人類聽眾和機器學習演算法識別聲音的方式是否存在任何重疊將是一件有趣的事情。雖然人類聽眾不太可能從計算機解決此問題的方式中獲得任何見解,但反過來,我們也許能夠構建模仿人類有效表現的機器。

有傳言稱,亞馬遜目前正在研究如何教會Alexa 透過聲音識別特定使用者。如果這奏效,那將是一項真正令人印象深刻的壯舉,並且可能會阻止 進一步訂購不想要的娃娃屋。但是,如果Alexa犯了錯誤,請耐心等待——您自己可能也做不好。

本文最初發表於 The Conversation。閱讀原文

© .