聽音辨位

一種能夠同時理解三位說話者的機器聽覺系統

聖德太子是一位七世紀的政治家，被認為是日本第一部憲法的作者。他以國家建設者的身份聞名，據說他能夠同時傾聽多人的聲音，一次聽取多達 10 位請願者的請求，然後做出判斷或建議。

受這位傳奇王子的啟發，日本研究人員花費五年時間開發了一種人形機器人系統，該系統可以理解並響應同時說話的人。他們假設了一個餐廳場景，機器人是服務員。當三個人站在機器人面前同時點豬排套餐或法式晚餐時，機器人可以理解約 70% 的內容，並透過重複每個訂單並給出總價來做出回應。這個過程不到兩秒鐘，而且至關重要的是，不需要事先進行語音訓練。

這種聽覺能力標誌著人工智慧領域的一個根本挑戰——如何教機器在喧囂中挑選出重要的聲音。這被稱為雞尾酒會效應，大多數機器的表現並不比喝了幾杯馬提尼酒的人類好。“機器人很難在嘈雜的環境中識別說話者，”京都大學的岡野博司 G.（Hiroshi G. Okuno）說，他是該團隊的負責人，也是該領域的先驅。混響、無關的聲音和其他訊號中斷也帶來了困難。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。

事實上，與機器進行輕鬆自然語言交流的時代，至少從艾倫·圖靈時代起就一直被人們夢想著，對於日常使用者來說似乎還很遙遠。一個幽默的例子：微軟去年現場演示了 Windows Vista 語音識別功能，該功能錯誤地識別了問候語“親愛的媽媽”，以及試圖糾正錯誤的口頭嘗試，產生了“親愛的阿姨，讓我們設定雙倍殺手刪除全部”。

相比之下，岡野的系統非常準確，並且不需要說話者佩戴耳機（與商業語音識別程式不同），因為麥克風嵌入在機器人中。他的所謂機器聽覺程式執行所謂的計算聽覺場景分析，該分析結合了數字訊號處理和統計方法。它首先定位音訊源，然後使用計算濾波器分離聲音。下一步是關鍵：自動缺失特徵掩碼生成。這種強大的技術會掩蓋系統認為不可靠的聽覺資料，例如串音，因為它試圖專注於特定的說話者。然後，系統將處理後的資訊與日語中 5000 萬個話語的內部資料庫進行比較，以找出說了哪些詞。當回放每個說話者的過濾版本時，只能聽到來自其他說話者的一些聲音。

結果是一個強大的機器人聽眾，它比其他系統更接近人腦的聽覺能力。岡野說，根據說話者的相對角度和使用的麥克風數量（目前為八個），它可以處理多達六個說話者。機器人也可以移動並朝向說話者，從而提高效能。

哥倫比亞大學語音與音訊識別與組織實驗室負責人丹·埃利斯（Dan Ellis）評論說：“岡野的機器人理解重疊聲音的專案在結合多麥克風源定位的最佳想法與強大的缺失特徵語音識別技術方面做得非常出色。“他的工作之所以與眾不同，是因為他致力於解決實際部署中出現的所有實際問題……並製造出……能夠使機器人理解其在現實世界中的人類對話者的東西。”

除了提供快餐外，岡野的機器人還可以帶來一種同樣擅長減少噪音干擾的助聽器。岡野認為，這種裝置可以與複雜的自動釋義系統結合使用，這將更加重要，因為聽力障礙人士在對話中嚴重依賴語境。岡野本人在多年透過耳機聽大音量音樂後，如果沒有助聽器就幾乎失聰。“人形機器人目前的聽力能力與我相似，”他笑著說。

岡野預計會有更廣泛的應用。“在不久的將來，許多電器都將嵌入麥克風，”他預測道——並且將做的不僅僅是問你是否要搭配薯條。