大腦活動解碼生成清晰可懂的合成語音

新裝置是朝著將思想轉化為機器口語邁出的一步

加入我們的科學愛好者社群!

可能導致癱瘓的神經系統疾病,如肌萎縮側索硬化症 (ALS) 和腦幹中風,也會剝奪許多患者說話的能力。輔助技術使其中一些人能夠控制鍵盤(如已故著名物理學家斯蒂芬·霍金),而腦機介面使另一些人能夠直接用意念控制機器。但這兩種型別的裝置對於閉鎖綜合徵和其他溝通障礙患者來說都太慢且不實用。

現在,研究人員正在開發工具來監聽與言語相關的大腦活動,對其進行解碼並將其轉換為機器說出的單詞。最近的一項研究使用了最先進的機器學習和語音合成技術,獲得了迄今為止一些最令人印象深刻的結果。

哥倫比亞大學祖克曼研究所的電氣工程師尼瑪·梅斯加拉尼和他的同事研究了五名癲癇患者,這些患者為了治療,大腦中植入了電極或將電極放置於大腦表面。這些電極覆蓋了參與處理語音的區域。患者在聽故事朗讀時,大腦活動被記錄下來。研究小組訓練了一個“深度學習”神經網路,將這種活動與相應的音訊相匹配。然後,測試內容是,給定系統之前未見過的神經資料,系統是否可以重現原始語音。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。


當患者聽到零到九的數字各說四遍時,該系統將神經資料轉換為驅動聲碼器(一種特殊的語音合成器)所需的值。另一組參與者聽到了合成的詞語,並根據發表在1月份的《科學報告》上的研究,正確識別了其中 75% 的詞語。之前的大多數努力都沒有衡量這種重建的語音可以被理解的程度。“我們表明它是可理解的,”梅斯加拉尼說。

研究人員已經知道可以從大腦活動中重建語音,但這項新工作是朝著更高效能邁出的一步。“還有很大的改進空間,但我們知道資訊就在那裡,”加州大學舊金山分校的神經外科醫生愛德華·張說,他沒有參與這項研究。“在未來幾年,情況將會變得更好——這是一個快速發展的領域。”

存在一些侷限性。梅斯加拉尼的團隊記錄了來自語音感知區域而非語音產生區域的大腦活動;研究人員還僅在一小組單詞而非包含大量詞彙的完整句子上評估了他們的系統。(包括張在內的其他研究人員已經在研究這些問題。)也許最重要的是,這項研究旨在解碼與實際聽到的語音相關的活動,而不是僅僅是想象的語音——後者是開發實用裝置所必需的。“對我們所有人來說,挑戰在於實際語音與想象語音,”梅斯加拉尼說。

西蒙·梅金是一位居住在英國的自由科學記者。他的作品曾發表在《新科學家》、《經濟學人》、《大眾科學》和《自然》等刊物上。他報道生命科學,專攻神經科學、心理學和精神健康。在 X(前身為 Twitter)上關注梅金 @SimonMakin

更多作者:西蒙·梅金
大眾科學 Magazine Vol 320 Issue 5本文最初以“解碼語音”為標題發表於大眾科學雜誌》第 320 卷第 5 期(),第 18 頁
doi:10.1038/scientificamerican0519-18a
© .