中風、肌萎縮側索硬化症和其他疾病會剝奪人們說話的能力。他們的交流速度僅限於用眼睛移動游標的速度(每分鐘僅 8 到 10 個單詞),而自然的語速為每分鐘 120 到 150 個單詞。現在,儘管離恢復自然語言還有很長的路要走,但加州大學舊金山分校的研究人員已經從沒有語言障礙的人的思想中生成了可理解的句子。
加州大學舊金山分校的神經外科醫生、四月份發表在《自然》雜誌上的這項研究的共同作者愛德華·張在新聞釋出會上說,這項工作提供了一個原理證明,有一天應該有可能將想象中的詞語轉化為可理解的即時語音,繞過發聲器官。“我們中很少有人真正瞭解我們說話時嘴裡發生了什麼,”他說。“大腦將你想要說的話的想法轉化為聲道運動,而這正是我們想要解碼的。”
但張警告說,這項技術僅在具有典型語言能力的人身上進行了測試,可能更難以在那些無法說話的人身上發揮作用,尤其是在那些因腦癱等運動障礙而從未能夠說話的人身上。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
研究參與者神經語言中心電極放置的示意圖,從中記錄的言語期間的活動模式(彩色點)被轉化為參與者聲道的計算機模擬(模型,右),然後可以合成以重建已說出的句子(聲波和句子,下方)。圖片來源:張實驗室和加州大學舊金山分校神經外科系
張還強調,他的方法不能用於讀懂別人的心思——只能將人們想要說的話翻譯成可聽見的聲音。“其他研究人員 已經嘗試研究是否有可能基本上只解碼思想,”他說。“事實證明,這是一個非常困難和具有挑戰性的問題。這只是我們專注於人們想要說什麼的眾多原因之一。”
張和他的同事設計了一種將思想轉化為語言的兩步法。首先,在對癲癇患者進行的測試中,這些患者的大腦活動透過大腦表面的電極進行測量,研究人員記錄了來自控制舌頭、嘴唇和喉嚨肌肉的大腦區域的訊號。後來,使用在自然口語單詞上訓練的深度學習計算機演算法,他們將這些運動翻譯成可聽的句子。
加州大學舊金山分校的共同作者戈帕拉·阿努曼奇帕利說,在這一點上,解碼系統必須在每個人的大腦上進行訓練,但聲音的翻譯可以在人與人之間推廣。“神經活動在不同受試者之間不是一對一可轉移的,但底層的表示是可共享的,而這正是我們的論文所探討的內容,”他說。
研究人員要求亞馬遜 Mechanical Turk 眾包市場的母語為英語的人轉錄他們聽到的句子。研究發現,當給定一組 25 個可能的單詞供選擇時,聽眾準確聽到了 43% 的句子,當給定 50 個單詞時,聽眾準確聽到了 21% 的句子。
研究人員表示,儘管準確率仍然很低,但對於“閉鎖”的人來說,這已經足夠產生有意義的改變,“閉鎖”的人幾乎完全癱瘓且無法說話。西北大學範伯格醫學院的神經學家和神經工程師馬克·斯盧茨基說:“對於一個被閉鎖且完全無法交流的人來說,一些小錯誤是可以接受的。”他發表過相關研究,但沒有參與這項新研究。“即使是幾百個單詞也會是一個巨大的進步,”他說。“顯然,你會希望能夠說出你想要說的任何單詞,但這仍然比必須一次一個字母地打字要好得多,而這是[當前]最先進的技術。”
即使志願者沒有完全準確地聽到句子,這些短語的含義也常常與那些默默說出的短語相似。例如,加州大學舊金山分校的另一位研究合著者喬什·查蒂爾在新聞釋出會上說,“兔子”被聽到為“齧齒動物”。查蒂爾補充說,像“ship”中的“sh”這樣的聲音解碼得特別好,而像“the”中的“th”這樣的聲音則特別具有挑戰性。
美國和其他地方的幾個其他研究小組也在解碼語音方面取得了重大進展,但斯盧茨基和其他未參與這項工作的科學家表示,這項新研究標誌著首次正確解讀完整句子。
馬薩諸塞州總醫院的神經學家、布朗大學和普羅維登斯退伍軍人醫療中心的神經科學家利·霍赫伯格說:“我認為這篇論文是思考如何利用生物學和機器學習的力量的一個例子。”霍赫伯格沒有參與這項工作。
這項研究在該領域引起了轟動,但研究人員表示,這項技術尚未準備好進行臨床試驗。斯坦福大學神經外科教授傑米·亨德森沒有參與這項新研究,他說:“在未來 10 年內,我認為我們將看到能夠提高人們交流能力的系統。”他說,剩下的挑戰包括確定使用更精細的大腦活動分析是否會改善語音解碼;開發一種可以植入大腦並在即時解碼語音的裝置;以及將益處擴充套件到根本無法說話的人(他們的大腦尚未被啟動說話)。
霍赫伯格說,每當他在神經重症監護室看到有人“昨天可能還在行走和說話沒有困難,但今天卻中風,現在既不能動也不能說話”時,他都會想起這類研究的利害關係。儘管他希望這項工作進展得更快,但霍赫伯格說他對該領域的進展感到滿意。“我認為腦機介面將有很多機會幫助人們,並希望能夠快速幫助人們。”
*編者注(2019 年 4 月 24 日):此引述已更新。張澄清了他最初的宣告,明確指出他的實驗室尚未嘗試單獨解碼思想。
