腦外科醫生像往常一樣開始,在頭皮上切開一個切口,輕輕地將其分開,露出顱骨。然後,他在骨頭上鑽了一個3英寸的圓形開口,一直到被稱為硬腦膜的厚而堅韌的覆蓋層。他切開了硬腦膜,在他開的小孔裡,露出了閃閃發光、帶有血跡的錫灰色大腦,準備像間諜對待外國大使館一樣接近它:他竊聽了它。
阿謝什·梅塔醫生是長島范斯坦醫學研究所的神經外科醫生,他正在為癲癇患者做手術,以確定癲癇發作的根源。但這位患者同意做更多的事情:參與一項大膽的實驗,其最終目標是將思想轉化為語言。
當他在那裡時,梅塔小心地將一組扁平的微電極放置在大腦左側的表面,覆蓋了參與聽和形成語言的區域。透過竊聽當一個人在“腦海中”聽到他打算表達的詞語時(通常非常快,幾乎沒有意識)在灰質中噼啪作響的電脈衝,然後將這些訊號無線傳輸到解碼它們的計算機,電極和系統的其餘部分有望成為第一個超越運動和感覺的“腦機介面”。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。
如果一切順利,它將征服該領域的珠穆朗瑪峰:開發一種腦機介面,使脊髓損傷、閉鎖綜合徵、肌萎縮側索硬化症或其他癱瘓患者能夠再次說話。
這項技術不需要讓這些患者具備發表莎士比亞獨白的能力。因此,越來越多的專家認為,由於神經科學、工程學和機器學習的並行進步,現在可以實現一個解碼一個人是否在心中默唸是或否或餓了或疼痛或水的系統。
加州大學伯克利分校的布萊恩·帕斯利說:“我們認為我們對編碼無聲語言的大腦訊號有了足夠的瞭解,我們很快就能製造出實用的東西。”“即使是適度的東西對患者也可能意義重大。我確信這是可能的。”
展望未來,Facebook和其他公司設想類似的科技將促進消費品的發展,將思想轉化為簡訊和電子郵件。無需打字或Siri。
第一個腦機介面(BCI)讀取運動皮層中與運動意圖相對應的電訊號,並使用軟體將訊號轉換為操作計算機游標或機械臂的指令。2016年,匹茲堡大學的科學家更進一步,在一個意念控制的機械臂上添加了感測器,使其能夠產生觸控的感覺。
儘管腦機介面獲得了媒體的熱情報道,但在首次原型出現十多年後,它們既不普及,甚至也沒有廣泛應用。許多專案在最初的興奮之後就失敗了。匹茲堡大學的詹妮弗·科林格說,大多數此類系統都需要笨重的電纜以及裝滿訊號分析儀和其他電子裝置的大盒子。科林格幫助開發了觸覺機械臂。她和她的同事最近從美國國立衛生研究院獲得了800萬美元的資助,用於將其提供給匹茲堡的更多患者,並不斷改進該裝置。
此外,今天的腦電極只能使用幾年,這意味著人們需要多次腦部手術,而且目前的BCI系統雖然在實驗室中還可以,但在現實世界中使用還不夠可靠,科林格說。
語音BCI面臨著更高的障礙。解碼錶達一個詞的意圖比運動涉及讀取更多的大腦訊號,並且尚不清楚大腦的哪些區域參與其中。日內瓦大學的斯蒂芬妮·馬丁說,主要的挑戰是語言編碼在一個廣泛的大腦網路中,而目前的記錄技術無法以足夠高的空間和時間解析度監測整個大腦。馬丁去年因其在語音BCI方面取得的進展而獲得了獎項。
大腦也非常嘈雜,編碼語言的電活動往往會被其他訊號淹沒。她說:“這使得很難以高精度提取語音模式。”
馬丁說,目前為癱瘓、肌萎縮側索硬化症或其他疾病導致無法說話的人提供的輔助技術“不是很自然和直觀”。馬丁是一個歐洲聯盟的成員,該聯盟致力於解碼大腦活動中的語言。患者凝視著顯示字母的螢幕,頭皮電極感應編碼眼球運動和位置的腦電波,並且選擇的字母拼出語音合成器大聲說出的單詞。已故的宇宙學家斯蒂芬·霍金患有肌萎縮側索硬化症,他使用了類似的系統。但科學家們認為,他們可以透過“直接利用語言的神經相關性”做得更好,馬丁說。
波士頓大學的計算神經科學家弗蘭克·根瑟開發了第一個語音BCI,早在2007年。它使用植入閉鎖綜合徵患者大腦中的電極來竊聽運動皮層說話的計劃。他們拾取了與以產生特定音素的方式移動舌頭、嘴唇、喉部、下巴和臉頰相對應的訊號(儘管該研究僅達到了母音)。
在根瑟的合作者,神經學家菲爾·肯尼迪違反聯邦衛生監管機構並被禁止在更多患者身上植入電極後,該專案結束了。肯尼迪對該領域的進展緩慢感到沮喪,他自己的大腦在2014年被貝里斯的一位神經外科醫生植入了電極、電源線圈和收發器,並且最初似乎遭受了腦損傷,這對情況沒有幫助。
其他神經科學家沒有被這些聲譽挫折嚇倒,他們正在與電氣工程師合作開發一個植入物、解碼器和語音合成器系統,該系統將讀取患者的預期單詞(以大腦訊號編碼),並將它們轉化為可聽見的語音。根瑟說,語音BCI的一個方面可能會使其有一天得到廣泛應用:硬體比機械臂便宜得多,機械臂可能花費數十萬美元。
根瑟說,他2007年的系統“以今天的標準來看已經很古老了。我不認為[阻礙語音BCI發展的]問題是無法解決的。”
哥倫比亞大學的電氣工程師尼瑪·梅斯加拉尼也這樣認為,他正在領導一個專案,從梅塔植入的電極等電極拾取的訊號中重建語音。
這種裝置有可能工作的原因是,人腦不會在幻想和現實之間做出嚴格的區分。當大腦想象某事時,神經元活動在位置和模式上與大腦做某事時非常相似。南瓜派的心理影像會在視覺皮層中產生活動,非常類似於看到南瓜派時的活動;想象投籃會引起類似於實際執行投籃的神經元活動。
對於“隱蔽”或無聲語言也是如此:在不移動嘴唇或舌頭的情況下排練你要說的話“會產生與實際說話相同的大腦活動模式”,梅斯加拉尼說。
心理上傾聽你的無聲語言也是如此。“把它想象成心靈的耳朵,”伯克利的帕斯利說。說出單詞長頸鹿。然後默默地說出來。在你的大腦中,第二個音節應該比第一個音節更響亮,並且音調可能會升高。帕斯利解釋說,這些和其他品質構成了單詞的頻譜圖。
至關重要的是,與心靈的耳朵相對應的大腦活動發生在聽覺皮層中,聽覺皮層也聽到來自外部世界的聲音:帕斯利和他的同事在一篇論文中報告說,這種重疊“是很大的”,該論文將在下個月的《大腦皮層》雜誌上發表。
這使得竊聽裝置能夠重建無聲語言,即使遠非完美。在馬丁在伯克利與帕斯利進行的一項研究中,要求大腦中植入電極的參與者思考大聲說出一系列單詞,例如牛仔、游泳、蟒蛇和電話。不幸的是,軟體對勺子和戰場等詞對的腦訊號的解釋準確率僅略好於拋硬幣。然而,與一個早期系統相比,這是一個很大的進步,該系統在弄清楚在隱蔽語言期間大腦活動編碼了什麼母音或子音(甚至不是一個完整的單詞)方面得分低於40%。
伯克利的結果足以證明概念,但僅此而已。梅斯加拉尼說:“從那項研究和類似研究中重建的語音根本無法理解。”“我們正在努力克服可理解性障礙。”
他說,最好的方法是使用機器學習,或訓練軟體來解釋與隱蔽語言相對應的大腦活動,從錯誤中學習,並逐步改進。
為了測試他的想法,梅斯加拉尼與梅塔合作,梅塔招募了五名癲癇患者參與研究。在他們的手術過程中,他在聽覺皮層的兩個區域表面放置了一個電極網格(扁平陣列稱為皮層腦電圖):在赫希爾回和顳上回之上。後者包含韋尼克區,該區域負責找出要使用的單詞。兩個回都處理語音的特徵,包括音量、語調、頻率,以及至關重要的音素——構成口語的最小聲音單位,例如“sh”。
然後,志願者們聽人們說數字(“一、二、三……”)並閱讀故事30分鐘。聲學處理軟體提取了聆聽語音引起的神經活動,本質上是一系列複雜的電訊號。梅斯加拉尼和他的團隊開發的“深度神經網路”基本上推斷出與神經活動相對應的語言聲音,然後分析了該活動。這些推斷被轉換回電訊號。這些訊號被髮送到聲碼器,這是一種從電訊號的特徵(如頻率和其他聽覺元素)產生聲音的合成器。
整個過程就像將法拉利的操作手冊從義大利語翻譯成英語,再翻譯成日語,然後再翻譯回義大利語:最終版本聽起來通常與原始版本截然不同。這就是以前關於語音腦機介面的研究得到的:一串大多無法理解的聲音。梅斯加拉尼說:“在此之前,你無法很好地從電氣資料中重建語音的聲音。”
他的腦機介面的測試是,聲碼器發出的微弱聲音是否與參與者聽到的故事和數字的聲音有任何相似之處。他們做到了:科學家們在一篇釋出在bioRxiv預印本網站上的論文中報告說,可理解性達到了75%,而早期語音BCI的可理解性略高於一半;該論文尚未經過同行評審,但作者已將其提交給期刊。
平均某人對特定語音話語(重複多次)的所有神經反應提高了重建的合成語音的準確性,從陣列中128個電極中讀取更多讀數也是如此。
梅斯加拉尼說,下一步是在想象說話引起的大腦訊號上測試深度神經網路。“之前的研究表明,檢測編碼這種未說出口的語言的訊號是‘可能的’,”他說;瓶頸一直在於聲學處理和語言合成器。
他說,透過改進潛在語音BCI的後端,“我們擁有了一個良好的框架,可以從大腦活動中生成準確且可理解的重建語音”,他稱之為“邁向下一代人機互動系統……為遭受癱瘓和閉鎖綜合徵的患者邁出的一步”。
最初為殘疾人開發的技術可能會普及到所有人——或者可能會反過來。在2017年麻省理工學院的一次神經技術會議上,Facebook的馬克·切維萊特描述了該公司“思想到打字”的BCI研究,其指導問題是:“如果你可以直接從大腦中打字怎麼辦?”
他指導的該專案的目標是“開發一種無聲語音介面,讓你的文字生成速度比打字快五倍,或每分鐘100個單詞。”該公司正在研究是否可以準確地將非侵入性檢測到的高質量神經訊號(即使是最熱心的Facebook使用者也不太可能同意腦部手術)解碼為音素。如果是這樣,下一步是將訊號輸入到將音素序列與單詞配對的資料庫中,然後使用特定於語言的機率資料來預測訊號最有可能意味著哪個單詞(很像Gmail中的自動填充)。
“這不是科幻小說,”切維萊特在會議上說。
