功能性磁共振成像 (fMRI) 捕捉大腦活動時粗略、色彩豐富的快照。雖然這種專門型別的磁共振成像已經改變了認知神經科學,但它不是一臺讀心機:神經科學家無法透過腦部掃描來判斷掃描器中的人在看什麼、聽什麼或想什麼。
但科學家們正在逐步突破這一基本障礙,利用腦成像將內在體驗轉化為文字。這項技術可以幫助那些無法說話或以其他方式進行外在交流的人,例如中風患者或肌萎縮側索硬化症患者。目前的腦機介面需要在腦內植入裝置,但神經科學家希望使用非侵入性技術(如 fMRI)來破譯內言,而無需手術。
現在,研究人員透過將 fMRI 監測神經活動的能力與 人工智慧語言模型 的預測能力相結合,向前邁進了一步。這項混合技術產生了一個解碼器,該解碼器可以令人驚訝地準確地再現一個人在掃描器中聽到或想象講述的故事。解碼器甚至可以猜測某人在掃描器中觀看的短片背後的故事,儘管準確性較低。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的有影響力的故事的未來。
德克薩斯大學奧斯汀分校的計算神經科學家、該研究的主要作者傑裡·唐在新聞釋出會上說:“腦部資料中包含的資訊比我們最初想象的要多得多。” 這項於週一發表在《自然通訊》雜誌上的研究是唐所描述的“可以從對大腦活動的非侵入性記錄中解碼語言的概念驗證”。
解碼器技術尚處於起步階段。它必須針對每個使用者進行大量訓練,並且它不會構建他們聽到或想象的文字的精確文字。但這仍然是一項值得注意的進步。研究人員現在知道,人工智慧語言系統(ChatGPT 背後模型的早期版本)可以透過檢視 fMRI 腦部掃描,幫助對引發大腦活動的詞語做出明智的猜測。雖然目前的技術限制阻止瞭解碼器被廣泛使用(無論好壞),但作者強調需要制定積極的政策來保護個人內在心理過程的隱私。“我們得到的東西仍然有點像原始故事的‘要點’,或者更像是釋義,”德克薩斯大學奧斯汀分校的計算神經科學家、該研究的資深作者亞歷山大·胡斯說。
以下是論文中轉錄的一位研究參與者聽到的一個例子:“我從充氣床墊上起身,將臉貼在臥室窗戶的玻璃上,期望看到眼睛盯著我看,但卻只看到黑暗。” 透過檢查此人的腦部掃描,該模型繼續解碼為:“我只是繼續走到窗戶邊並開啟玻璃,我踮起腳尖向外看,我什麼也沒看到,然後再次抬頭,我什麼也沒看到。”
馬薩諸塞理工學院的神經科學家安娜·伊萬諾娃(未參與該研究)表示:“總的來說,肯定還有很長的路要走,但目前的結果比我們以前在 fMRI 語言解碼方面取得的任何成果都要好。”
該模型遺漏了很多關於其解碼的故事的資訊。它在語法特徵(如代詞)方面存在困難。它無法破譯專有名詞(如姓名和地點),有時它會完全搞錯。但與過去的方法相比,它實現了很高的準確率。在故事中,解碼器在解碼其含義方面,有 72% 到 82% 的時間比隨機機會預期的更準確。
馬薩諸塞理工學院的計算神經科學家馬丁·施裡普夫(未參與該研究)說:“結果看起來確實非常好。” 先前嘗試 使用人工智慧模型解碼大腦活動取得了一些成功,但最終遇到了瓶頸。施裡普夫說,唐的團隊在這裡使用了“一種更準確的語言系統模型”。 該模型是 GPT-1,它於 2018 年問世,是 GPT-4 的原始版本,GPT-4 是現在 ChatGPT 的基礎模型。
幾十年來,神經科學家一直致力於破譯 fMRI 腦部掃描,以便與無法進行外在交流的人建立聯絡。在 2010 年的一項關鍵研究 中,科學家使用 fMRI 向一位無法控制身體且外表看起來無意識的個體提出“是或否”問題。
但解碼整個單詞和短語是一項更艱鉅的挑戰。最大的障礙是 fMRI 本身,它不直接測量大腦神經元的快速放電,而是跟蹤為這些神經元供氧的血流的緩慢變化。跟蹤這些相對緩慢的變化使 fMRI 掃描在時間上“模糊不清”:想象一下熙熙攘攘的城市人行道的長時間曝光照片,面部特徵因運動而模糊不清。嘗試使用 fMRI 影像來確定大腦在任何特定時刻發生了什麼,就像嘗試識別照片中的人一樣。這對破譯快速飛逝的語言來說是一個明顯的問題,一張 fMRI 影像最多可捕捉約 20 個單詞的響應。
現在看來,人工智慧語言模型的預測能力可以提供幫助。在新研究中,三名參與者在 fMRI 掃描器中靜止不動地躺了 15 次,總計 16 個小時。他們透過耳機收聽播客和廣播節目的節選,例如The Moth Radio Hour 和 紐約時報 的 Modern Love。與此同時,掃描器跟蹤了大腦不同語言相關區域的血流。然後,這些資料被用來訓練人工智慧模型,該模型發現了每個受試者的大腦如何響應某些單詞和概念的模式。
在發現這些模式後,該模型獲取了一系列新的腦部影像,並預測了在拍攝影像時該人正在聽什麼。它逐漸瀏覽故事,將新的掃描與人工智慧對大量候選詞的預測模式進行比較。為了避免不得不檢查英語中的每個單詞,研究人員使用 GPT-1 來預測哪些單詞最有可能出現在特定語境中。這建立了一個可能的詞序小池,可以從中選擇最可能的候選詞。然後,GPT-1 繼續處理下一個單詞串,直到它解碼了整個故事。
研究人員使用相同的方法來解碼參與者僅想象講述的故事。他們指示參與者想象自己敘述一個詳細的、一分鐘的故事。雖然解碼器的準確性有所下降,但與隨機機會相比,它仍然比預期的要好。這表明相似的大腦區域參與了想象某事物與僅僅感知它。將想象的言語轉化為文字的能力對於為無法用語言交流的人設計腦機介面至關重要。
更重要的是,研究結果超出了語言範圍。在最令人驚訝的結果中,研究人員讓人們在掃描器中觀看沒有聲音的動畫短片。儘管解碼器明確接受了口語訓練,但它仍然可以從參與者觀看無聲電影的腦部掃描中破譯故事。“我對影片比想象的言語更驚訝,”胡斯說,因為電影是靜音的。“我認為我們正在解碼比語言更深層次的東西,”他在新聞釋出會上說。
儘管如此,這項技術距離在日常生活中用作腦機介面還有很多年。首先,掃描技術不便攜——fMRI 機器佔據了醫院和研究機構的整個房間,耗資數百萬美元。但胡斯的團隊正在努力使這些發現適應現有的可以像帽子一樣佩戴的腦成像系統,例如功能性近紅外光譜 (fNIRS) 和腦電圖 (EEG)。
新研究中的技術還需要進行大量的定製,每個個體都需要數小時的 fMRI 資料。“它不像耳機,你可以直接戴上它們,它們就可以為你工作,”施裡普夫說。對於每個使用者,人工智慧模型都需要經過訓練才能“適應和調整你的大腦”,他補充道。施裡普夫猜測,隨著研究人員在未來發現人們大腦中的共性,這項技術將需要更少的定製。相比之下,胡斯認為更準確的模型將更加詳細,需要更精確的定製。
該團隊還測試了該技術,以檢視如果有人想抵抗或破壞掃描會發生什麼。研究參與者可以透過在腦海中講述另一個故事來欺騙它。胡斯說,當研究人員要求參與者這樣做時,結果是胡言亂語。“[解碼器] 完全崩潰了。”
即使在早期階段,作者也強調考慮制定政策來保護我們內心的話語和想法的隱私的重要性。“這項技術現在還不能用來做真正邪惡的事情,”唐說,“但我們不希望在我們制定可能阻止這種情況發生的政策之前就達到那種程度。”