功能性磁共振成像 (fMRI) 是用於理解我們如何思考的最先進工具之一。當一個人在 fMRI 掃描器中完成各種心理任務時,該機器會生成他們大腦活動時令人著迷的彩色影像。
以這種方式觀察某人的大腦活動可以告訴神經科學家一個人正在使用哪些大腦區域,但不能說明這個人正在思考、看到或感覺到什麼。幾十年來,研究人員一直試圖破解這一密碼——現在,他們利用人工智慧來處理資料,已經取得了重大進展。最近,日本的兩名科學家將 fMRI 資料與先進的影像生成人工智慧相結合,以將研究參與者的大腦活動翻譯回成與他們在掃描期間看到的影像驚人地相似的圖片。原始影像和重建影像可以在研究人員的網站上看到。
大阪大學神經科學家、該研究的作者之一 Takagi Yu 說:“我們可以使用這些技術來構建潛在的腦機介面。” 此類未來的介面有一天可能會幫助目前無法溝通的人,例如外表看起來沒有反應但可能仍然有意識的個體。這項研究最近被接受在 2023 年計算機視覺和模式識別會議上展示。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述有關當今塑造我們世界的發現和想法的具有影響力的故事。
該研究自 2022 年 12 月以預印本形式釋出(意味著尚未經過同行評審或發表)以來,已在網上引起轟動。線上評論員甚至將該技術比作“讀心術”。但專家表示,這種描述誇大了這項技術的能力。
德克薩斯大學奧斯汀分校的計算神經科學家 Shailee Jain 說:“我不認為我們是在讀心術,她沒有參與這項新研究。“我不認為這項技術目前已接近對患者有用——或被用於壞事——的程度。但我們正在日復一日地變得更好。”
這項新研究遠非第一個使用人工智慧處理大腦活動以重建人們看到的影像的研究。在 2019 年日本京都進行的一項實驗中,研究人員使用了一種名為深度神經網路的機器學習來從 fMRI 掃描中重建影像。結果看起來更像是抽象畫而不是照片,但人類評委仍然可以準確地將人工智慧生成的影像與原始圖片進行匹配。
此後,神經科學家繼續使用更新、更好的人工智慧影像生成器進行這項工作。在最近的研究中,研究人員使用了 Stable Diffusion,這是一種來自倫敦初創公司 Stability AI 的所謂擴散模型。Takagi 說,擴散模型——也包括 DALL-E 2 等影像生成器——是“人工智慧爆炸的主角”。這些模型透過向訓練影像新增噪聲來學習。就像電視靜電一樣,噪聲會扭曲影像——但以模型開始學習的可預測的方式扭曲。最終,該模型可以僅從“靜電”構建影像。
Stable Diffusion 於 2022 年 8 月公開發布,已在數十億張照片及其標題上進行了訓練。它已經學會識別圖片中的模式,因此它可以按命令混合和匹配視覺特徵以生成全新的影像。阿姆斯特丹大學的神經科學家 Iris Groen 說:“你只需告訴它,‘滑板上的狗’,然後它就會生成一隻滑板上的狗,”她沒有參與這項新研究。研究人員“只是採用了該模型,然後他們說,‘好吧,我們現在可以以一種聰明的方式將其與腦部掃描連線起來嗎?’”
新研究中使用的腦部掃描來自一個研究資料庫,該資料庫包含早期研究的結果,在該研究中,八名參與者同意在一年多的時間裡定期躺在 fMRI 掃描器中並觀看 10,000 張影像。結果是一個龐大的 fMRI 資料儲存庫,顯示了人類大腦的視覺中心(或至少這八名人類參與者的大腦)如何響應看到每張影像。在最近的研究中,研究人員使用了來自四名原始參與者的資料。
為了生成重建影像,人工智慧模型需要處理兩種不同型別的資訊:影像的低階視覺屬性及其高階含義。例如,它不僅僅是一個藍色背景上的稜角分明的細長物體——而是一架天空中的飛機。大腦也使用這兩種資訊,並在不同的區域處理它們。為了將腦部掃描和人工智慧連線在一起,研究人員使用了線性模型來配對每個部分中處理低階視覺資訊的部分。他們還對處理高階概念資訊的部分做了同樣的事情。
Groen 說:“透過基本上將這些部分相互對映,他們能夠生成這些影像。” 然後,人工智慧模型可以學習一個人大腦啟用中的哪些細微模式對應於影像的哪些特徵。一旦模型能夠識別這些模式,研究人員就向其輸入了以前從未見過的 fMRI 資料,並要求它生成與該資料相符的影像。最後,研究人員可以將生成的影像與原始影像進行比較,以檢視模型的效能如何。
作者在研究中展示的許多影像對看起來非常相似。加州大學聖巴巴拉分校的計算機科學家 Ambuj Singh 說:“我發現令人興奮的是它有效,”他沒有參與這項研究。儘管如此,Singh 說,這並不意味著科學家已經弄清楚大腦究竟是如何處理視覺世界的。Stable Diffusion 模型不一定以與大腦相同的方式處理影像,即使它能夠生成相似的結果。作者希望比較這些模型和大腦可以揭示這兩個複雜系統的內部運作方式。
儘管這項技術聽起來可能很奇妙,但它有很多侷限性。每個模型都必須在僅一個人的資料上進行訓練和使用。荷蘭拉德堡德大學的計算神經科學家 Lynn Le 說:“每個人的大腦都非常不同,”她沒有參與這項研究。如果您想讓人工智慧根據您的大腦掃描重建影像,您將必須訓練一個定製模型——為此,科學家將需要來自您大腦的大量高質量 fMRI 資料。除非您同意完美靜止地躺在發出撞擊聲、幽閉恐懼的 MRI 管中並專注於數千張影像,否則沒有現有的人工智慧模型有足夠的資料來開始解碼您的大腦活動。
Jain 解釋說,即使有了這些資料,人工智慧模型也只能勝任經過明確訓練的任務。一個經過訓練以瞭解您如何感知影像的模型不適用於嘗試解碼您正在思考的概念——儘管包括 Jain 的團隊在內的一些研究團隊正在為此構建其他模型。
目前尚不清楚這項技術是否可以用於重建參與者僅憑想象而非用眼睛看到的影像。這種能力對於該技術的許多應用來說是必要的,例如使用腦機介面來幫助那些無法說話或示意的人與世界交流。
Jain 說:“從神經科學的角度來看,構建解碼技術有很多收穫。” 但潛在的好處也伴隨著潛在的倫理困境,隨著這些技術的改進,解決這些困境將變得更加重要。她說,該技術目前的侷限性“不足以成為輕視解碼潛在危害的充分理由”。“我認為現在是考慮隱私和這項技術的負面用途的時候了,即使我們可能還沒有到可能發生這種情況的階段。”
本文是關於醫學中的生成式人工智慧的系列文章的一部分。
