三月份,隨著冠狀病毒大流行的驚人範圍開始變得清晰,世界各地的官員開始動員公眾加入戰鬥。醫院要求當地公司捐贈口罩。研究人員呼籲從新冠肺炎中康復的人捐獻血漿。在以色列,國防部和一家名為 Vocalis Health 的初創公司要求人們捐獻他們的聲音。
Vocalis 是一家位於以色列和美國的語音分析公司,此前曾開發一款智慧手機應用程式,透過監聽使用者說話時是否出現呼吸急促的跡象,來檢測慢性阻塞性肺疾病的急性發作。該公司希望對新冠肺炎做同樣的事情。新冠病毒檢測呈陽性的人只需下載 Vocalis 研究應用程式即可參與。每天一次,他們啟動應用程式並對著手機說話,大聲描述影像並從 50 數到 70。
然後,Vocalis 開始使用其機器學習系統處理這些錄音,以及新冠病毒檢測呈陰性的人的聲音,試圖識別該疾病的聲音指紋。到仲夏,該公司已擁有 1500 多個聲音樣本和一個數字新冠肺炎篩查工具的試點版本。該工具目前正在世界各地進行測試,並非旨在提供明確的診斷,而是幫助臨床醫生對潛在病例進行分診,識別可能最需要檢測、隔離或面對面醫療護理的人。“我們的 AI 演算法能提供幫助嗎?”Vocalis 的總裁兼執行長塔爾·溫德羅問道。“這並非侵入性的,也不是藥物,我們沒有改變任何東西。你所需要做的就是說話。”
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將有助於確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
他們並不是唯一競相尋找新冠肺炎聲音生物標誌物的人——至少還有三個研究小組正在進行類似的專案。其他團隊正在分析新冠肺炎咳嗽的錄音,並開發旨在檢測某人何時佩戴口罩的語音分析演算法。
這標誌著年輕的聲音診斷領域多麼渴望取得成就。在過去的十年中,科學家們利用人工智慧 (AI) 和機器學習系統來識別各種疾病的潛在聲音生物標誌物,包括痴呆症、抑鬱症、自閉症譜系障礙甚至心臟病。他們開發的技術能夠識別出患有某些疾病的人在說話方式上的細微差異,世界各地的公司也開始將其商業化。
目前,大多數團隊都採取緩慢的、循序漸進的方法,設計定製工具用於醫生辦公室或臨床試驗。但許多人夢想更廣泛地部署這項技術,利用消費產品中普遍存在的麥克風來識別疾病和障礙。這些系統有一天可以讓流行病學家利用智慧手機追蹤疾病的傳播,並將智慧音箱變成家用醫療裝置。“在未來,你的機器人、你的 Siri、你的 Alexa 會簡單地說,‘哦,你感冒了,’”奧格斯堡大學和倫敦帝國學院的語音和情感識別專家比約恩·舒勒說,他正在領導一項新冠肺炎研究。
但自動化語音分析仍然是一個新興領域,存在許多潛在的陷阱,從錯誤的診斷到個人和醫療隱私的侵犯。許多研究仍然規模小且是初步的,從概念驗證到產品的轉變並非易事。“我們正處於這個領域的早期,”舒勒說。
有些疾病會導致明顯的發聲扭曲;想想過敏患者鼻塞的明顯症狀。但許多科學家認為,由於人類語言的複雜性,語音分析可能有助於識別範圍廣泛的疾病。
語音訊號
說話需要協調許多解剖結構和系統。肺部將空氣輸送到聲帶,聲帶產生的聲音由舌頭、嘴唇和鼻腔等結構塑造。大腦以及神經系統的其他部分,有助於調節所有這些過程並確定某人所說的話。影響這些系統中的任何一個的疾病都可能在人的言語中留下診斷線索。
機器學習為科學家提供了一種快速、大規模檢測異常的方法。研究人員現在可以將數百或數千個聲音樣本輸入計算機,以搜尋區分患有各種疾病的人和未患病的人的特徵。
該領域的早期工作主要集中在帕金森病上,帕金森病對言語有眾所周知的影響——並且目前尚無明確的診斷測試。這種疾病會導致多種運動症狀,包括震顫、肌肉僵硬以及平衡和協調問題。控制的喪失延伸到參與言語的肌肉;因此,許多帕金森病患者的聲音微弱而柔和。“這是你可以用人耳聽到的事情之一,”華盛頓州柯克蘭市 EvergreenHealth 的神經精神病學家禮薩·侯賽尼·戈米說,他已經確定了與幾種神經退行性疾病相關的聲音特徵。“但是,如果你能獲得 10,000 個樣本和一臺計算機,你就能獲得更準確的結果。”
十多年前,現在在英國伯明翰大學從事機器學習和訊號處理研究的馬克斯·利特爾開始研究語音分析是否可以幫助醫生做出困難的診斷。在一項研究中,利特爾和他的同事使用了 43 名成年人的錄音,其中 33 人患有帕金森病,他們說的是音節“啊”。他們使用語音處理演算法分析了每段錄音的 132 個聲學特徵,最終確定了 10 個——包括諸如氣息聲和音高和音色中的顫抖振盪等特徵——這些特徵似乎最能預測帕金森病。僅使用這 10 個特徵,該系統就能以近 99% 的準確率識別出來自帕金森病患者的語音樣本。
利特爾和該領域的其他人也證明,某些聲音特徵與帕金森病症狀的嚴重程度相關。利特爾說,這些系統尚不夠強大,無法在常規臨床實踐中使用,但存在許多潛在的應用。語音分析可能為監測帕金森病高風險人群提供一種快速、低成本的方法;篩查大量人群;甚至可能建立一種電話服務,可以遠端診斷無法接觸到神經科醫生的人。患者可以使用智慧手機應用程式等形式的家庭技術來跟蹤自己的症狀並監測他們對藥物的反應。“這種技術可以實現對某人症狀如何變化的高速快照,幾乎是連續的快照,”利特爾說。
研究人員現在正在努力識別其他型別神經退行性疾病的基於語音的生物標誌物。例如,加拿大多倫多的三位科學家使用了來自 250 多人的聲音樣本和文字記錄,來識別可能或很可能患有阿爾茨海默病的人與未患病的人之間的數十個差異。在參與者中,患有阿爾茨海默病的人傾向於使用較短的詞、較小的詞彙量和更多的句子片段。他們還會重複自己,並使用更高比例的代詞(如“它”或“這個”)代替專有名詞。“這可能表明他們只是不記得事物的名稱,因此不得不使用代詞代替,”多倫多大學的計算機科學家弗蘭克·魯德齊茨說,他領導了這項研究。
當系統將這 35 個聲音特徵放在一起考慮時,它能夠以 82% 的準確率識別出阿爾茨海默病患者。(魯德齊茨說,此後這一準確率已提高到大約 92%,並指出錯誤往往或多或少均勻地分佈在假陰性和假陽性之間。)“這些特徵加起來就像痴呆症的指紋,”魯德齊茨說。“這是一個非常複雜且隱藏的模式,我們很難在表面上看到,但機器學習可以在給定足夠資料的情況下將其挑選出來。”
由於其中一些聲音變化發生在神經退行性疾病的早期階段,研究人員希望語音分析工具最終可以幫助臨床醫生更早地診斷出此類疾病,並有可能在其他症狀變得明顯之前進行干預。
然而,目前,這種想法在很大程度上仍然是理論性的;科學家們仍然需要進行大規模、長期、縱向的試驗,以證明語音分析實際上可以比標準診斷方法更早地檢測到疾病。
一些臨床醫生指出,僅靠語音分析很少能得出明確的診斷。“我透過聽別人的聲音學到很多東西,”密歇根大學安阿伯分校的喉科醫生諾曼·霍吉基安說。“我以此為生。但我會將其與病史以及我的檢查結合起來。評估的這三個部分都很重要。”
該領域的研究人員強調,目標不是取代醫生或建立獨立的診斷裝置。相反,他們將語音分析視為醫生可以用來為他們的決策提供資訊的工具,作為他們可以監測的另一種“生命體徵”或他們可以訂購的測試。“我的願景是,收集語音樣本將變得像驗血一樣普遍,”里斯本大學的口語處理研究員伊莎貝爾·特蘭科索說。
擴充套件應用
許多語音分析初創公司——包括多倫多公司 Winterlight Labs(由魯德齊茨共同創立)和亞利桑那州斯科茨代爾的 Aural Analytics——現在正在向製藥公司提供他們的軟體。許多公司正在使用該技術來幫助評估參加臨床試驗的人員是否對實驗性治療有反應。“使用語音作為神經系統健康變化的更微妙的替代指標,你可以幫助推動藥物透過終點線,或者至少儘早識別出那些沒有希望的藥物,”Aural Analytics 的聯合創始人兼首席分析官維薩爾·貝里沙說。
神經退行性疾病僅僅是個開始。科學家們已經在患有神經發育障礙的兒童中發現了獨特的言語模式。在 2017 年的一項小型研究中,舒勒和他的同事確定,分析十個月大嬰兒咿呀學語的演算法可以相當準確地識別出哪些兒童將來會被診斷為自閉症譜系障礙。該系統正確分類了大約 80% 的自閉症兒童和 70% 的神經正常兒童。
研究人員還發現,許多患有注意力缺陷多動障礙的兒童比神經正常的同齡人說話聲音更大、語速更快,並且表現出更多的聲音緊張跡象。柏林的 PeakProfiling 公司目前正在開發一種臨床語音分析工具,該公司希望該工具可以幫助醫生診斷這種疾病。
但一些臨床醫生對這些系統真正能提供多少有用的資訊持懷疑態度。“其中一些有點言過其實,”康涅狄格州費爾菲爾德聖心大學的溝通障礙專家瑞亞·保羅說。她指出,患有神經發育障礙的兒童通常有許多容易觀察到的行為症狀。
此外,目前尚不清楚這些演算法是否真的在識別自閉症譜系障礙等特定標記,還是僅僅在捕捉非典型大腦發育的一般跡象——甚至只是言語中的短暫異常。“發育是一條蜿蜒曲折的道路,並非每個一開始看起來像患有自閉症的孩子長大後都會成為患有自閉症的成年人,”保羅說。她補充說,即使科學家確實識別出高度可靠、特定的聲音生物標誌物,它也應該僅用於識別可能受益於更徹底評估的兒童。“僅憑這一點,尤其是在生命早期,就不應該足以給孩子貼上標籤。”
科學家們也在將這項技術轉向精神疾病。世界各地的許多團隊已經開發出可以識別出往往以抑鬱症為特徵的緩慢、停頓多、單調的言語的系統,其他人也已經識別出與精神病、自殺傾向和雙相情感障礙相關的聲音生物標誌物。
“聲音在傳遞我們的情感訊號方面非常豐富,”紐約大學的精神病學家查爾斯·馬爾馬爾說。“速率、節奏、音量、音高、韻律[重音和語調]——這些特徵告訴你患者是情緒低落和沮喪,還是焦慮和不安,或者他們是煩躁不安和躁狂。”
在自己的工作中,馬爾馬爾使用機器學習識別出 129 名男性退伍軍人中與創傷後應激障礙 (PTSD) 相關的 18 個聲音特徵。透過分析這些特徵——主要是緩慢、平淡、單調的言語指標——該系統可以以近 90% 的準確率識別出哪些退伍軍人患有 PTSD。
馬爾馬爾和他的同事們現在正在將他們的研究擴充套件到婦女和平民;如果該團隊能夠推廣這些發現,馬爾馬爾認為這項技術可能是一種快速識別可能需要更徹底的精神病學評估的人的有用方法。“第一個實際應用將是 PTSD 的高通量篩查,”他說。“你可以在幾個小時內完成 4,000 次語音篩查。”
類似的消費者應用程式已經開始進入世界。美國退伍軍人事務部正在研究一款監測心理健康的應用程式是否可以識別出正在經歷心理困擾的軍人。這款智慧手機應用程式由馬薩諸塞州波士頓的會話指導和分析公司 Cogito 開發,收集使用者習慣的元資料——例如他們給其他人打電話或發簡訊的頻率——並分析他們在手機上留下的語音備忘錄。
甚至可能存在與似乎與言語無關的疾病的聲音生物標誌物。在 2018 年的一項研究中,科學家們分析了 101 名計劃接受冠狀動脈血管造影術的人的聲音樣本,發現某些聲音訊率模式與更嚴重的冠狀動脈疾病有關。
目前尚不清楚是什麼解釋了這些差異。“我們很難理解其機制,因為它並不明顯,”明尼蘇達州羅切斯特市梅奧診所的心臟病專家阿米爾·勒曼說,他領導了這項研究。他說,理論上,冠狀動脈疾病可能會透過減少血流量來改變聲音。但也有可能導致聲音變化的不是疾病本身,而是其他相關的風險因素,例如壓力或抑鬱症。
棘手的翻譯
這項研究證明了這項技術的希望和侷限性。計算機挑選出聲音模式是一回事,但理解它們的含義以及它們是否具有臨床意義是另一件更困難的任務。它們是所討論疾病的基本特徵嗎?還是僅僅是群體之間某些其他差異的標誌,例如年齡、性別、體型、教育程度或疲勞,其中任何一個都可能是混雜因素?“我們正試圖擺脫僅僅將資料塞入演算法的做法,而是真正深入研究資料集,首先提出疾病模型,然後再使用機器學習對其進行測試,”戈米說。
到目前為止,大多數研究都只在一個小的、單一的患者群體中識別出潛在的生物標誌物。“可重複性仍然是一個問題,”勒曼說。“我今天、明天和後天的聲音是一樣的嗎?”為了確保結果可以推廣——並減少偏見的可能性,這是一個已知困擾醫療演算法的問題——研究人員將需要在更大、更多樣化的樣本中以及在多種語言中測試他們的分類系統。“我們不想僅僅用 300 名患者來驗證語音模型,”波士頓語音分析公司 Sonde Health 的資料和研究副總裁吉姆·施沃貝爾說。“我們認為我們需要 10,000 名或更多。”
該公司運營著 SurveyLex,這是一個線上平臺,研究人員可以輕鬆建立和分發語音調查,以及 Voiceome 專案,該專案旨在從多達 100,000 人那裡收集語音樣本和健康資訊,涵蓋各種語音任務、地點和口音。“你可能在紐約感到抑鬱,而在德克薩斯州休斯頓聽起來抑鬱程度不同,”施沃貝爾說。
對於研究人員心中設想的許多應用,語音分析系統不僅必須區分病人和健康對照組,還必須區分各種疾病和狀況。而且他們需要在實驗室外、在不受控制的日常情況下以及在各種消費裝置上做到這一點。“你有感測器範圍有限的智慧手機,人們在非常不受控制的環境中隨時隨地使用它們,”澳大利亞悉尼新南威爾士大學研究語音訊號處理的研究員朱利安·埃普斯說。
埃普斯和他的同事(包括 Sonde Health 的一位研究員)分析了在實驗室中使用高質量麥克風錄製的聲音樣本,他們能夠以大約 94% 的準確率檢測到抑鬱症。研究人員在 2019 年的一篇論文中報告說,當使用人們在自己的環境中用智慧手機錄製的聲音樣本時,準確率降至不到 75%。
僅僅因為這項技術是非侵入性的,並不意味著它沒有風險。它帶來了嚴重的隱私問題,包括個人可能從匿名語音樣本中被識別出來、系統可能無意中捕獲私人對話,以及敏感的醫療資訊可能被出售、共享、駭客入侵或濫用。
如果這項技術沒有得到適當的監管,那麼保險公司或僱主就有可能在未經明確同意的情況下使用這些系統來分析語音樣本或獲取個人健康資訊,並可能歧視他們的客戶或僱員。
然後是假陽性和過度診斷的長期風險。“我們必須認清現實,意識到其中很多仍然是研究,”魯德齊茨說。“我們需要開始思考當我們將其付諸實踐時會發生什麼。”
本文經許可轉載,並於 2020 年 9 月 30 日首次發表。
