語音識別已開始在情報調查中佔據重要地位。例子不勝列舉:當 ISIS 釋出記者詹姆斯·福利被斬首的影片時,來自世界各地的專家試圖透過分析“聖戰約翰”的聲音來識別這位蒙面恐怖分子。愛德華·斯諾登披露的檔案顯示,美國國家安全域性已經分析並提取了數百萬通電話的內容。銀行呼叫中心正在使用語音生物識別技術來驗證使用者身份並識別潛在的欺詐行為。
但是語音識別背後的科學可靠嗎?科學文獻中的幾篇文章已經警告了其主要應用之一的質量:法庭上的法庭語音學專業知識。我們彙編了來自世界各地的二十多起司法案件,其中法庭語音學存在爭議。國際刑警組織最近公佈的資料表明,一半的法庭專家仍然使用已被公開質疑的音訊技術。
多年來,電影和電視劇,如《犯罪現場調查》,描繪了“聲音科學”的不現實畫面。在 1994 年的電影《燃眉追擊》中,一位專家聽了一段簡短的錄音,並宣稱說話者是“古巴人,年齡在 35 歲到 45 歲之間,在美國東部受過教育”。然後,這段錄音被輸入一臺超級計算機,該計算機將聲音與一名嫌疑人的聲音進行匹配,並得出正確識別的機率“為 90.1%”的結論。這一序列總結了許多關於法庭語音學的誤解,這些誤解導致了現實生活中的司法錯誤。事實上,電影中的那個場景例證了所謂的“犯罪現場調查效應”——“法官對法庭科學的能力抱有不切實際期望的現象”,西班牙馬德里高階科學研究委員會(Consejo Superior de Investigaciones Cientificas)的法庭語音科學家胡安娜·吉爾·費爾南德斯說。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
一名語音分析師在西班牙的語音取證實驗室工作。圖片來源:吉安盧卡·巴蒂斯塔
1997 年,法國聲學學會公開請求停止在法庭上使用法庭語音科學。該請求是對傑羅姆·普列託案件的回應,此人因一起有爭議的警方調查而被錯誤地認定為在聲稱對汽車爆炸事件負責的電話中使用了普列託的聲音,從而在監獄中度過了 10 個月。有大量令人不安的可疑取證和徹頭徹尾的司法錯誤的例子,這些例子已由“聽見聲音”記錄在案,這是一個由本文作者在 2015 年和 2016 年開展的關於法庭科學的科學新聞專案。
不可能知道每年進行多少次語音調查,因為沒有國家保留登記冊,但義大利和英國專家估計,在各自的國家,每年必須有數百次。該過程通常至少涉及以下任務之一:轉錄錄音,將截獲的聲音與嫌疑人的聲音進行比較,將嫌疑人的聲音放入不同聲音的佇列中,根據方言或口語對說話者進行側寫,解釋噪音或驗證錄音的真實性。
接受分析的錄音片段可以是電話對話、語音郵件、贖金要求、惡作劇電話和撥打緊急或警察號碼的電話。語音分析師必須面對的主要障礙之一是錄音片段的質量差。“電話訊號沒有攜帶足夠的資訊來區分語音的細微差別。您需要兩倍寬的頻帶才能區分某些子音,例如 f 和 s 或 m 和 n,”烏戈·博多尼基金會的科學家、義大利最傑出的法庭語音學家安德烈亞·保羅尼在 2015 年 11 月去世前說。更糟糕的是,錄音資訊通常嘈雜、簡短,甚至可能已有數年甚至數十年的歷史。在某些情況下,模擬電話呼叫的背景可能特別具有挑戰性。想象一下,使用舊手機或不知名的外國品牌手機在擁擠的電影院裡重現通話。
在 1994 年發表於 ESCA 自動說話人識別、身份驗證和驗證研討會論文集的一篇文章中,專家赫爾曼·昆澤爾估計,德國聯邦警察分析的片段中,只有 20% 包含 20 秒的可用語音。然而,許多法庭專家願意處理質量極低的音訊摘錄。在著名的喬治·齊默爾曼案件中,這位社群守望協調員於 2012 年在佛羅里達州桑福德槍殺了年輕的非裔美國人特雷沃恩·馬丁,一位專家表示,他可以提取語音輪廓,甚至可以解釋在緊急呼叫背景中聽到的尖叫聲。
不幸的是,這些錯誤並非孤立的例外。國際刑警組織是代表 190 個國家警察部隊的國際組織,其於 2016 年 6 月在《國際法庭科學》雜誌上發表的一項調查顯示,一半的受訪者(44 人中有 21 人)——來自世界各地的警察部隊——使用了早已知道科學依據不可靠的技術。一個例子是最簡單和最古老的語音識別方法:未經輔助的聽力,導致具有“訓練有素的耳朵”的人的主觀判斷,甚至受害者和證人的意見。
1992 年,加拿大人蓋伊·保羅·莫林因強姦和謀殺一名九歲女孩而被判處終身監禁。除了其他證據外,受害者的母親說她認出了莫林的聲音。三年後,DNA 測試證明莫林不是兇手。這種錯誤並不令人驚訝。在 2000 年發表在“法庭語言學”上的一項研究中,一群彼此認識的志願者聽取了該組不同成員聲音的匿名錄音。識別率遠非完美,一位志願者甚至未能認出自己的聲音。
然而,這並不意味著自動化方法總是比人耳更準確。實際上,法庭語音學中使用的第一種儀器技術多年來一直被否認具有任何科學依據,儘管根據國際刑警組織的報告,其某些變體仍在使用中。我們指的是聲紋或頻譜圖匹配,其中人類觀察員將嫌疑人發音的單詞的頻譜圖與截獲的說話者發音的相同單詞的頻譜圖進行比較。頻譜圖是語音訊譜頻率的圖形表示,當發出單詞或聲音時,它們會隨時間變化。
聲紋因貝爾實驗室科學家勞倫斯·G·克爾斯塔於 1962 年在《自然》雜誌上發表的一篇論文而聲名鵲起。但在 1979 年,國家科學基金會的一份報告宣佈聲紋沒有科學依據:作者寫道,頻譜圖在區分說話者方面不太好,而且它們的可變性太大。“頻譜圖匹配是騙局,純粹而簡單。比較影像就像比較聲音一樣主觀,”保羅尼說。然而,這項技術仍然保持著很高的可信度。2001 年,在美國的大衛·肖恩·波普在因嚴重性侵犯罪在監獄中度過 15 年後,在 DNA 檢測後被無罪釋放。定罪部分基於聲紋分析。
對聲音的不同解讀
科學界已明確否定了一些語音分析技術,但在就最有效的語音識別方法達成共識方面仍相去甚遠。胡安娜·吉爾·費爾南德斯說,存在兩種思想流派。“語言學家支援使用半自動技術,將計算機分析和人工解釋相結合,而工程師則更重視自動化系統。”
半自動技術仍然是最廣泛使用的技術。這些方法被稱為“聲學語音”方法,因為它們將透過聽覺(聲學)獲得的測量值與自動化聲音分析(語音學)的輸出相結合。依賴聲學語音方法的專家通常首先收聽錄音並將其轉錄為語音轉錄。然後,他們識別語音訊號的許多特徵。高階特徵是語言學特徵:例如,說話者對詞語的選擇(詞彙)、句子結構(句法)、填充詞的使用,如“嗯”或“像”,以及口吃等言語困難。這些特徵的總和就是個人語調——一個人特定的、個人的說話方式。其他高階品質是所謂的超音段特徵:音質、語調、每秒音節數等等。
較低級別的特徵或音段特徵主要反映語音生理學,最好使用特定的軟體進行測量。一個基本特徵是基頻。如果將語音訊號分成幾毫秒長的段,則每個段將包含一個幾乎完美週期性波形的振動。這種振動的頻率是基頻,它對應於聲帶的振動頻率,並有助於我們感知為特定聲音的音色或音調。成年男性的平均基頻約為 100 赫茲,成年女性的平均基頻約為 200 赫茲。很難使用此特徵來確定說話者。一方面,在同一上下文中說話的不同說話者之間,它的變化很小。另一方面,當同一個說話者生氣或大聲喊叫以在糟糕的電話線上傳達聲音時,基頻會發生巨大變化。
常用的其他音段特徵是母音共振峰。當我們發出母音時,聲道(喉嚨和口腔)的行為類似於具有特定共振的移動管道系統。這些共振的頻率(稱為共振峰)可以繪製在圖中,該圖表示每個說話者的特定“母音空間”,並且該圖可以與其他說話者的圖進行比較。
儘管聲學語音方法很受歡迎,但它也引發了一些問題。由於它是半自動的,因此留有主觀判斷的餘地,有時使用類似技術的專家在同一材料上工作可能會得出不一致的結論。此外,關於普通人群中語音特徵(基頻除外)的範圍和分佈的資料非常少。由於這些原因,最嚴謹的專家表示,我們永遠無法僅憑聲音來確定說話者的身份。充其量,我們只能說兩種聲音是相容的。
自動化系統可能產生誤報
在 20 世紀 90 年代,一種最大限度地減少人為判斷的新系統開始流行:自動說話人識別 (ASR)。在 ASR 中,錄音由軟體處理,軟體從訊號中提取特徵,對其進行分類,並將其與語音資料庫中的特徵進行匹配。大多數演算法的工作原理是將訊號分成短暫的時間視窗,並提取相應的頻率頻譜。然後,頻譜經歷數學變換,提取與聲道幾何形狀相關的引數,稱為倒譜系數。倒譜系數提供了說話者聲道形狀的模型。“我們所做的事情與語言學家所做的非常不同, ” Agnitio 副總裁安東尼奧·莫雷諾說,Agnitio 是一家西班牙公司,生產 Batvox,根據國際刑警組織的資料,Batvox 是使用最廣泛的 ASR 系統。“我們的系統更精確、可測量且可重現:兩個不同的操作員將從系統中獲得相同的結果。”
語言學家不同意。“ARS 的積極方面是它需要較少的人工輸入……消極方面是倒譜系數反映了人類聲道的幾何形狀,但我們彼此之間並沒有太大的不同,因此係統傾向於產生誤報,”約克大學的彼得·弗倫奇說,他是國際法庭語音學與聲學協會 (IAFPA) 的主席,也是英國主要的法庭語音學公司 JP French Associates 的主管。“我認為自動化系統應與人工干預相結合,”弗倫奇說。
其他專家對他們的批評更為極端:“目前,ASR 沒有足夠的理論基礎來證明其在現實生活案例中的使用是合理的,”奧地利科學院的聲學科學家西爾維亞·穆斯穆勒說。懷疑的主要原因之一是,大多數 ASR 演算法都是在美國國家標準與技術研究院 (NIST) 的語音資料庫上進行訓練和測試的。該資料庫是國際標準,但它僅包含錄音室錄製的語音,這些語音未能接近現實生活的複雜性,說話者使用不同的語言、交流方式、技術渠道等等。
“事實上,該程式建模的不是聲音,而是一個會話,由聲音、通訊通道和其他變數組成,”莫雷諾說。起初,語音驗證分析師試圖複製錄製語音的背景。但大約 10 年前,他們改變了方法,轉而採用演算法來減少錄音條件的影響,稱為補償技術。“在 NIST 資料庫中,同一個說話者透過許多不同的通道進行錄音,許多不同的說話者透過同一個通道進行錄音”,莫雷諾解釋道。“補償技術在這個資料集上進行了測試,使我們能夠將說話者的特徵與會話的特徵區分開來。”換句話說,使用這種方法訓練的程式應該能夠識別兩個不同電話中的同一個說話者,例如一個透過固定電話撥打,另一個透過手機撥打。
莫雷諾認為,自動說話人識別“已經完全準備好產生有效的結果,並提高法庭評估的可靠性”。然而,他承認 ASR “是專家可用的眾多技術之一,這些技術相互補充:更先進的實驗室擁有跨學科團隊。”
ASR 的主要問題可能不在於軟體本身,而在於使用它的人。“這需要一位語音科學家。你不能只是把任何操作員放在電腦前……這些程式就像飛機:你可以在一天內買一架飛機,但你不能在三週內學會如何駕駛,”荷蘭法庭研究所的迪迪埃·梅烏利說。然而,公司儘可能多地銷售,他們最終將軟體賣給不精通法庭語音匹配的客戶,加拿大阿爾伯塔大學的語言學教授傑弗裡·斯圖爾特·莫里森說。Agnitio 提供為期三年的課程,但到目前為止,數百名 Batvox 使用者中只有 20% 到 25% 完成了該課程。Batvox 工具的成本可能高達 10 萬歐元。
需要現代統計分析
無論採用何種分析方法,法庭語音學都面臨著更深層次的科學問題。總體而言,該學科尚未經歷資料統計方法的正規化轉變,而更先進的技術,如法庭 DNA 檢測,已經採用了這種轉變:轉向貝葉斯統計。
莫里森提出了這種方法的一個例子,他是法庭語音學中貝葉斯統計的旗手,也是國際刑警組織研究的合著者。“想象一下,我們在犯罪現場發現了一個 9 碼的鞋印,而我們有一個穿 9 碼鞋的嫌疑人。在另一個案例中,我們發現了一個 15 碼的鞋印,而嫌疑人穿 15 碼的鞋。在第二種情況下,對嫌疑人的證據更充分,因為 15 碼比 9 碼更不常見,”莫里森說。換句話說,僅僅測量兩個鞋印(或兩個聲音,或兩個 DNA 樣本)之間的相似性是不夠的。分析師還必須考慮到這些腳印(或聲音,或 DNA)的典型程度。
對於聲音,問題可以表述如下:如果嫌疑人和罪犯是同一個人,那麼兩種聲音之間相似的可能性有多大?如果他們不是同一個人,那麼相似的可能性有多大?這兩個機率的比率稱為似然比或證據強度。證據強度越高(例如,對於非常相似且非常非典型的聲音),證據就越有力。
較高或較低的似然比可以增加或減少有罪的可能性,但機率也取決於其他線索和證據,包括法庭證據和非法庭證據。正如貝葉斯統計的典型特徵,機率不是一勞永逸地計算出來的,而是隨著新證據的發現而不斷調整的。
在 2015 年 6 月釋出的法庭科學指南中,歐洲法庭科學研究所網路建議使用貝葉斯框架,特別是似然比。然而,根據國際刑警組織的報告,在接受調查的 44 位專家中,只有 18 位進行了轉換。
一個嚴重的障礙妨礙了貝葉斯統計的應用:很難估計聲音的典型程度,因為沒有關於語音特徵分佈的統計規範。“如果您有 200 萬個指紋的資料庫,您可以對估計的可靠性非常有信心,但語音資料庫要小得多,”保羅尼說。例如,英國使用的 DyViS 資料庫包含 100 位男性說話者,其中大多數人在劍橋接受過教育。莫雷諾確信,一些未公開的警察資料庫包含數千個聲音,而一些組織擁有包含數十萬說話者的資料庫。
“在大資料時代,最合理的做法是建立一個包含大量資料的語料庫,模仿提供線上服務的平臺,”保羅尼說。鑑於沒有類似的東西,莫里森的秘訣是根據人口統計特徵(性別、語言、方言等)和說話風格(疲倦、興奮、睏倦)等,收集每個案例相關人群中說話者的錄音。然而,問題在於,“許多實驗室表示他們沒有任何型別的資料庫,”馬德里自治大學的科學家丹尼爾·拉莫斯說,他也與西班牙警察部隊國民警衛隊合作。
我們對法庭語音學最新技術的調查顯示了語音識別科學的一些侷限性,並表明應極其謹慎地考慮其應用結果。“在我看來,不應該有人因為聲音而被判刑,”保羅尼總結道。“In dubio pro reo——當有疑問時,應有利於被告。對於聲音,出錯的可能性太高,法官永遠無法宣告某人有罪,且‘排除合理懷疑’。”
本文最初發表於《Le Scienze》,經許可翻譯和改編。它的開發得到了 Journalismfund.eu. 的支援。
進一步閱讀
國際刑警組織關於執法機構使用說話人識別的調查。 Morrison G. S., Sahito F. H., Jardine G., Djokic D., Clavet S., Berghs S.,Goemans Dorny C., in 國際法庭科學, Vol. 263, pp. 92-100, Junev2016. http://dx.doi.org/10.1016/j.forsciint.2016.03.044.
法庭說話人識別。 Meuwly D., in Wiley 法庭科學百科全書, 2009.
解釋證據:評估法庭上的法庭科學。 Robertson B., Vignaux G.A., John Wiley and Sons, 1995.
聽見聲音網站,包含案例、技術和立法:http://formicablu.github.io/hearingvoices/en.
