生成式人工智慧的進步使得語音合成技術聽起來非常逼真,以至於人們不再能區分自己是在與真人交談還是在與深度偽造交談。如果一個人的聲音未經其同意被第三方“克隆”,惡意行為者可以利用它來傳送他們想要的任何資訊。
這是這項技術的另一面,這項技術可能對建立數字個人助理或虛擬形象很有用。使用深度語音軟體克隆真實聲音時,其潛在的濫用是顯而易見的:合成聲音很容易被濫用來誤導他人。僅僅幾秒鐘的聲音錄音就可以用來令人信服地克隆一個人的聲音。任何經常傳送語音訊息或在答錄機上講話的人都已經向世界提供了足夠多的材料來被克隆。
聖路易斯華盛頓大學麥凱維工程學院的計算機科學家和工程師寧章開發了一種新方法,可以在未經授權的語音合成發生之前阻止它:一種名為 AntiFake 的工具。章於 11 月 27 日在丹麥哥本哈根舉行的計算機協會計算機與通訊安全會議上就此進行了演講。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和想法的具有影響力的故事。
檢測深度偽造的傳統方法只有在損害已經造成後才生效。而 AntiFake 則可以防止將語音資料合成為音訊深度偽造。該工具旨在以其人之道還治其人之身來擊敗數字造假者:它使用與網路犯罪分子用於聲音克隆的技術類似的技術,實際上是為了保護聲音免受盜版和偽造。AntiFake 專案的原始碼文字可免費獲取。
反深度偽造軟體旨在使網路犯罪分子更難獲取語音資料並提取錄音中對語音合成重要的特徵。“該工具使用了一種對抗性人工智慧技術,這種技術最初是網路犯罪分子的工具箱的一部分,但現在我們用它來防禦他們,”章在會議上說。“我們只是稍微弄亂了錄製的聲音訊號,稍微扭曲或擾亂它,使其對人類聽眾來說仍然聽起來正常”——同時使其無法用於訓練聲音克隆。
類似的方法已經存在於網際網路作品的版權保護中。例如,對人眼來說仍然看起來自然的影像可能具有機器無法讀取的資訊,因為影像檔案存在不可見的破壞。
例如,名為 Glaze 的軟體旨在使影像無法使用於大型人工智慧模型的機器學習,並且某些技巧可以防止照片中的面部識別。“AntiFake 確保當我們把語音資料釋出到網上時,犯罪分子很難利用這些資訊來合成我們的聲音並冒充我們,”章說。
正如目前全球範圍內針對公司、基礎設施和政府的自動化網路攻擊增加所見,攻擊方法正在不斷改進並變得更加複雜。為了確保 AntiFake 能夠儘可能長時間地跟上不斷變化的深度偽造環境,章和他的博士生於志遠以這樣一種方式開發了他們的工具,使其經過訓練可以預防各種可能的威脅。
章的實驗室針對五種現代語音合成器測試了該工具。研究人員表示,即使是針對它並非專門設計的未知商業合成器,AntiFake 也實現了 95% 的保護率。章和於還與來自不同人群的 24 名人類測試參與者一起測試了他們工具的可用性。要進行具有代表性的比較研究,還需要進行進一步的測試和更大的測試組。
芝加哥大學計算機科學教授 Ben Zhao 沒有參與 AntiFake 的開發,他說,像所有數字安全系統一樣,該軟體永遠無法提供完全的保護,並且將受到欺詐者持續不斷的創造力的威脅。但是,他補充說,它可以“提高門檻,並將攻擊限制在一小部分擁有大量資源的高度積極的個人。”
“攻擊越困難、越具挑戰性,我們聽到的關於聲音模仿詐騙或深度偽造音訊剪輯在學校被用作欺凌手段的案例就越少。這是這項研究的一個偉大成果,”趙說。
AntiFake 已經可以保護較短的錄音免受冒充,這是網路犯罪分子偽造最常用的手段。該工具的建立者認為,它可以擴充套件到保護更大的音訊文件或音樂免受濫用。目前,使用者必須自己完成此操作,這需要程式設計技能。
章在會議上表示,目的是充分保護錄音。如果這成為現實,我們將能夠利用人工智慧在安全關鍵應用中的一個主要缺點來對抗深度偽造。但是,開發的方法和工具必須不斷適應,因為網路犯罪分子必然會學習並與它們一起成長。
本文最初發表於《Spektrum der Wissenschaft》,經許可轉載。
