即使是最自然的電腦合成聲音——無論是蘋果的 Siri 還是亞馬遜的 Alexa——聽起來仍然像電腦。位於蒙特利爾的初創公司 Lyrebird 正試圖改變這種狀況,他們開發了一種人工智慧系統,透過分析語音錄音和相應的文字記錄,以及識別它們之間的關係,來學習模仿人的聲音。Lyrebird 的語音合成技術於上週推出,每秒可以生成數千個句子——速度明顯快於現有方法——並且可以模仿幾乎任何聲音,這一進步引發了關於該技術可能被如何使用和濫用的倫理問題。
生成自然發聲的語音長期以來一直是計算機程式將文字轉換為口語的核心挑戰。人工智慧 (AI) 個人助理,如 Siri、Alexa、微軟的 Cortana 和 Google Assistant,都使用文字轉語音軟體來建立更方便的使用者介面。這些系統的工作原理是將來自特定聲音的預錄檔案中的單詞和短語拼接在一起。切換到不同的聲音——例如讓 Alexa 聽起來像個男人——需要一個新的音訊檔案,其中包含裝置可能需要與使用者交流的每個可能的單詞。
Lyrebird 的系統可以透過收聽數小時的口語音訊來學習任何聲音中字元、音素和單詞的發音。從那裡,它可以推斷生成全新的句子,甚至新增不同的語調和情感。Lyrebird 方法的關鍵是人工神經網路——它使用旨在幫助它們像人腦一樣運作的演算法——它依賴於深度學習技術將聲音片段轉換為語音。神經網路接收資料,並透過加強分層神經元樣單元之間的連線來學習模式。
支援科學新聞事業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的具有影響力的故事。
在學習如何生成語音後,該系統可以僅基於某人一分鐘的語音樣本來適應任何聲音。“不同的聲音共享大量資訊,”Lyrebird 的聯合創始人 Alexandre de Brébisson 說,他是蒙特利爾大學蒙特利爾學習演算法實驗室的博士生。“在學習了幾位說話者的聲音之後,學習一個全新的說話者的聲音要快得多。這就是為什麼我們不需要那麼多資料來學習一個全新的聲音。更多的資料肯定會有幫助,但一分鐘足以捕捉到很多聲音的‘DNA’。”
Lyrebird 展示了其系統,使用了美國政治人物唐納德·特朗普、巴拉克·奧巴馬和希拉里·克林頓的聲音,合成了一段關於這家初創公司本身的對話。該公司計劃將該系統出售給開發人員,用於廣泛的應用,包括個人 AI 助手、有聲讀物旁白和殘疾人士的語音合成。
去年,谷歌旗下的公司 DeepMind 公佈了其自己的語音合成系統,名為 WaveNet,該系統透過收聽數小時的原始音訊來學習,以生成類似於人聲的聲波。然後,它可以用類似人聲的聲音朗讀文字。Lyrebird 和 WaveNet 都使用深度學習,但底層模型不同,de Brébisson 說。“Lyrebird 在生成時間上明顯快於 WaveNet,”他說。“我們可以在一秒鐘內生成數千個句子,這對於即時應用程式至關重要。Lyrebird 還增加了快速複製聲音的可能性,並且與語言無關。”《大眾科學》聯絡了 DeepMind,但被告知 WaveNet 團隊成員無法置評。
然而,Lyrebird 的速度是有代價的。Timo Baumann 是一位在卡內基梅隆大學語言技術研究所從事語音處理研究的研究員,他沒有參與這家初創公司,他指出 Lyrebird 生成的聲音帶有嗡嗡聲和微弱但明顯的機器人光澤。此外,它不會生成呼吸聲或嘴部運動聲,這些聲音在自然說話中很常見。“像咂嘴聲和吸氣聲在對話中很重要。它們實際上帶有含義,並且可以被聽眾觀察到,”Baumann 說。他補充說,這些缺陷使得可以將計算機生成的語音與真實語音區分開來。他補充說,技術還需要幾年才能達到能夠即時令人信服地複製聲音的程度。
儘管如此,對於未經訓練的耳朵和毫無戒心的人來說,AI 生成的音訊片段可能看起來是真實的,從而引發關於冒充的倫理和安全擔憂。這種技術也可能混淆和破壞基於語音的驗證系統。另一個擔憂是,它可能使在法庭上用作證據的語音和影片錄音變得不可用。一種可以用來快速操縱音訊的技術甚至會質疑直播中即時影片的真實性。在假新聞時代,它只會加劇識別資訊來源的現有問題。“可能仍然可以找出音訊何時被篡改,”Baumann 說,“但我不認為每個人都會檢查。”
配備類似人聲的系統的也可能構成不太明顯但同樣成問題的風險。例如,使用者可能比他們應該的更信任這些系統,洩露個人資訊或接受來自裝置的購買建議,將其視為朋友而不是屬於公司並服務於其利益的產品。“與文字相比,聲音對我們來說更加自然和親切,”Baumann 說。
Lyrebird 承認這些擔憂,並在公司網站上的簡短“倫理”宣告中發出了警告。Lyrebird 警告公眾,該軟體可能被用來操縱在法庭上用作證據的錄音,或冒充他人的身份。“我們希望每個人很快都會意識到這種技術的存在,並且複製他人的聲音是可能的,”該網站稱。
正如人們已經瞭解到在 Photoshop 時代照片不能完全信任一樣,他們可能需要習慣語音可以偽造的想法。哈佛大學肯尼迪政府學院的 सुरक्षा 技術專家和講師 Bruce Schneier 說,目前還沒有辦法阻止該技術被用來製作欺詐性音訊。他說,遇到假音訊片段的風險現在已成為“新現實”。
