在網站“無限對話”上,德國電影製作人沃納·赫爾佐格和斯洛維尼亞哲學家斯拉沃熱·齊澤克正在就任何話題進行公開聊天。他們的討論之所以引人注目,部分原因是這些知識分子在說英語時帶有鮮明的口音,並且傾向於使用古怪的詞語。但他們還有另一個共同點:這兩個聲音都是深度偽造的,他們用這些獨特口音說出的文字是由人工智慧生成的。
我構建這個對話是為了發出警告。被稱為機器學習的技術的改進,使得深度偽造——極其逼真但虛假的影像、影片或語音——太容易建立,並且質量太好。與此同時,語言生成人工智慧可以快速且廉價地生成大量文字。這些技術結合起來,不僅可以上演一場無限對話。它們還有能力用大量虛假資訊淹沒我們。
機器學習是一種人工智慧技術,它使用大量資料來“訓練”演算法,使其在重複執行特定任務時得到改進,目前正經歷快速增長階段。這正在將資訊科技的整個領域推向新的水平,包括語音合成,即生成人類可以理解的話語的系統。作為一個對人類和機器之間的模糊空間感興趣的人,我一直覺得這是一個令人著迷的應用。因此,當機器學習的增強功能使語音合成和語音克隆技術在過去幾年中取得了巨大的飛躍——在經歷了漫長的小而漸進的改進歷史之後——我注意到了這一點。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今世界發現和思想的具有影響力的故事的未來。
當我偶然發現一個名為 Coqui TTS 的示範性語音合成程式時,“無限對話”專案開始了。許多數字領域的專案都始於找到以前未知的軟體庫或開源程式。當我發現這個工具包,以及蓬勃發展的使用者社群和大量的文件時,我知道我已經擁有了克隆名人聲音的所有必要要素。
作為赫爾佐格的作品、形象和世界觀的欣賞者,我一直被他的聲音和說話方式所吸引。我絕非孤例,因為流行文化已將赫爾佐格變成了字面意義上的卡通人物:他的客串和合作包括辛普森一家、瑞克和莫蒂和馬達加斯加的企鵝。因此,當要選擇某人的聲音進行試驗時,沒有比他更好的選擇了——特別是因為我知道我將不得不聽那個聲音幾個小時。
為克隆赫爾佐格的聲音構建訓練集是該過程中最容易的部分。在他的採訪、配音和有聲讀物作品之間,有數百小時的語音可以收集起來用於訓練機器學習模型——或者在我的例子中,微調現有的模型。機器學習演算法的輸出通常在“輪次”中得到改進,“輪次”是神經網路接受訓練的週期。然後,該演算法可以在每個輪次結束時對結果進行取樣,從而為研究人員提供材料來審查以評估程式的進展情況。對於赫爾佐格的合成聲音,聽到模型隨著每個輪次的改進,感覺就像見證了一個隱喻性的誕生,他的聲音逐漸在數字領域中變得鮮活起來。
一旦我得到了令人滿意的赫爾佐格聲音,我就開始研究第二個聲音,並直覺地選擇了齊澤克。與赫爾佐格一樣,齊澤克也帶有有趣的口音,在知識界具有重要的影響力,並與電影界有聯絡。他還獲得了大眾明星的地位,部分原因是他的辯論熱情和有時有爭議的觀點。
在這一點上,我仍然不確定我的專案的最終形式是什麼——但我對語音克隆過程的輕鬆和順利感到驚訝。如前所述,深度偽造變得太好太容易製作了。就在今年一月,微軟宣佈了一款名為 VALL-E 的新型語音合成工具,研究人員聲稱,該工具只需三秒鐘的錄音就可以模仿任何聲音。我們即將面臨信任危機,而我們對此毫無準備。
為了強調這項技術產生大量虛假資訊的能力,我決定採用永無止境的對話的想法。我只需要一個大型語言模型——根據兩位參與者撰寫的文字進行微調——以及一個簡單的程式來控制對話的流程,使其感覺自然且可信。
給定一系列單詞,語言模型可以預測序列中的下一個單詞。透過微調語言模型,可以複製特定人員的對話風格,前提是你擁有該人員講話的大量文字記錄。我決定使用一種領先的商業語言模型。那時我突然意識到,生成一個虛假對話(包括其合成語音形式)所需的時間,比聽完它所需的時間還要少。這個認識為我提供了該專案的顯而易見的名稱:“無限對話”。經過幾個月的工作,我在 2022 年 10 月將其釋出在網上。今年,“無限對話”入選舊金山的“錯位博物館”藝術裝置。
當所有部分都到位後,我對專案開始時沒有想到的事情感到驚歎。就像他們在現實生活中的角色一樣,我的赫爾佐格和齊澤克聊天機器人版本經常談論哲學和美學。由於這些主題的深奧性質,聽眾可以暫時忽略模型生成的偶爾的胡言亂語。例如,人工智慧齊澤克對阿爾弗雷德·希區柯克的看法在認為這位著名導演是天才和憤世嫉俗的操縱者之間搖擺不定;在另一個不一致之處中,真正的赫爾佐格出了名的討厭雞,但他的 AI 模仿者有時會充滿同情心地談論家禽。由於實際的後現代哲學可能會顯得混亂——齊澤克本人也指出了這個問題——因此“無限對話”中缺乏清晰度可以被解釋為深刻的歧義。
這可能促成了該專案的成功。“無限對話”的數百名訪客收聽時間超過一個小時,有些人收聽時間更長。正如我在網站上提到的,我對“無限對話”訪客的希望是他們不要太認真地對待聊天機器人所說的話。相反,我想讓人們意識到這項技術及其後果。如果這種人工智慧生成的聊天聽起來是合理的,請想象一下,聽起來逼真的演講可能會被用來玷汙政治家的聲譽、欺騙商業領袖,或者僅僅是用聽起來像人類報道的新聞的虛假資訊來分散人們的注意力。
但也有光明的一面。“無限對話”的訪客可以加入越來越多的聽眾行列,他們報告說,他們使用沃納·赫爾佐格和斯拉沃熱·齊澤克舒緩的聲音作為一種白噪音來幫助入睡。這是我支援的這項新技術的一種用法。

