在2006年羅傑·艾伯特因癌症手術後的氣管切開術而失去說話能力後,這位影評人透過便利貼、富有表現力和幽默的手勢以及他的Mac筆記型電腦合成器進行交流。2009年在他年度電影節上朗讀預先輸入介紹的版本帶有英國人可能稱之為“柔和”的上流社會英語口音。艾伯特和他的妻子查茲稱之為“勞倫斯爵士”,此後不久便將其替換為一個更易於接受的美國口音的聲音,稱為“亞歷克斯”。明年,艾伯特的聲音可能會更像他自己,這要歸功於愛丁堡公司CereProc(腦處理的縮寫,發音為“serra-prock”)正在進行的個性化語音工作。
艾伯特大量的媒體錄音——尤其是長期播出的電視連續劇《電影評論》——讓許多人提出了類似的想法。在他的自傳《人生如戲:回憶錄》(Grand Central Publishing)中,該書於9月13日發行,艾伯特說成本太高,直到他發現專門研究地區口音的CereProc公司為其他人建立了個性化語音。該公司從找到的音訊樣本構建的喬治·W·布什和阿諾德·施瓦辛格的網路版本似乎很有希望。
構建語音合成器的傳統方法(單元選擇)涉及精確轉錄數小時的錄音,並將其分解為工程師稱為“音素”的小片段,這些片段可以以不同的組合重新拼接在一起。然而,拼接並不總是平滑的,會產生可聽見的偽影。
支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。購買訂閱有助於確保有關當今世界發現和塑造我們世界的有影響力故事的未來。
CereProc的首席技術官馬修·艾利特說:“過去10年裡的很多工程工作都是關於如何阻止這種偽影的。” “一種方法是讓這個人以更無聊的方式說話——當變化較少時,就更容易連線。因此,這不可避免地意味著在傳統的語音合成社群中,聲音聽起來真的很無聊。”對於讀出銀行餘額來說,這足夠了。但他補充說,“如果你想讀出整段文字或更長的段落,它會讓人感到非常疲憊。”
CereProc最棘手的問題是找到好的音訊。單元選擇的技術限制很簡單:輸入垃圾,輸出垃圾。艾伯特在他的電影評論節目中談了很多,但經常被打斷,而且通常在他身後播放電影。他的DVD評論的原聲更好,但他的興奮和投入使得大部分內容無法使用。
艾利特說:“如果他更無聊和愚蠢,情況會更容易。” 其他技術困難源於不同的麥克風、裝置和房間聲音。“你可以在第一個版本中聽到句子中間的變化。”
未來,CereProc希望使個性化合成器具有可擴充套件性,即自動化其建立過程。一種稱為隱馬爾可夫模型語音合成系統 (HTS) 的新方法會建立捕獲的聲音隨時間推移的統計模型,然後反轉該模型以產生語音。艾利特將這個過程比作渲染圖形。
HTS 有幾個優點。它對噪聲和轉錄錯誤具有更高的容忍度,並且需要更少的輸入。
艾利特說:“目前這個系統的問題是,輸出聽起來有點像 1990 年代的合成聲音。” 但他認為語音構建必須更有效率。“我們希望提供一項 Web 服務,讓人們可以錄製自己的聲音並自動獲得聲音,”他說。音訊質量不會那麼好,但對於大多數用途而言,它只需要能夠理解即可。
然而,艾伯特希望獲得廣播質量,這是一個更艱鉅的挑戰,這促使 CereProc 考慮採用一種混合方法,即使用 HTS 模型在儲存的音素中進行選擇,只生成資料庫中缺失或表示不佳的較不常見的音素。
艾利特說:“有像他這樣傑出的人物[作為測試用例]真是太好了,它推動了我們的技術進步,並使其他人更容易看到這是可以做到的。”他內心的工程師被激發了:“我只想解決這個問題。”去年在《奧普拉》節目中首次亮相了一小部分正在進行的工作,但完成版本的日期仍不確定。
鍵入語音所需的時間仍然會阻礙即時對話。艾利特說:“當你意識到你所競爭的物件是一張便利貼時,作為一名工程師,你會真正感到謙卑。”
當艾伯特的新聲音投入使用時,最後一個問題才會得到解答。它會引發“恐怖谷”效應嗎?也就是說,人們對與人類相似程度不正確的機器人產生厭惡感?
艾伯特透過電子郵件說:“我懷疑這是否會成為問題,但如果真是這樣,我很樂意接受。”