關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
如今,給一家大公司打電話,您可能會首先與計算機進行對話。直到最近,這種自動電話語音系統還只能將預先錄製的短語串在一起。想想機器人般的聲音“您撥打的號碼... 5 ... 5 ... 5 ... 1 ... 2 ... 1 ... 2 ...”。不幸的是,這種生硬的計算機語音讓人感到冷淡。而且由於這些系統無法偏離其預設的短語,因此它們的能力受到限制。
在過去十年中,計算機生成的語音得到了改進,變得更加清晰易懂且更易於收聽。但是研究人員現在面臨著一個更加艱鉅的挑戰:使合成語音更接近真人語音——例如,透過賦予其調節音調和表情的能力——以便它可以更好地傳達意義。這個難以實現的目標需要深入瞭解語音的組成部分以及人的音量、音高、 timing 和強調的細微影響。這是我們在 IBM 的研究小組以及其他美國公司(例如 AT&T、Nuance、Cepstral 和 ScanSoft)以及包括卡內基梅隆大學、加州大學洛杉磯分校、麻省理工學院和俄勒岡研究生院等機構的研究人員的目標。與早期的短語拼接方法一樣,最新一代的語音技術——我們的版本代號為 IBM Natural Expressive Speech Synthesizer,或 NAXPRES Synthesizer——基於人類說話者的錄音,並且可以即時響應。不同之處在於,新系統可以說任何話——包括錄音說話者從未說過的聽起來自然的詞語。