如今,您撥打銀行或航空公司的電話,很可能接聽您電話的是預先錄製的聲音,而不是真人。透過將幾個預先錄製的短語串聯在一起,這些系統在成功完成銀行業務或訂票交易方面做得相當不錯。儘管這種拼湊起來的語音聽起來很生硬,但這些系統足以處理主題事先已知的有限交易。但是,由於它們無法偏離預先錄製的短語,因此它們的功能受到限制。
IBM 的合成語音研究人員一直在解決一個更嚴峻的挑戰:讓計算機說出真人能說的任何話,並以自然的聲音說出來。(單擊此處收聽示例。)例如,我們開發了可以“讀取”突發新聞或透過電話大聲朗讀一堆電子郵件的系統。與當前的短語拼接系統一樣,我們的最新系統,稱為 Supervoices,也基於人類說話者的錄音,並且可以即時響應。但不同之處在於,它們可以發出任何聲音——包括原始說話者從未說過的聽起來很自然的詞語。(嘗試在此處鍵入您的短語。)
這項技術的直接用途是什麼?它們包括提供最新的新聞、為殘疾人提供的閱讀機器、汽車語音控制以及透過電話檢索電子郵件——或任何詞彙量大、內容頻繁或不可預測地變化且視覺顯示不實用的系統。未來,Supervoices 可以增強影片和電腦遊戲、手持裝置甚至電影製作。IBM 於 2002 年底釋出了最新一代的商業用途技術。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
與我交談
自 1700 年代後期以來,科學家們就試圖模擬人類語音,當時沃爾夫岡·馮·肯佩倫建造了一臺“說話機”,該機器使用一系列精巧的風箱、簧片、哨子和共鳴室來產生基本的詞語。到 1970 年代,數字計算使得第一代現代文字轉語音系統得以廣泛使用。這些系統的製造商試圖使用相對較少的引數直接對整個語音生成過程進行建模。結果是語音清晰易懂,但聽起來有些像機器人。1990 年代後期,更快的計算機和廉價的資料儲存使得當今最先進的合成語音成為可能。它基於以下前提:語音由有限數量的語言構建塊(稱為音素)組成,並且可以將這些音素排列成新的序列以建立任何單詞。因此,一組說話者說出所有這些構建塊的錄音可以作為一種排字員的案例來組裝語音。
Supervoices 使用這種構建塊模型。雖然我們大多數人認為語言是字母或單詞,但該軟體將其視為一系列音素。英語包含大約 40 個獨特的音素。例如,單詞“please”由四個音素組成:P、L、EE 和 Z。Supervoice 包含每個音素的錄音樣本集合。當要說話時,該軟體會抓取將新詞語拼湊在一起所需的適當樣本。
語音合成從人聲開始,因此我們的團隊通常會試聽數十位說話者,以找到適合給定任務的說話者。我們通常會尋找聲音悅耳、發音清晰且沒有任何明顯的地區口音的人;但有時,我們可能需要其他特徵用於特定的應用,例如合成帶有外國口音的英語或電影中的機器人聲音。獲得角色的人會坐在錄音室裡閱讀幾千個句子,這需要一週多的時間來錄製。之所以選擇這些句子,是因為它們的語音內容多種多樣,以確保我們捕捉到許多不同語境中的所有英語音素的示例。結果是幾千個語音檔案集合。
然後,軟體將書面文字從一系列單詞轉換為音素。該軟體會記錄關於每個音素的感興趣的特徵,例如在它之前和之後出現了哪些音素,或者它是否是句子中的第一個或最後一個音素。它還識別文字中的詞性,例如名詞或動詞。例如,如果說話者讀“Welcome to my home page”,程式會將其翻譯成類似
W¿ EH¿ L¿ K ¿ UH¿ M¿ T¿ OO¿ M¿ I ¿ H¿ OW¿ M¿ P¿ AY ¿ J,
除了其他內容外,還注意到“page”是一個名詞,W 後面跟著 EH,而 J 是短語中的最後一個聲音。
文字處理完成後,就該檢查我們的聲音檔案了。我們測量它們的三個特徵:音高、時序和響度,統稱為韻律。這些引數將幫助我們稍後決定要使用哪個聲音示例來合成給定的短語。音高、時序和響度是不斷變化的目標,它們每時每刻都在變化。您可以將這些測量值視為沿著聲音檔案的一系列註釋。
接下來,使用從語音識別(將語音轉換為文字的聽寫程式)中借鑑的技術,該軟體將每個錄製的音素與其文字對應物相關聯。在音訊和文字對齊後,我們可以檢視錄製的語音檔案,並精確地指出每個音素的開始和結束位置。這至關重要;一旦我們可以定位並標記音素,我們的軟體還可以精確地編輯和編目它們,並將它們放入可搜尋的資料庫中。
我們的資料庫平均包含每個英語音素的 10,000 個錄音樣本。乍一看,這似乎有很多冗餘。但是這些樣本差異很大,因為它們是以不同的音高說出的,並且來自不同的語音環境。例如,讓我們看一下一個音素,即 OO 的聲音,如“smooth”中的 OO。資料庫中的一些 OO 最初後面跟著 L,如“pool”中的 OO,而另一些 OO 最初位於單詞的末尾,如“shampoo”中的 OO。這些區別會改變 OO 的聲音,因此會決定我們以後可以使用它的位置。
擁有所有英語音素的錄音庫是一回事,但是當要合成富有表現力、聽起來自然的句子時,我們需要確定每個語音塊應具有哪些特徵。例如,說話者通常會在停頓之前放慢速度,例如當逗號出現在文字中時。因此,我們需要注意逗號前的聲音的持續時間較長。在逗號之前的語音中,音高也可能較低。我們使用說話者的資料庫來構建一個統計模型,該模型可以推斷出該人在說話時的音高、持續時間和響度上升和下降的一般規律。統計模型會自動學習這些一般規律,並將其應用於以後,使合成語音聽起來更自然。
Supervoices 的實際應用
現在我們已經“構建”了一個系統,讓我們讓 Supervoice 工作。Supervoice 所做的所有處理都在毫秒內發生——速度足夠快,人們可以與計算機進行即時對話。首先,我們將給它一些話說,比如“Can we have lunch today?”。我們必須將單詞轉換為音素(Supervoices 的構建塊),這使我們的句子看起來像這樣
K¿¿ AE¿¿ N¿¿ W¿¿ EE¿¿ H ¿¿ AE¿¿ V¿¿ L ¿¿ UH¿¿ N ¿¿ CH¿¿ T ¿¿ OO ¿¿ D¿¿ AY
Supervoice 注意到該短語的感興趣的特徵,其中包括它是一個問題,第三個詞是一個動詞,並且最後一個詞的第二個音節被強調。
我們將我們記錄的特徵輸入到統計模型中。基於這些特徵,它勾勒出句子應遵循的音高、時序和響度輪廓。例如,該模型應該注意到這是一個是/否問題,並在句末指定一個上升的音高。配備了此輪廓後,我們只需在資料庫中查詢與曲線匹配的音素。我們將音素樣本掛在這個比喻的骨架上。我們應該選擇哪個音素樣本來合成句子的每個部分?我們的句子包含 16 個單獨的音素,具有驚人的 1064(即 10,00016)種可能的排列,太多而無法考慮。因此,我們使用一種稱為動態程式設計的技術來有效地搜尋資料庫並找到最佳匹配。
一旦我們將最佳匹配的音素按行組裝好,剩下的就是平滑處理。儘管我們有很多樣本可供選擇,並且我們已經仔細選擇了它們,但在每個拼接處仍然會存在小的間斷。當相鄰樣本的音高略有偏差時,句子最終會發出跳躍、顫抖的聲音。我們透過強制進行小的音高調整來糾正它,就像木匠打磨一系列粘合的接頭以建立光滑、令人愉悅的表面一樣。我們實際上彎曲了每個音素的音高,使其與相鄰音素的音高相匹配。結果是聽起來流暢的對話語音。
未來方向
我們經常在自己內部爭論文字轉語音技術的聖盃。它是否應該與真人說話者無法區分,就像在圖靈測試中一樣?可能不是。首先,人們不會對他們可能被“欺騙”的想法感到舒服,例如當他們撥打公司的服務中心時。而且,無論如何,在某些情況下,自然的人聲並不是最佳選擇,例如試圖引起您注意以防止您在開車時睡著的語音,或者對於卡通片、玩具以及影片和電腦遊戲,這些角色可能不需要聽起來像人。但是,文字轉語音系統可以完成普通人無法完成的事情,例如像母語人士一樣流利地說幾十種語言,或者在不感到疲倦的情況下背誦整本書。
該技術更好的最終目標可能是:令人愉悅、富有表現力的語音,人們可以長時間舒適地收聽而不會感到費力。或者,也許足夠複雜,可以利用我們從小就培養的社交和溝通技巧。考慮以下示例
呼叫者:“我想要一張週二早上飛往波士頓的機票。”
計算機:“星期二下午我有兩個航班可供選擇。”
如果軟體能夠強調“下午”這個詞,將會極大地簡化交流。來電者會自然理解為上午沒有航班,而計算機是在提供一個替代方案。相反,一個完全沒有表達能力的系統可能會讓來電者認為計算機誤解了他,他很可能會重複請求。
這種表達能力是像Supervoices這樣的技術仍然面臨的最大挑戰,即使它聽起來已經非常接近真人說話。畢竟,軟體並沒有真正理解它在說什麼,因此它可能缺乏你期望從一個八年級學生那裡得到的說話風格上的細微變化,而這個學生可以理解他或她正在閱讀的內容。考慮到人類聲音的無限範圍,我們還有很長的路要走。
安迪·艾倫、艾倫·艾德和約翰·F·皮特雷利在位於紐約州約克鎮高地的IBM T.J. 沃森研究中心工作。艾倫擁有巴德學院的物理學學士學位,並將科學和媒體經驗融入到他的工作中。他曾在弗朗西斯·科波拉的佐伊特洛普工作室和盧卡斯影業的天行者音響公司從事後期製作,併為數十部主要電影錄製和創作音效。他的錄音技巧使他來到IBM,在那裡他為人類語言技術小組錄製了數千種聲音,以模擬人類語音的多種形式。
艾德是一位擁有麻省理工學院博士學位的電氣工程師,自1995年以來一直在IBM人類語言技術小組從事語音識別和語音合成工作;在目前的職位之前,她曾在馬薩諸塞州劍橋市的BBN語言技術小組工作。她的研究興趣包括統計建模、語音識別和語音合成。她在語音識別和語音合成領域發表了許多論文並擁有多項專利。
皮特雷利在麻省理工學院攻讀電氣工程和計算機科學博士學位期間,研究方向包括語音識別和合成。他的研究興趣包括語音合成、韻律、手寫和語音識別、統計語言建模以及識別的置信度建模。在目前的職位之前,他曾在紐約州白原市的NYNEX科技公司的語音技術小組工作了七年,並在IBM筆技術小組擔任研究人員五年。他發表了16篇論文,並擁有兩項專利,另有三項專利正在申請中。