
人工智慧在聽起來像人方面已經好得驚人
合成聲音已經變得無處不在。它們早上為我們提供方向指引,白天引導我們完成電話通話,晚上在智慧揚聲器上播放新聞。而且隨著用於製造它們的技術的進步,這些聲音變得越來越像人聲。這是合成語音的最後前沿:不僅複製我們所說的內容,而且複製我們說話的方式。
Rupal Patel 領導著東北大學的一個研究小組,研究語音韻律——我們用來透過聲音傳達意圖和情感的音高、響度和持續時間的變化。“有時人們認為它像是錦上添花,”她解釋說。“你有了資訊,現在是如何調節該資訊,但我真的認為它是賦予資訊本身意義的支架。”
Patel 說,她對韻律產生興趣是在發現它是語音交流中唯一似乎可供某些嚴重言語障礙患者使用的元素之後。這些患者即使不能清晰說話,也能夠發出富有表現力的聲音。2014 年,Patel 創立了一家公司,為不會說話的個人構建定製的合成聲音。VocaliD 此後已擴充套件到商業品牌和影響者。
多年來,合成語音已經取得了長足的進步。Siri 九歲了,是最老的虛擬助手——但在會說話的機器世界裡,她還是個嬰兒。人們至少從 18 世紀就開始嘗試合成語音,當時一位奧匈帝國發明家建造了一個粗糙的人類聲道複製品,它可以表達完整的短語(儘管是單調的)。
當前的機器學習技術可以模擬人類語音,包括尷尬的停頓和咂嘴聲。儘管如此,對於大多數現實世界的系統來說,每秒數千個樣本的訓練成本仍然過高。包括 VocaliD 的研究人員在內的研究人員正在不斷實施更新、更有效的方法。
但即使人類語音和合成語音之間剩餘的差距正在穩步縮小,真正逼真的韻律仍然讓最複雜的系統難以捉摸。也許仍然缺少的東西要求機器不僅要模仿人類,還要像我們一樣感受。











