與機器對話:語音識別軟體的進步,作者:David Pogue

語音識別程式不再是笨拙而徒勞的練習

加入我們的科學愛好者社群!

在過去的幾年裡,語音識別軟體悄然蔓延到我們生活的方方面面。它存在於客戶支援熱線和航空公司預訂系統的另一端。它內置於 Microsoft Windows 中。它是觸控式螢幕手機(如 iPhone 和 Android)的替代文字輸入方法。但讓我們面對現實:大多數使用此軟體的人都希望他們不必使用它。

這是因為語音識別通常是 B 計劃:一種比打字或真正的人工對話稍微好一點的替代方案。公司在其電話系統中使用它,因為它比僱用真人更便宜。許多對著電腦口述的人這樣做是因為他們必須這樣做,也許是因為殘疾。語音識別正在觸控式螢幕手機上興起,因為在螢幕鍵盤上打字既慢又繁瑣。

那麼,要使語音識別不僅僅是一種權宜之計,需要做些什麼呢?我們離《星際迷航》中從不出錯的對話式電腦的理想有多近?


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的有影響力的故事的未來。


好吧,我們正在接近目標。事實證明,經過十年的收購、合併和貪汙醜聞,只剩下一家主要的語音識別公司:Nuance Communications。它銷售適用於 Windows、Macintosh 和 iPhone 的唯一商業聽寫軟體。其技術驅動著奧迪、寶馬、福特和梅賽德斯汽車以及摩托羅拉、諾基亞、三星、Verizon 和 T-Mobile 手機中的語音命令系統。它為聲控玩具、GPS 裝置和自動取款機提供動力,並在 AT&T、美國銀行、CVS 和許多其他公司接聽電話。

Nuance 每年都會發布其消費者聽寫程式的新版本,例如 Dragon NaturallySpeaking。通常它不會新增許多新功能。相反,它將大部分資源用於一個目標:提高準確性。

最初,您必須透過對著麥克風朗讀 45 分鐘的指令碼來訓練這些程式,以便程式可以學習您的聲音。隨著技術的多年改進,訓練時間從 20 分鐘縮短到 10 分鐘,再到 5 分鐘——現在您根本不必訓練軟體。您只需開始聽寫,即可獲得(透過我的測試)99.9% 的準確率。每隔幾頁仍然會錯一個詞,但這令人印象深刻。

語音工程師使用各種技巧來提高準確性。最早的聽寫程式要求您在每個單詞後暫停;該軟體不知道如何區分“their”、“there”和“they’re”。但隨著時間的推移,功能更強大的 PC 處理器使連續語音分析成為可能。如今,我們鼓勵您用更長的短語說話,以便軟體有更多的上下文來分析準確性。

另一個技巧:去年,Nuance 為 iPhone 提供了一個免費的聽寫應用程式,名為 Dragon Dictation。您所說的內容會傳輸到該公司的伺服器,在那裡進行分析,轉換為文字,並在幾秒鐘內傳送回您的螢幕。

但沒有人知道的是,該公司儲存了數百萬個語音樣本,實際上建立了一個巨大的不同聲音、年齡、語調和口音的倉庫,用於測試不同的識別演算法。

所以,是的,技術正在進步。但讀者經常問我:“如果聽寫軟體這麼好,我可以用它來轉錄電話和採訪嗎?”

答案仍然是否定的。除非您對著麥克風說話,沒有背景噪音,最好沒有口音,否則該軟體不太好用。您仍然必須說出所有標點符號(“逗號”),就像這樣(“句號”)。天知道,我們人類彼此理解已經夠困難了;要求計算機完全正確有點過分。難怪今天的聽寫應用程式仍然會犯諸如將“mode import”誤認為“modem port”,將“move eclipse”誤認為“movie clips”,以及將“oak wrap”誤認為——好吧,你懂的。

所以,不,鍵盤不會在我們的有生之年消失。《星際迷航》式的對話式計算仍然遙遙無期。當然,99.9% 的準確率非常好——但在達到 100% 之前,語音識別技術仍然是 B 計劃。

David Pogue 是雅虎科技的首席專欄作家,也是 PBS 多個 NOVA 迷你劇的主持人。

更多作者:David Pogue
《大眾科學》雜誌 第 303 卷 第 6 期這篇文章最初以“與機器對話:語音識別軟體的進步,作者:David Pogue”為標題發表於《大眾科學》雜誌 第 303 卷 第 6 期(
doi:10.1038/scientificamerican122010-5UiTfmesANGuYh3qeb5ehp
© .