早在2010年,當時在國家公共廣播電臺工作的馬特·湯普森在一篇專欄文章中預測,“在不久的將來,自動語音轉錄將變得快速、免費且體面。”他將那個時刻稱為“Speakularity”,這是對發明家雷·庫茲韋爾關於“奇點”願景的巧妙引用,在奇點中,我們的思想將被上傳到計算機中。湯普森預測,獲得可靠的自動語音識別 (ASR) 軟體將改變記者、律師、營銷人員、聽力障礙人士以及所有處理口語和書面語言的人的工作。
由於渴望任何能夠將我從採訪期間即時打字記錄的繁瑣過程中解放出來的技術,我被湯普森的預測深深吸引。但是,雖然他在廣播領域的輝煌職業生涯仍在繼續(他現在是調查報道中心的首席編輯,包括其節目Reveal),但“Speakularity”似乎仍然遙遙無期。
當然,已經取得了重要的進展。包括 Otter、Sonix、Temi 和 Trint 在內的幾家初創公司提供線上服務,允許客戶上傳數字音訊檔案,並在幾分鐘後收到計算機生成的文字稿。在我的音訊製作人生活中,我每天都使用這些服務。它們的速度不斷提高,成本不斷下降,這很受歡迎。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
但是準確性是另一回事。 2016 年,微軟研究院的一個團隊宣佈,它已經訓練其機器學習演算法,從標準的錄音語料庫中轉錄語音,準確率高達 94%。在微軟的測試中,專業的真人轉錄員的表現並不比該程式好,這導致媒體慶祝語音識別中人類和軟體之間“平價”的到來。
問題是,最後的 6% 帶來了很大的不同。我可以根據痛苦的經驗告訴你,清理一份準確率達 94% 的文字稿,可能幾乎與手動轉錄音訊花費的時間一樣長。而且,在突破四年後,Temi 等服務仍然聲稱準確率不超過 95%——而且這僅適用於清晰、無口音的語音錄音。
為什麼準確性如此重要?好吧,舉一個例子,越來越多的音訊製作人(包括我自己)正在遵守網際網路可訪問性指南,釋出他們播客的文字稿——沒有人想分享一份每 20 個單詞中就包含一個錯誤的文字稿。想想如果 Alexa、Bixby、Cortana、Google Assistant 和 Siri 等語音助手每次都能理解每一個問題或命令,人們可以節省多少時間。
ASR 系統可能永遠無法達到 100% 的準確率。畢竟,即使在母語中,人類也並非總是能流利地說話。語音充滿了同音異義詞,理解總是取決於上下文。(我見過轉錄服務將“iOS”渲染為“ayahuasca”,將“your podcast”渲染為“your punk ass”。)
但我所要求的只是 1% 或 2% 的準確率提高。在機器學習中,降低演算法錯誤率的主要方法之一是為其提供更高質量的訓練資料。因此,對於轉錄服務來說,找出以隱私友好的方式收集更多此類資料至關重要。例如,每次我清理 Trint 或 Sonix 文字稿時,我都在生成新的、經過驗證的資料,這些資料可以與原始音訊匹配,並用於改進模型。如果這意味著隨著時間的推移錯誤會減少,我很樂意讓公司使用它。
獲得此類資料無疑是通往“Speakularity”的途徑之一。鑑於我們每天與機器進行的對話數量不斷增加,以及建立的音訊數量不斷增加,我們不應再將像樣的自動轉錄視為奢侈品或願望。這絕對是必需品。
