為什麼 Siri 仍然是未來

語音識別軟體很棒——除非你試圖在手機上使用它

加入我們的科學愛好者社群!

去年,當蘋果公司釋出 iPhone 4S 時,這款新手機看起來和之前的手機一模一樣。它有一個更好的攝像頭和一個更快的晶片,但它只能一件新事:Siri。

現在大家都知道,Siri 是一款語音助手,可以接受口頭指令。無需培訓:只需按住“主頁”按鈕並隨意講話即可。

Siri 點燃了文化世界。YouTube 上出現了惡搞影片、操作指南和安卓手機的模仿應用。評論員提出了在公共場合使用手機的新禮儀,因為現在人們即使在沒有通話時也在對著手機講話。語音識別變得風靡一時;突然,它出現在電視機中,當然也出現在競爭對手的手機中。在炒作的高峰期,看起來我們與小工具互動的方式已經永遠改變了。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


然後——反彈來了。

“Siri 是蘋果公司未能兌現的承諾”,這是科技網站 Gizmodo 的頭條新聞。人們抱怨說,有時你口述了一整段話,手機會思考,然後輸入——什麼都沒有。現在已經有一項集體訴訟,聲稱蘋果公司做了虛假宣告。(據蘋果公司稱,Siri 仍處於測試階段。)

發生了什麼事?Siri,電子產品的救星,怎麼會變成這樣一場鬧劇?

大家都沒有注意到的是 Siri 這個虛擬助手和 Siri 這個語音識別引擎之間的區別。事實證明,這兩個不同的功能在成功率方面有著天壤之別。

Siri 助手部分來自一家名為 Siri 的公司,蘋果公司收購了這家公司。(它是一家從軍事人工智慧專案中分離出來的公司,最終落戶 SRI 研究公司。明白了嗎?)

但是聽寫功能——文字到語音部分——是由 Nuance 公司提供的,該公司為我們帶來了 Dragon NaturallySpeaking 等軟體。

當您聽寫時,您會生成一個音訊檔案,該檔案被傳輸到 Nuance 的伺服器;他們分析您的語音並將文字傳送回您的手機。這就是為什麼當您的網際網路訊號不好或蜂窩網路擁堵時,Siri 可能會表現不佳。(當您使用 Wi-Fi 時,聽寫效果會好得多。)

這種往返於遠端伺服器傳輸資料的要求是 Siri 聽寫才能令人沮喪地不準確的核心原因。

聽寫功能也面臨其他挑戰。不規則的背景噪音、風和嘴巴到麥克風的距離變化都會使在手機上實現完美的轉錄成為一項艱鉅的任務——而且結果遠不如您使用 PC 聽寫軟體獲得的結果準確,PC 聽寫軟體沒有這些困難。使用 Siri(以及安卓手機上甚至不太完善的聽寫功能),您可能每段話都需要糾正兩到三個錯誤。

桌面聽寫軟體的表現要好得多——接近 100% 的準確率——因為它沒有任何這些特殊挑戰。而且在您的 PC 上,您可以訓練軟體僅識別一種聲音:您的聲音。手機上沒有訓練。計算任務非常困難。

批評者有道理。我們已經習慣了每次都能正常工作的消費技術:電子郵件、GPS、數碼相機。然而,依賴蜂窩網際網路的聽寫技術只能勉強工作。而且在當今時代遇到這種情況可能會讓人感到震驚。

但我們不要把 Siri 和髒水一起倒掉。Siri 的“虛擬助手”部分——所有設定鬧鐘、給某人打電話、給某人發簡訊、記錄約會的命令——都執行穩定。即使您只使用“在...叫醒我”、“呼叫”、“簡訊”和“提醒我”等基本命令,您也可以節省時間和笨拙的操作。

自由形式的蜂窩聽寫是一項尚未成熟的技術。但作為控制我們電子裝置的介面,它使語音的未來像一年前 Siri 承諾的那樣光明。

只需等待她走出測試階段。

大眾科學線上
提高 Siri 語音識別率的八種方法:ScientificAmerican.com/aug2012/pogue

© .