雖然透過與智慧手機和其他裝置隨意聊天來互動會非常有用,但實現這種簡單而有意義的來回交流的技術已被證明是難以捉摸的。亞馬遜 Alexa、蘋果 Siri 和谷歌助手等語音控制虛擬助手通常需要使用者做出正式、措辭清晰的請求,同時將自己隔離在背景噪音最小的地方。現有技術還存在無法脫離指令碼的缺點,因為其對話依賴於少量預程式設計的回覆。
開發這些語音助手的公司痛切地意識到自身的缺點。蘋果似乎正在加大力度招聘 Siri 工程師以改進其產品,而谷歌和亞馬遜一直在忙於擴充套件其語音助手執行多項任務的能力——稱為“例程”——只需一個命令。
亞馬遜週四推出了三項 Alexa 改進,將於 5 月底前推出。其中最重要的一項稱為“上下文延續”,這將使 Alexa 能夠回憶起從一個語音請求到另一個語音請求的資訊。一項新的記憶功能將允許使用者透過語音命令儲存和檢索生日、週年紀念日和其他重要資訊。亞馬遜還改進了 Alexa 搜尋和執行新“技能”的能力——“技能”是語音介面相當於智慧手機應用程式的東西。例如,詢問 Alexa 如何去除襯衫上的油漬將啟用“汰漬去汙劑”技能,該技能將指導使用者完成去汙過程。其他技能使 Alexa 使用者只需說幾句話即可檢視其 Capital One 信用卡餘額、獲取開盤價或將葡萄酒與膳食搭配。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。
大眾科學採訪了亞馬遜 Alexa 機器學習應用科學主管 Ruhi Sarikaya,他原定於 週四在法國里昂舉行的 AI 會議的主題演講中宣佈這些訊息。Sarikaya 還將討論語音識別和自然語言處理的改進如何幫助簡化 Alexa,從而使該技術能夠更好地理解使用者的需求。大眾科學詢問了他為什麼語音介面如此難以做好,我們何時可以期望它們得到改進,以及使用者如何更好地保護 Alexa 收集的個人資料的隱私。
[以下是經過編輯的採訪記錄。]
是什麼讓您認為我們正處於語音成為我們與裝置通訊的主要方式的風口浪尖?
想想 1976 年,當時 [蘋果聯合創始人] 史蒂夫·沃茲尼亞剋制造了第一臺帶有顯示器和鍵盤的 PC。快進到今天,人們仍然使用顯示器和鍵盤與他們的大多數裝置互動。即使使用智慧手機,您也需要鍵入或觸控式螢幕幕才能獲得輸出。這是一個問題,因為它實際上使我們無法動彈。即使您可能在四處走動,您的注意力仍然集中在螢幕上。這種情況正在隨著語音而改變——原因有三:小型裝置中計算能力的提高;收集和分析大量資料的能力;以及機器學習的進步,特別是深度學習。這些型別的 AI 演算法正在使語音識別和自然語言理解更加準確。
在使語音介面能夠與消費技術良好配合方面,最大的挑戰是什麼?
在語音識別方面,存在元件級別的挑戰和使用者體驗挑戰。但是,如果條件相對安靜,則非常準確。但是,如果存在背景噪音或多人同時講話,這是我們仍然需要處理的挑戰。您希望能夠在多人同時講話時跟蹤不同的聲音。關於幫助裝置理解自然語言,上下文是關鍵挑戰。如果數字個人助理僅限於少數幾個領域或功能(例如,它專門用於播放音樂),則很容易理解使用者的意圖。再加上篩選有關電影、影片和有聲讀物的資料的責任,突然之間,“播放 X”命令變得模稜兩可。它可能指的是這些類別中的任何內容。
為什麼在與智慧裝置互動時,上下文如此重要?
如果您和我現在正在聊天,我可能會從上次我們談話中延續資訊。我們不需要重複我們之前討論的所有內容,就能進行無縫對話。這對人們來說是很自然的,但對與機器交談來說卻並非如此,目前您必須使用精確的措辭才能被理解。您會期望,如果機器足夠智慧,它將能夠從早期的對話中延續資訊。如果我問,“Alexa,西雅圖的天氣怎麼樣?”,然後我問,“這個週末怎麼樣?”,我希望聽到關於西雅圖這個週末的天氣,而無需在第二個問題中明確說明。如果我問,“Alexa,我今天的日程安排是什麼?”,系統會使用儲存在其日曆中的資訊進行響應。如果我問,“這個週末怎麼樣?”,我希望獲得本週末的日曆資訊,而不是天氣資訊。對於第二個問題,沒有上下文就沒有正確的答案——可能有很多答案。這被稱為“會話上下文”,它允許機器根據當前的對話正確回答問題。
機器如何學習上下文?
您從裝置接收語音命令開始。您無法在 Amazon Echo 上播放影片,因此當用戶要求裝置播放特定標題時,這縮小了裝置的選擇範圍。裝置還會檢視使用者的個人偏好,包括之前的請求以及隨著時間推移向裝置發出的其他命令。這就是機器學習發揮作用的地方。
即使在存在明顯的背景噪音的情況下,如何提高 Alexa 識別語音和理解單詞的能力?
這是一個開放的問題,儘管我們正在取得進展。在過去從事語音技術開發工作後,我可以肯定地說,有幾種不同的方法。一種是專注於清理或去除背景噪音,然後在剩餘的資料上執行語音識別。但是,當您這樣做時,副作用是您可能會刪除一些與語音本身相關的資料。另一種技術是儘可能多地收集特定環境中的聲音,並讓系統對映或識別不同的聲音——無論是背景噪音還是語音。挑戰在於噪音種類繁多,很難識別每種噪音的來源,尤其是在電視開啟時。
亞馬遜如何使用其收集的有關 Alexa 使用者的資訊?
我只能談談 Alexa 的機器學習部分。機器學習依賴於從 Alexa 使用者收集的資料。我們不使用所有這些資料——我們註釋某些型別的資料,以便教導 Alexa 識別不同的聲學線索、音調(男性和女性)和口音。我們的客戶是多樣化的,我們希望 Alexa 能夠識別不同的使用者。我們不能構建一種僅適用於一種聲音的技術。
亞馬遜如何解決人們可能對 Alexa 產生的隱私擔憂?
Alexa 將其擁有的關於使用者的資訊儲存在雲端,而不是裝置本身,例如 Echo 或智慧手機。客戶可以使用 Alexa 應用程式和亞馬遜網站上的 “管理您的內容和裝置” 頁面刪除他們希望 Alexa 忘記的任何資訊。例如,您可以檢視與 Alexa 的語音互動,並透過訪問 Alexa 應用程式中“設定”中的“歷史記錄”來刪除與您的帳戶關聯的特定錄音。
