那麼,嗯,谷歌Duplex的聊天並不完全像人類

一位系統科學家剖析了製造一臺能夠欺騙人類,讓他們以為它是我們自己人的機器的複雜性

谷歌的Duplex語音助手上週在該公司的年度I/O開發者大會贏得了掌聲,此前執行長桑達爾·皮查伊演示了這項人工智慧技術自主預訂了一家美髮沙龍和一家餐廳,顯然欺騙了接聽電話的人。但此後,熱情被對計算機冒充人類進行電話呼叫的倫理問題的擔憂所沖淡。對於谷歌、亞馬遜Facebook和其他科技公司來說,這種褒貶不一的反應變得越來越普遍,因為它們在人工智慧的邊界上不斷推進,但這些方式並非總是考慮到消費者的隱私或安全問題。

谷歌Duplex預訂女士理髮的錄音。由谷歌提供


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


Duplex事件也突顯了人類對話的複雜性,以及在模仿自然聲音的機器中複製即時語音的難度。谷歌透過從電話對話中提取資料來訓練語音助手,包括音訊本身,以及諸如一天中的時間和通話目的等背景資訊。這種機器學習過程在某些方面類似於教人工智慧識別和再現影像,這是另一種引起倫理和隱私問題的能力。然而,谷歌已經明確表示,目前Duplex只能被訓練成與人們進行非常具體的口頭交流;它無法處理一般的、開放式的對話。該公司還聲稱,它正在“試驗正確的方法”來告知人們他們正在與Duplex而不是真人通話。

大眾科學 採訪了卡內基梅隆大學語言技術研究所研究語音處理的系統科學家蒂莫·鮑曼,請他解釋如何訓練人工神經網路來識別和再現影像和聲音。鮑曼還分析了谷歌在Duplex方面取得的成就,以及人工智慧進步可能帶來的倫理挑戰。

[以下是採訪的編輯稿。]

能夠生成逼真影像的神經網路和能夠用自然語言進行對話的神經網路之間有什麼區別?

不同的人工神經網路用於訓練不同型別的人工智慧。對於影像,您想要識別物體,理解它們的關係,捕捉風格等等——這些資訊分佈在整個影像上。用於影像的神經網路檢測邊緣以找到影像中物體的形狀,從而掌握正在發生的事情——類似於您的視覺皮層所做的事情。然而,對話是隨著時間推移而發展的,因此您必須瞭解事物是如何演變的。同一個詞在一個位置可能意味著不同的東西,[當]在不同的位置時。

這是影像(卷積神經網路在這方面表現出色)和語音(由可變長度訊號組成)之間的根本區別。像谷歌用來訓練Duplex的迴圈神經網路是處理這些可變長度的一種方法。“迴圈”意味著網路一次分析訊號的小部分——每次10或20毫秒——並將分析結果整合到下一步中,隨著時間的推移逐漸積累資訊。這類似於我們透過將聽到的聲音拼湊在一起,來識別說出的單詞的方式。在影像和語音這兩種情況下,您也可以反向執行網路以產生輸出。在對話中,[網路]必須在理解使用者所說的話和自己說話之間來回切換。

您如何訓練神經網路真正進行對話——而不是指令碼化的單詞交換?

Duplex似乎由多個部分神經網路組成,每個子網路都專注於自然語言的不同方面。例如,一部分負責學習執行特定任務或領域所需的動作——無論是預訂餐廳還是預約理髮。谷歌還表示,它整合了跨所有領域的其他型別的資料,例如填充詞,例如,表達猶豫(“嗯”)或理解(“啊哈”)。這是一個聰明的策略,因為谷歌可以收集和訓練負責[這些表達]的神經網路,使用比訓練特定型別的對話更多的資料。

在建立能夠進行逼真對話的人工智慧時,這些對話表達方式及其時機有多重要?

隨機地在句子中放入像“嗯”這樣的填充詞沒有多大意義。然而,當正確使用時,這種型別的表達實際上可以在對話中發揮重要作用。在谷歌提供的一個例子中,Duplex使用“那麼”這個詞來讓聽眾知道資訊即將到來,並使用“嗯”這個表達來給聽眾一點額外的時間來準備接收這些資訊。人工智慧可能從資料中瞭解到,這是一個放置“嗯”作為標記的好地方——警告聽眾真正傾聽,因為這是資訊將被傳達的時候。這樣,“嗯”不僅僅是一個填充詞,而是在傳達意義。

也就是說,Duplex可能不是戰略性地使用填充詞,而只是將它們新增到合理的位置。Duplex中[似乎]缺失的其他方面是回聲表達,這些表達提供了從聽眾到說話者的重要反饋。如果我在電話裡聽到另一端傳來“嗯哼,嗯哼”的聲音,這有一個非常重要的功能,可以通知我您正在聽,並且理解了——並且我應該繼續說下去。您在Duplex中聽不到任何這些聲音。反饋資訊也必須在精確的時間和低延遲的情況下傳遞;否則會造成尷尬或困惑。這些表達方式可能很微小,但它們可能對對話產生很大的影響。如果人工智慧系統說話太慢,與它互動的人會感到不確定並重復自己,因為他們會認為他們正在交談的人沒有收到訊息。

倫理在對話式人工智慧的發展中佔據什麼位置?

應該進行模擬自然語言對話的研究嗎?當然應該。找出人類語言是如何運作的,這確實很有趣。儘管我們每天都在這樣做,但我們幾乎不知道什麼是重要的,什麼是不重要的。谷歌應該以他們所做的方式進行Duplex研究嗎,用真實的人測試他們的人工智慧,而這些人沒有意識到他們正在與計算機交談?我不知道。當然,谷歌需要關於他們的系統表現如何的輸入,但是讓人們與機器交談而不知道它是機器,顯然存在倫理影響。

隨著人工智慧的改進,這些倫理問題將如何變得更加困難?

在討論人工智慧的倫理問題時,一個將越來越頻繁出現的問題是,人工智慧是否是這項工作的正確工具。例如,在自動駕駛汽車的情況下,解決這個問題非常令人興奮。但是,[解決交通安全和擁堵問題的]方案是自動駕駛汽車嗎?還是公共汽車,可以有效地將人們送到他們想去的地方,並且可能由機器駕駛,也可能不是?當您將自動駕駛技術改進到成為主流時,您現在是否增加了道路上的汽車數量?這是否是社會的正確解決方案?

在[Duplex]安排美髮師預約的情況下,最簡單的解決方案是讓人們的手機更容易透過自動化介面進行預約和更改預約。不涉及人工智慧,只有經典的計算機科學和工程工作——但這將使我的美髮師能夠理髮,而不是整天重新安排預約。

在什麼情況下建立可以與人進行自然對話的人工智慧是有意義的?

簡而言之:對話是目標,而不是可以輕鬆自動化的資訊交換的場合。許多學者已經研究了語音技術在老年人護理中的應用,例如,對抗老年人的孤獨感、智力衰退和互動匱乏。在依靠人工智慧來照顧老年人方面,也存在——甚至更大——倫理問題。但是,老年人護理人工智慧正在被研究的主要原因是人們自己不願意[照顧老年人]。如果有人擔心老年人不得不與機器而不是人互動,答案可能是告訴那個人花更多時間陪伴他們的祖母。如果我們無法透過改變我們的優先事項和行為來解決問題,那麼至少給老年人一臺機器來互動以提高他們的生活質量總比什麼都沒有好。

© .