如何構建具有同理心的機器人

在我們能夠與機器分享生活之前,我們必須教會它們理解和模仿人類情感

“抱歉,我沒聽清您說什麼。”

這可能是商業機器發出的第一個具有同理心的語句。在 20 世紀 90 年代後期,波士頓公司 SpeechWorks International 開始向各公司提供客戶服務軟體,該軟體被程式設計為使用這句話和其他語句。從那時起,我們已經習慣於與機器對話。幾乎每一個撥打客戶服務熱線的電話都始於與機器人的對話。數億人隨身攜帶智慧個人助理。我們可以要求 Siri 和其他此類助手查詢餐廳、給朋友打電話或查詢要播放的歌曲。它們能夠模擬令人毛骨悚然的人類行為。(人類:“Siri,你愛我嗎?” Siri:“我沒有愛的能力。”)

但是,機器並不總是以我們期望的方式回應。語音識別軟體會出錯。機器經常無法理解意圖。它們不理解情感和幽默、諷刺和反諷。如果未來我們將花費更多時間與機器互動——而且我們會的,無論它們是智慧吸塵器還是機器人人形護士——我們需要它們做的不僅僅是理解我們所說的話:我們需要它們理解我們。換句話說,我們需要它們“理解”並分享人類情感——擁有同理心。


支援科學新聞業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續產出關於塑造我們當今世界的發現和想法的有影響力的報道。


在我在香港科技大學的實驗室裡,我們正在開發這樣的機器。具有同理心的機器人可以為社會提供巨大幫助。它們不僅僅是助手——它們將是夥伴。它們將是友好和熱情的,能夠預測我們的身體和情感需求。它們將從與人類的互動中學習。它們將使我們的生活更美好,工作更有效率。它們會為自己的錯誤道歉,並在繼續操作之前請求許可。它們將照顧老人和教育我們的孩子。它們甚至可能在危急情況下拯救您的生命,同時犧牲自己——這是一種終極的同理心行為。

一些模仿情感的機器人已經上市——包括 Pepper,這是一款由法國公司 Aldebaran Robotics 為日本公司軟銀移動製造的小型人形夥伴機器人,以及 Jibo,這是一款由一群工程師設計的六磅重桌面個人助理機器人,其中包括 SpeechWorks 前對話技術主管 Roberto Pieraccini。同理心機器人技術領域仍處於蒸汽機時代,但將顯著改進這些機器的工具和演算法正在湧現。

同理心模組

六年前,當我的研究小組設計出第一個中文版 Siri 時,我對構建具有同理心的機器人產生了興趣。我發現使用者對個人助理系統產生情感反應是多麼自然——以及當他們的機器未能理解他們想要表達的內容時,他們變得多麼沮喪。我意識到,構建能夠理解人類情感的機器的關鍵是語音識別演算法,就像我花費 25 年職業生涯開發的那些演算法一樣。

任何智慧機器的核心都是一個軟體系統,該系統由模組組成,每個模組都是一個執行單一任務的程式。一個智慧機器人可以有一個處理人類語音的模組,一個識別其攝像機捕獲的影像中的物體的模組,等等。一個具有同理心的機器人有一顆心,而這顆心是一段名為同理心模組的軟體。同理心模組分析面部線索、語音中的聲音標記和語音內容本身,以讀取人類情感並告訴機器人如何回應。

當兩個人相互交流時,他們會自動使用各種線索來理解對方的情緒狀態——他們解釋面部表情和肢體語言;他們感知語氣的變化;他們理解語音的內容。構建同理心模組就是識別機器可以用來識別情感的人類溝通特徵,然後訓練演算法來發現它們。

當我的研究小組著手訓練機器檢測語音中的情感時,我們決定教機器識別語音的基本聲學特徵以及詞語本身的含義,因為人類就是這樣做的。我們很少用這些術語來思考它,但人類交流是訊號處理。我們的大腦透過關注指示壓力、快樂、恐懼、憤怒、厭惡等的聲音線索來檢測人聲音中的情感。當我們感到快樂時,我們說話速度更快,聲音的音調也會升高。當我們感到壓力時,我們的聲音會變得平淡而“乾澀”。使用訊號處理技術,計算機可以檢測到這些線索,就像測謊儀可以檢測到血壓、脈搏和皮膚電導率一樣。為了檢測壓力,我們使用監督學習來訓練機器學習演算法,以識別與壓力相關的聲音線索。

一段簡短的人類語音錄音可能只包含幾個詞,但我們可以從語調中提取大量訊號處理資料。我們首先教機器識別來自我校學生的語音樣本中的負面壓力(痛苦),我的學校被學生們戲稱為“香港科技大學壓力與緊張大學”。透過詢問學生 12 個越來越有壓力的問題,我們構建了第一個英語、普通話和粵語的自然壓力情感多語言語料庫。當我們收集到大約 10 個小時的資料時,我們的演算法可以準確識別出 70% 的壓力——與人類聽眾非常相似。

當我們在做這項工作時,我團隊中的另一個小組正在訓練機器僅透過分析聲音特徵來識別音樂中的情緒(即,不關注歌詞)。情緒與情感相反,是一種持續在播放音樂期間的氛圍。該團隊首先從歐洲和亞洲主要語言的所有流派中收集了 5,000 首音樂作品。其中幾百首作品已經被音樂學家分為 14 種情緒類別。

我們從每首歌曲中電子提取了大約 1,000 個基本訊號屬性——聲學引數,如能量、基頻、諧波等——然後使用標記的音樂來訓練 14 個不同的軟體“分類器”,每個分類器負責確定一段音樂是否屬於特定情緒。例如,一個分類器只聽快樂的音樂,另一個分類器只聽憂鬱的音樂。這 14 個分類器協同工作,建立在彼此的猜測之上。如果一個“快樂”分類器錯誤地認為一首憂鬱的歌曲是快樂的,那麼在下一輪重新學習中,這個分類器將被重新訓練。在每一輪中,最弱的分類器都會被重新訓練,整個系統都會得到提升。透過這種方式,機器會聽很多音樂,並學習哪首音樂屬於哪種情緒。久而久之,它就能像我們大多數人一樣,僅透過聽音訊來判斷任何音樂的情緒。基於這項研究,我和以前的學生創辦了一家名為 Ivo Technologies 的公司,為人們在家中使用構建具有同理心的機器。第一款產品 Moodbox 將是一個智慧家居資訊娛樂中心,它可以控制每個房間的音樂和照明,並對使用者的情緒做出反應。

理解意圖

為了理解幽默、諷刺、反諷和其他高層次的溝通屬性,機器需要做的不僅僅是從聲學特徵中識別情感。它還需要理解語音的潛在含義,並將內容與傳遞情感的方式進行比較。

自 20 世紀 80 年代以來,研究人員一直在利用從人類收集的資料開發先進的語音識別技術,如今這項技術已經相當成熟。但是,轉錄語音和理解語音之間存在巨大差異。

想想當一個人對另一個人說話時發生的一系列認知、神經和肌肉事件:一個人構思她的想法,選擇她的詞語並說話,然後聽者解碼資訊。人與機器之間的語音鏈是這樣的:語音波被轉換為數字形式,然後再轉換為引數。語音識別軟體將這些引數轉換為詞語,語義解碼器將詞語轉換為意義。

當我們開始對具有同理心的機器人進行研究時,我們意識到類似於從線上評論中提取使用者情緒的演算法可以幫助我們分析語音中的情感。這些機器學習演算法會在內容中尋找明顯的線索。諸如“悲傷”和“恐懼”之類的關鍵詞暗示著孤獨。重複使用明顯的口語詞(例如,“拜託”)可以揭示一首歌是充滿活力的。我們還分析有關語音風格的資訊。一個人的回答是肯定而清晰,還是猶豫不決,充滿了停頓和含糊不清的詞語?回答是詳盡而詳細,還是簡短而生硬?

在我們對音樂情緒識別的研究中,我們訓練演算法挖掘歌詞中的情感線索。我們沒有提取每首音樂的音訊簽名,而是從歌曲的歌詞中提取詞串,並將它們輸入到各個分類器中,每個分類器負責確定這個詞串是否傳達了 14 種情緒中的任何一種。這種詞串被稱為 n-gram。除了詞串之外,我們還使用這些詞的詞性標記作為歌詞“簽名”的一部分,用於情緒分類。計算機可以使用 n-gram 和詞性標記來形成任何語言中語法規則的統計近似值;這些規則幫助 Siri 等程式識別語音,並幫助 Google 翻譯等軟體將文字轉換為另一種語言。

一旦機器能夠理解語音的內容,它就可以將內容與其傳遞方式進行比較。如果一個人嘆了口氣說:“我很高興我整個週末都要工作”,演算法可以檢測到情感線索和陳述內容之間的不匹配,並計算說話者是否在諷刺的可能性。同樣,能夠理解情感和語音內容的機器可以將該資訊與其他輸入配對,以檢測更復雜的意圖。如果有人說“我餓了”,機器人可以根據其位置、一天中的時間和使用者的歷史偏好以及其他引數來確定最佳響應。如果機器人及其使用者在家,並且快到午餐時間了,機器人可能會知道回應:“您想讓我為您做個三明治嗎?”如果機器人及其使用者正在旅行,機器可能會回應:“您想讓我幫您查詢餐廳嗎?”

超級女孩 Zara

今年年初,我實驗室的學生和博士後研究人員開始將我們各種語音識別和情感識別模組組合成一個原型同理心機器,我們稱之為超級女孩 Zara。訓練 Zara 花費了數百小時的資料,但今天該程式可以在一臺臺式計算機上執行。目前,她是一個虛擬機器人,在螢幕上以卡通人物的形式呈現。

當您開始與 Zara 對話時,她會說:“請稍候,我正在分析您的面部表情”;Zara 的演算法會研究計算機網路攝像頭捕獲的影像,以確定您的性別和種族。然後她會猜測您說的語言(Zara 理解英語和普通話,並且正在學習法語),並用您的母語問您幾個問題。您最早的記憶是什麼?告訴我關於您母親的事。您上次假期過得怎麼樣?給我講一個關於女人、狗和樹的故事。透過這個過程,根據您的面部表情、您聲音的聲學特徵以及您回答的內容,Zara 會以模仿同理心的方式回覆。經過五分鐘的對話,Zara 會嘗試猜測您的性格,並詢問您對具有同理心的機器的態度。這是我們收集人們對他們與早期同理心機器人互動反饋的一種方式。

Zara 只是一個原型,但由於她是基於機器學習演算法的,因此她會隨著與更多人的互動和收集更多資料而變得“更聰明”和更具同理心。目前,她的知識庫僅基於與我實驗室研究生的互動。明年我們計劃透過將 Zara 安裝到人形機器人中來賦予她身體。

現在說友好機器人的時代已經到來還為時過早。我們才剛剛開始開發情感智慧機器人所需的最基本工具。當 Zara 的後代開始上市時,我們不應期望它們是完美的。事實上,我已經開始相信,專注於使機器完美精確和高效是不得要領的。重要的是我們的機器變得更人性化,即使它們有缺陷。畢竟,人類就是這樣工作的。如果我們做得對,具有同理心的機器將不會是某些人擔心的機器人霸主。它們將成為我們的看護者、我們的老師和我們的朋友。

更多探索

自然壓力情感的多語言資料庫。 Xin Zuo、Tian Li 和 Pascale Fung。在第八屆國際語言資源與評估會議 (LREC 2012) 上發表,伊斯坦布林,2012 年 5 月 21 日至 27 日。

使用 AdaBoost 和決策樹樁的多模態音樂情感分類。 Dan Su、P. Fung 和 N. Auguin。在 2013 年 IEEE 國際聲學、語音和訊號處理會議 (ICASSP 2013) 上發表,溫哥華,2013 年 5 月 26 日至 31 日。

來自我們的檔案

機器人要善良 Michael Anderson 和 Susan Leigh Anderson;2010 年 10 月。

大眾科學雜誌 第 313 卷 第 5 期這篇文章最初以“有心的機器人”為標題發表在《大眾科學雜誌》 第 313 卷 第 5 期 (),第 60 頁
doi:10.1038/scientificamerican1115-60
© .