你的老闆想窺探你的內心感受

科技公司現在使用人工智慧來分析你在面試和公共場所的情感。但該軟體似乎容易產生種族、文化和性別偏見

Crowd of people.

胡安·馬布羅馬拉 法新社和蓋蒂圖片社

英國利物浦,在2020年2月舉行的關於相當平淡無奇的政府採購主題的會議上,與會者在參展商和供應商的展位之間穿梭,在一些展位前駐足,繞過另一些展位。他們正受到密切關注。在展廳周圍,24個隱蔽放置的攝像頭跟蹤著每個人的 movements,並以每秒5到10幀的速度記錄個人面部肌肉的細微收縮,因為他們對不同的展位做出反應。影像被送入計算機網路,人工智慧演算法在其中評估每個人的性別和年齡組,並分析他們的表情,尋找“快樂”和“投入”的跡象。

在利物浦活動大約一年後,總部位於德克薩斯州奧斯汀的 Zenus 公司的執行長帕諾斯·穆塔菲斯仍然對結果感到興奮。Zenus 公司是這項技術的幕後推手。“我還沒有看到很多商業系統能達到這種準確度,”他在一次視訊通話中對我說,並向我展示了一張人群的照片,照片中人臉被方框框出。Zenus 工程師透過讓系統檢查大量面部表情資料集(其中包含描述相關感受的標籤)來訓練系統識別情感。該公司透過各種方式驗證了該程式的效能,包括在人們報告拍攝影像時的感受時進行的現場測試。穆塔菲斯說,該系統“在室內有效,戴著口罩也有效,在沒有照明的情況下有效,在人們戴著帽子和太陽鏡時在室外也有效。”

Zenus 的設定是名為情感人工智慧或情感計算的新技術的一個例子,該技術將攝像頭和其他裝置與人工智慧程式相結合,以捕捉面部表情、肢體語言、語調和其他線索。其目標是超越面部識別和身份識別,揭示以前技術無法看到的的東西:影像中人物的內在感受、動機和態度。“攝像頭一直都很笨,”美國公民自由聯盟高階政策分析師傑伊·斯坦利說,他是 2019 年報告 機器人監控的黎明 的作者。“現在它們變得聰明起來。它們正在覺醒。它們不僅獲得了愚蠢地記錄我們所做的事情的能力,還獲得了對其做出判斷的能力。”


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


情感人工智慧已成為一種流行的市場調研工具——在另一個貿易展上,Zenus 告訴希爾頓酒店,該公司舉辦的小狗和冰淇淋活動比該活動的開放式酒吧更吸引人——但其觸角延伸到風險更高的領域。讀取情感、性格和意圖線索的系統正在被使用或測試,以檢測邊境檢查站的威脅、評估求職者、監控課堂上的無聊或干擾,並識別攻擊性駕駛的跡象。主要汽車製造商正在將這項技術應用到即將推出的新一代汽車中,亞馬遜、微軟、谷歌和其他科技公司提供基於雲的情感人工智慧服務,通常與面部識別捆綁在一起。數十家初創公司正在推出應用程式,以幫助公司做出招聘決策。例如,這種做法在韓國變得非常普遍,以至於職業指導員經常讓他們的客戶練習透過人工智慧面試。

人工智慧系統使用各種型別的資料來生成對情感和行為的洞察。除了面部表情、語調、肢體語言和步態外,它們還可以分析口語或書面語言的內容,以瞭解情感和態度。一些應用程式使用他們收集的資料來探測的不是情感,而是相關的洞察,例如一個人具有什麼樣的個性,以及他或她是否在專心致志或構成潛在威脅。

但批評人士警告說,情感人工智慧的觸角超出了其能力範圍,可能會帶來危險。人工智慧演算法可以在包含種族、民族和性別偏見的資料集上進行訓練,這反過來會使它們的評估產生偏見——例如,針對非白人求職者。“有一種觀點認為,我們可以將我們的一些認知過程解除安裝到這些系統上,”馬里蘭大學資訊系統科學家勞倫·魯厄說,她研究了情感人工智慧中的種族偏見。“我們可以說,‘哦,這個人有一種威脅性的舉止’,這是基於他們而言。這就是我們正在進入危險區域的地方。”

潛在的科學依據也存在爭議。許多情感人工智慧應用程式的起源可以追溯到半個世紀前心理學家保羅·埃克曼和華萊士·弗裡森進行的研究,他們認為,少數面部表情對應於基本情感(憤怒、厭惡、恐懼、快樂、悲傷和驚訝;埃克曼後來在列表中添加了蔑視),並且這些表情構成了一種普遍理解的情感語言。但這些觀點現在受到了激烈的爭論。科學家們已經發現了面部表情存在顯著的文化和個體差異的證據。許多研究人員表示,演算法還不能——至少目前還不能——始終如一地解讀不同個體的人類表情的細微之處,這些表情可能與刻板印象中的內在感受不符。埃克曼本人曾致力於開發早期形式的情感識別技術,現在他認為這會對隱私構成嚴重威脅,應該受到嚴格監管。

情感人工智慧本身並沒有什麼不好。專家說,如果機器能夠被訓練成可靠地解讀情感和行為,那麼機器人技術、醫療保健、汽車和其他領域的潛力將是巨大的。但目前,這個領域實際上是一個自由放任的市場,一種基本上未經證實的技術可能會在社會有時間考慮潛在成本之前變得無處不在。

2018 年,當時擔任 Airtame 人事和業務運營副總裁的馬克·格雷正在尋找改進公司招聘流程的方法。效率是其中的一部分。Airtame 規模很小,約有 100 名員工分佈在哥本哈根、紐約市、洛杉磯和布達佩斯的辦事處,但該公司可能會收到數百份營銷或設計職位的申請。另一個因素是招聘決策的反覆無常。“很多時候,我覺得這來自於某人腦海中虛假的聲音,即‘哦,我個人喜歡這個人’,而不是‘這個人會更稱職’,”格雷說,他現在在丹麥房地產管理科技公司 Proper 工作。“在招聘和人力資源領域,這個領域充滿了無形的東西,我有點想弄清楚如何為招聘增加有形方面。”

由內而外:一些情感人工智慧系統依賴於心理學家保羅·埃克曼的工作。他認為,普遍的面部表情揭示了包括(從左到右)悲傷、快樂、憤怒、恐懼和驚訝在內的感受。圖片來源:保羅·埃克曼

Airtame 與總部位於慕尼黑的 Retorio 公司簽訂了合同,該公司在影片面試中使用人工智慧。流程很快:求職者只需錄製 60 秒的答案來回答兩到三個問題。然後,演算法會分析面試者的面部表情和聲音以及他們回答的文字。然後,它會根據五種基本性格特徵生成一個個人資料,這是心理學中常用的模型,簡稱為 OCEAN:開放性、盡責性、外向性、宜人性和神經質。招聘人員會收到一份候選人排名列表,該列表基於每個個人資料與職位的匹配程度。

此類軟體開始改變業務決策的制定方式以及組織與人員的互動方式。它已經重塑了 Airtame 的招聘流程,立即將一些候選人提升到另一些候選人之上。格雷說,那是因為個人資料分析有效。他分享了一張圖表,顯示最近幾位銷售人員的職位表現與他們的性格分數相關,其中在盡責性、宜人性和開放性方面得分較高的員工表現最好。

能夠理解情感的機器長期以來一直是科幻小說的主題。但在計算機科學和工程領域,人類情感在很長一段時間內仍然是一個陌生的概念。麻省理工學院的羅莎琳德·皮卡德說,早在 20 世紀 90 年代,“這是一個禁忌話題,一些不受歡迎的東西”,她在 1995 年的 技術報告 中創造了“情感計算”一詞。“人們認為我瘋了、傻了、愚蠢、尷尬。一位受人尊敬的訊號和語音處理人員走到我面前,一直盯著我的腳,然後說,‘你是在浪費時間——情感只是噪音。’”

皮卡德和其他研究人員開始開發能夠自動讀取和響應生物特徵資訊的工具,從面部表情到血液流動,這些資訊表明了情緒狀態。但當前應用程式的激增可以追溯到 2010 年代初開始廣泛部署的深度學習,這是一種強大的機器學習形式,它使用神經網路,神經網路大致模仿生物大腦。深度學習提高了人工智慧演算法的能力和準確性,從而自動化了一些以前只有人才能可靠完成的任務:駕駛、面部識別和分析某些醫學掃描。

然而,此類系統仍然遠非完美,情感人工智慧面臨著一項特別艱鉅的任務。演算法應該反映關於世界的“真實情況”:它們應該將蘋果識別為蘋果,而不是桃子。機器學習中的“學習”包括反覆比較原始資料——通常來自影像,但也來自影片、音訊和其他來源——與標有期望特徵的訓練資料。這就是系統如何學習提取潛在的共性,例如來自蘋果影像的“蘋果性”。一旦訓練完成,演算法就可以識別任何影像中的蘋果。

情境很重要:在一張 1964 年的裁剪照片()中,一位女士看起來很沮喪。但完整的影像顯示她是歡樂人群(上圖)的一部分。這些是欣喜若狂的披頭士樂隊粉絲在樂隊在紐約市的酒店外。圖片來源:約翰·佩丁 《紐約每日新聞》檔案館和蓋蒂圖片社

但是,當任務是識別難以定義的品質(如性格或情感)時,真實情況變得更加難以捉摸。“快樂”或“神經質”是什麼樣子的?情感人工智慧演算法不能直接直觀地感知情感、性格或意圖。相反,它們透過一種計算眾包的方式進行訓練,以模仿人類對其他人類做出的判斷。批評人士說,這個過程引入了太多主觀變數。“這些東西向我們展示的內容與某人頭腦或情感空間中可能發生的事情之間存在深刻的差距,”南加州大學安納伯格傳播與新聞學院的凱特·克勞福德說,她研究人工智慧的社會後果。“這就是一些技術正在進行的深刻而危險的飛躍。”

生成這些判斷的過程很複雜,每個階段都可能存在缺陷。例如,深度學習是出了名的資料飢渴。對於情感人工智慧,它需要龐大的資料集,這些資料集結合了成千上萬甚至數十億的人類判斷——例如,資料工作者標記為“快樂”或“微笑”的人的影像。但是,演算法可能會無意中“學習”到組裝資料的人的集體、系統性偏見。這種偏見可能來自訓練集中傾斜的人口統計資料、標籤者的無意識態度或其他來源。

即使是識別微笑也遠非一項簡單的任務。科隆 GESIS-萊布尼茨社會科學研究所的卡斯滕·施韋默及其同事在 2020 年進行的一項 研究 中,將國會議員的照片透過亞馬遜、微軟和谷歌的基於雲的情感識別應用程式進行處理。科學家們自己的審查發現,86% 的男性和 91% 的女性在微笑——但應用程式更有可能發現女性在微笑。例如,谷歌雲視覺將“微笑”標籤應用於超過 90% 的女性,但應用於不到 25% 的男性。作者認為,訓練資料中可能存在性別偏見。他們還寫道,在他們自己對影像的審查中,機器忽略了歧義是很常見的:“許多面部表情似乎介於兩者之間。那真的是微笑嗎?傻笑算嗎?如果牙齒露出來了,但看起來並不快樂呢?”

面部識別系統(大多數也基於深度學習)因偏見而受到廣泛 批評。例如,麻省理工學院媒體實驗室的研究人員發現,當匹配非白人、非男性面孔的身份時,這些系統的準確性較低。通常,這些錯誤是由於使用了偏向白人和男性的訓練資料集而引起的。識別情感表情增加了額外的複雜性:這些表情是動態的,並且擺拍照片中的面孔與自發快照中的面孔可能存在細微差別。

馬里蘭大學的研究員魯厄使用了一個公開的職業籃球運動員照片資料集來測試兩種情感識別服務,一種來自微軟,另一種來自 Face++,一家總部位於中國的面部識別公司。兩者都始終如一地將更多的負面情緒歸因於黑人球員,而不是白人球員,儘管每種方式都不同:Face++ 認為黑人球員生氣的次數是白人球員的兩倍;當表情含糊不清時,微軟認為黑人球員表現出的蔑視是白人球員的三倍。她說,這個問題可能可以追溯到訓練資料集中標註影像中的偏見。微軟和 Face++ 沒有回覆置評請求。

許多公司現在強調,他們意識到並正在解決此類問題。Retorio 的聯合創始人克里斯托夫·霍恩伯格說,Retorio 的演算法是在一個數據集上訓練的,該資料集是使用付費志願者在多年時間內編譯的,其中包括標有性格特徵的簡短面試影片。他說,該公司已採取措施過濾掉各種人口統計學和文化偏見,這些偏見可能會在性格評估中傾向於某個群體。但是,由於目前對該行業沒有監管或監督,因此在大多數情況下,我們必須相信公司的話——專有資料集的穩健性和公平性很難驗證。HireVue 是一家使用演算法分析文字和語調進行影片面試的公司,它聘請了一位外部審計師來檢查是否存在偏見,但這很少見。

“這種人類應該有一個標準,並且每個人都可以平等地達到這個標準的想法”從根本上說是錯誤的,北卡羅來納大學法學院研究人工智慧決策的副教授伊費奧瑪·阿瓊瓦說。她說,這種假設意味著“每個不符合該標準的人都處於不利地位。”

了對偏見的擔憂之外,對於每個人來說,外在表現都與可破譯的內在情感相匹配的觀點也開始引起強烈的科學反對。這與 50 多年前這個概念興起時的情況有所不同。當時,埃克曼和弗裡森正在東南巴布亞紐幾內亞高地的福爾人(一個土著群體)中進行實地調查,以瞭解他們是否像來自截然不同背景的人們(例如,來自布魯克林的碼頭工人或塞內加爾的護士)一樣識別和理解面部表情。志願者們被展示了一組照片,照片中的人物做出了科學家們稱之為六種基本情感的表情。為了提供背景資訊,一位翻譯提供了簡短的描述(例如,“他/她正在看一些聞起來很糟糕的東西”表示厭惡)。福爾人的反應與在日本、巴西或美國等國家調查的人們的反應幾乎相同,因此研究人員認為面部表情是一種普遍可理解的情感語言。

一組共享的表情代表基本情感狀態的觀念很快在心理學和其他領域流行起來。埃克曼和弗裡森開發了一個包含數千種面部動作的圖譜來解釋這些表情,稱為面部動作編碼系統 (FACS)。圖譜和理論都成為情感人工智慧的基石。這項工作已被納入許多人工智慧應用程式中,例如 Affectiva 公司開發的應用程式,其中包括車載系統和市場調研。

但是科學家們認為埃克曼的理論存在漏洞。例如,2012 年發表在《美國國家科學院院刊》上的一項研究提出了資料,表明面部表情 因文化而異。2019 年,東北大學的心理學家麗莎·費爾德曼·巴雷特與幾位同事一起發表了一項 研究,該研究檢查了 1000 多篇關於面部表情的科學論文。他們發現,面部揭示常見情感的外在跡象的觀念已經傳播到從技術到法律等領域,但幾乎沒有確鑿的證據表明這是真的。

巴雷特說,基本情感是廣泛的刻板印象類別。面部表情時刻反映著複雜的內在狀態——微笑可能掩蓋痛苦,也可能表達同情。她認為,如今,如果人工智慧系統是在本質上是標記刻板印象集合的資料集上訓練的,那麼它幾乎不可能始終如一地、可靠地對這些內在狀態進行分類。“它正在衡量某些東西,然後推斷其心理學意義,”巴雷特說。“但這是兩件不同的事情。我不能對每家公司都這麼說,因為我不知道每個人都在做什麼。但已經宣傳的情感識別技術通常會混淆這兩件事。”

性別偏見:在一項使用政治家面孔的研究中,研究人員發現,一個情感人工智慧程式確定只有少數男性在微笑。然而,科學家們自己的審查表明,絕大多數男性都露出了微笑。與男性相比,該程式谷歌雲視覺將“微笑”標籤應用於許多女性。兩張影像(下方)中屬性標籤上的百分比表示人工智慧對標籤準確性的置信度。這位女性獲得了 64% 置信度的微笑標籤——以及專注於她頭髮的標籤——而這位男性根本沒有獲得該標籤。圖片來源:卡斯滕·施韋默等人撰寫的《診斷影像識別系統中的性別偏見》,載於《Socius:動態世界社會學研究》,第 6 卷。線上發表於 2020 年 11 月 11 日 https://doi.org/10.1177/2378023120967171帶有標籤的頭像);維基百科(頭像

克勞福德說,造成這個問題的原因之一是科技初創公司不瞭解其他領域的科學辯論,而這些初創公司被 FACS 等系統的優雅簡潔性所吸引。“為什麼機器學習領域會被埃克曼吸引?”克勞福德問道。“它非常符合機器學習能力。如果你說表情的數量有限,潛在情感的數量也嚴格限制,那麼人們就會主要因為該理論符合工具的能力而採納這種觀點。”除了埃克曼的工作和 OCEAN 的性格特徵模型外,情感人工智慧公司還採用了其他系統。其中之一是已故心理學家 羅伯特·普盧契克 設計的“情感輪”,英國公司 Adoreboard 使用它來分析文字中的情感。所有這些方法都旨在將人類情感的複雜性轉化為簡單的公式。它們可能也存在類似的缺陷。一項研究發現,OCEAN 在不同的文化中產生的結果不一致

儘管如此,研究人員表示,情感應用程式可以發揮作用——如果它們的侷限性得到理解的話。俄亥俄州立大學工程學院院長、機器人專家阿揚娜·霍華德在機器人中使用微軟面部表情識別軟體的修改版本,以教導患有自閉症的兒童社交行為。例如,如果機器人檢測到對話者的“憤怒”表情,它的動作會以平息局勢的方式進行調整。刻板印象的面部表情可能並不總是意味著完全相同的事情,霍華德說,但它們是有用的。“是的,我們是獨一無二的——但我們與隔壁的人並沒有那麼不同,”她說。“因此,當你在談論一般情感時,你可能會弄對,也許不是每次都對,但比隨機正確的可能性更大。”

巴雷特說,總的來說,掃描和彙總許多人反應的演算法——例如 Zenus 用於讀取人群的演算法——會更準確,因為對於一個大型群體來說,“比隨機好”在統計上變得有意義。但是評估個人更危險,因為任何低於 100% 的準確率最終都會歧視某些人。

許多計算機視覺專家現在正在接受對錶情的更不可知論的觀點。(越來越多的公司已經開始宣告他們不直接對映情感或內在狀態。)“隨著該領域的發展,人們越來越認識到,許多表情與情感無關,”南加州大學專門從事情感計算的計算機科學教授喬納森·格拉奇說。“它們有點像我們用來相互影響的工具,或者它們幾乎就像對話中的詞語,因此這些詞語中蘊含著意義。但這並不是直接訪問我此刻感受到的東西。”

而,隨著試圖繪製和利用情感表達、性格特徵和行為的努力不斷增長,它們正在擴大我們生活中可能受到監視的部分。在科技公司挖掘線上行為中的個人資料 20 年後,一個新的、更私密的領域——面孔和身體及其傳送的訊號——即將受到類似的對待。溫哥華公司 VSBLTY 的執行長傑伊·赫頓說, “如果你是可口可樂公司,並且你正在開展一項營銷活動,而你主要的營銷資訊方法是網際網路,那麼你就瞭解你所觸達的受眾的一切資訊,” VSBLTY 銷售智慧攝像頭和軟體,這些攝像頭和軟體掃描人群,分析人口統計資料和零售商對產品的反應。“但是,如果我們能夠利用計算機視覺並將實體店轉化為與網際網路相同水平的分析,那會怎麼樣呢?”

2020 年 12 月,VSBLTY 宣佈與墨西哥啤酒商 Grupo Modelo 建立合作伙伴關係,到 2027 年在墨西哥和其他拉丁美洲國家的這家飲料公司的 50,000 家 Modelorama 便利店和社群小酒館中建立店內攝像頭網路,以捕獲資料。赫頓說,只要有螢幕和廣告,就會存在需求。他說,這項技術“將用於交通樞紐,或機場,或體育場”。“廣告商花費數百萬美元成為贊助商,他們的廣告出現在整個體育場的螢幕上,[並且]他們正在尋找對這種宣傳的驗證。”

這種趨勢提出了一個基本的法律和社會問題:來自你的面孔和身體的資料是否屬於你?在世界各地的大多數地方,答案是否定的——只要你的個人身份與這些資料保持分離。“如果你想知道,並且有人在公共場合,那麼似乎可以無限度地掃描他們的情緒,”辛辛那提大學法學院教授詹妮弗·巴德說,她 研究了這個問題

大多數在公共場合捕獲資料的情感人工智慧公司表示,這些資訊是匿名的,因此收集這些資訊不應引起擔憂。赫頓說,VSBLTY 不儲存面部影像或其他可以連結到身份的資料。Zenus 的穆塔菲斯指出,他公司的應用程式不會上傳其攝像頭捕獲的實際面部影像——只上傳關於情緒和位置的相關元資料——並且它會在會議螢幕上張貼標誌和通知,說明正在進行監控。“不需要明確的同意,”他說。“我們總是告訴部署它的人,這是一個非常好的做法;當您有監控敏感性時,您必須張貼一個標誌,表明這些區域正在受到監控。”穆塔菲斯說,通常情況下,人們並不介意,並且會忘記攝像頭。但是應用程式的多樣性意味著沒有通用標準。一旦這種日常監控成為政治和政策問題,人們和政治家是否會接受它,這一點也遠不清楚。

埃克曼早些時候曾與 Emotient 公司和蘋果公司合作開發情感人工智慧,現在他警告說,情感人工智慧對隱私構成威脅,並表示公司應該在法律上有義務獲得他們掃描的每個人的同意。“不幸的是,這是一項可以在人們不知情的情況下使用的技術,並且正在對他們使用,而且對他們使用它並不是為了讓他們更快樂,”他說。“而是對他們使用它,讓他們購買他們可能不會購買的產品。這可能已經是其非良性用途中最良性的了。”

情感人工智慧也已進入個人空間,在那裡,潛在的行為資料寶藏更加豐富。據一位發言人稱,亞馬遜的 Alexa 分析使用者的語調以尋找挫敗感的跡象,從而改進其演算法。到 2023 年,一些汽車製造商將推出支援人工智慧的車載系統,這些系統將生成大量關於駕駛員和乘客行為的資料。汽車製造商將希望獲得這些資料(也可能是匿名的),用於改進系統響應和車載設計以及衡量駕駛員效能等彙總行為。(特斯拉已經從其車輛中的多個來源收集資料。)情感人工智慧公司 Eyeris 的執行長莫達爾·阿拉維說,客戶可能會選擇啟用這些系統的各種級別,因此,如果乘員不使用某些功能,則不會收集關於這些功能的資料。Affectiva(最近被瑞典公司 Smart Eye 收購)設計的車載系統不記錄影片,但會提供元資料,首席營銷官加比·齊德維爾德說。

俄亥俄州立大學和亞馬遜的計算機視覺科學家亞歷克斯·馬丁內斯是 2019 年批評面部表情與情感之間聯絡的論文的合著者,他和巴雷特一起撰寫了這篇論文。他有一張他喜歡給人們看的 照片。照片中是一個男人的臉,看起來扭曲成憤怒和恐懼的混合體。然後他展示了完整的影像:那是一位在進球后欣喜若狂的足球運動員。面部表情、手勢和其他訊號不僅是身體和大腦的產物,他還指出,也是情境的產物,是人周圍發生的事情的產物。到目前為止,這已被證明是情感人工智慧面臨的最大挑戰:解釋模稜兩可的情境。“除非我知道足球是什麼,否則我永遠無法理解那裡發生了什麼,”馬丁內斯說。“因此,這種知識是根本性的,而我們目前沒有任何人工智慧系統能夠很好地做到這一點。”

馬丁內斯說,如果任務範圍狹窄,周圍環境簡單,並且收集的生物特徵資訊多樣化——聲音、手勢、脈搏、皮下血流等等,那麼這項技術就會變得更有效。下一代情感人工智慧可能會結合這種資訊。但這反過來只會創造出更強大、更具侵入性的技術,而社會可能還沒有為此做好準備。

© .