“Clow-dia,”我說了一遍。兩遍。第三遍。我放棄了,說了我的名字的美國化版本:“Claw-dee-ah。” 最終,Siri 識別出來了。對於那些母語不是英語或沒有傳統美式發音名字的人來說,不得不調整我們的說話方式來與語音識別技術互動是一種熟悉的體驗。我已經停止使用蘋果的語音虛擬助手 Siri,就是因為這個原因。
這項技術在過去十年中的發展——不僅是 Siri,還有 Alexa 和 Cortana 等等——揭示了其中的一個問題:種族偏見。最近一項發表在《美國國家科學院院刊》上的研究表明,語音識別程式對黑人說話者存在偏見。作者發現,平均而言,包括蘋果和微軟在內的領先科技公司的所有五個程式都顯示出明顯的種族差異;它們錯誤轉錄黑人說話者音訊的可能性大約是白人說話者的兩倍。
這有效地審查了不屬於用於建立這些技術的“標準”語言或口音的聲音。“除非我調整我的語言模式,否則我無法與這些裝置協商,”託森大學技術傳播和資訊設計助理教授 哈爾西恩·勞倫斯 說,她沒有參與這項研究。“這很有問題。” 對於勞倫斯,她有千里達及托巴哥口音,或者像我這樣的波多黎各人,我們身份的一部分來自於說一種特定的語言,擁有口音或使用一套語音形式,例如非裔美國人白話英語 (AAVE)。不得不改變身份中如此重要的一部分才能被識別,這本身就是一種殘忍。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
無法被理解也會影響其他邊緣化社群,例如依賴語音識別和語音轉文字工具的視力或行動障礙人士,《PNAS》研究的計算研究生和第一作者艾莉森·科內克說。對於依賴這些技術的殘疾人來說,被誤解可能會產生嚴重的後果。造成這些差異的原因可能有很多,但科內克指出了最可能的原因:用於訓練的資料主要來自美國英語的白人母語人士。透過使用在所用詞彙和說話方式上都很狹隘的資料庫,訓練系統排除了具有獨特語言特徵的口音和其他說話方式。人類,包括那些創造這些技術的人,大概都存在口音和語言偏見。例如,研究表明,口音的存在會影響陪審員是否認為被告有罪以及患者是否認為他們的醫生稱職。
認識到這些偏見將是避免在技術中實施它們的重要方法。但是,開發更具包容性的技術需要時間、精力和金錢,而且通常投資這些的決定是由市場驅動的。(在回應多項查詢時,只有谷歌發言人及時回覆以供釋出,部分內容是:“多年來,我們一直致力於準確識別語音變體的挑戰,並將繼續這樣做。”)
加州大學洛杉磯分校資訊研究副教授 薩菲亞·諾布林 承認這是一個棘手的挑戰。“語言是情境化的,”諾布林說,她沒有參與這項研究。“但這並不意味著公司不應該努力減少偏見和差距。” 為了做到這一點,他們需要人文和社會科學家的投入,他們瞭解語言的實際運作方式。
從技術方面來看,科內克說,向程式輸入更多樣化的訓練資料可以彌合這一差距。諾布林補充說,科技公司還應該更廣泛地測試他們的產品,並擁有更多樣化的員工隊伍,以便來自不同背景和視角的人可以直接影響語音技術的設計。科內克建議,自動語音識別公司應將《PNAS》研究作為初步基準,並隨著時間的推移不斷使用它來評估他們的系統。
與此同時,我們中的許多人將繼續在身份和與 Alexa、Cortana 或 Siri 互動時被理解之間掙扎。但勞倫斯每次都選擇身份:“我不會切換,”她說。“我不會那樣做。”
