語音識別技術是又一個偏見的例子

Siri、Alexa 和其他程式有時難以識別許多代表性不足群體的口音和語調。

“Clow-dia,”我說了一遍。兩遍。第三遍。 沮喪地,我說出我的名字的美國化版本:“Claw-dee-ah。” 最終,Siri 識別出來了。

對於那些母語不是英語或名字聽起來不符合傳統美國發音的人來說,不得不調整我們的說話方式來與語音識別技術互動是一種熟悉的體驗。 我甚至因此停止使用 Siri。

過去幾十年語音識別技術的應用揭示了其中根深蒂固的一個非常成問題的問題:種族偏見。 最近發表在《PNAS》上的一項研究表明,語音識別程式對黑人說話者存在偏見。 平均而言,來自蘋果和微軟等領先科技公司的所有五個程式都顯示出顯著的種族差異; 與白人說話者相比,他們錯誤轉錄黑人說話者的音訊的可能性是白人說話者的兩倍。


支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您將幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


在與他人的正常對話中,我們可能會選擇語碼轉換,根據聽眾的不同,在語言、口音或說話方式之間切換。 但是,對於自動語音識別程式,不存在語碼轉換——要麼你同化,要麼你就不被理解。 這有效地審查了那些不屬於用於建立這些技術的“標準”語言或口音的聲音。

“除非我調整我的語言模式,否則我無法與這些裝置協商,”託森大學技術傳播和資訊設計助理教授 Halcyon Lawrence 說,她沒有參與這項研究。“這很成問題。” 具體來說,問題不僅僅是改變你的說話方式:它意味著必須適應你的身份並同化。

對於擁有千里達及托巴哥口音的勞倫斯以及其他人來說,我們身份的一部分來自於說特定的語言、擁有口音或使用一套語音形式,例如非裔美國人白話英語 (AAVE)。 對於我這個波多黎各人來說,用西班牙語說出我的名字,而不是試圖翻譯聲音使其能夠被北美聽眾理解,意味著忠於我的根。 勞倫斯補充說,不得不改變身份如此重要的組成部分才能被認可,這本身就很殘酷:“就像人們不會期望我會脫掉我的膚色一樣。”

語音識別程式無法理解也會影響其他邊緣化社群。 該研究的計算研究生和第一作者艾莉森·科內克 (Allison Koenecke) 指出,一個特別脆弱的群體是:依賴語音識別和語音轉文字工具的殘疾人。 “這隻適用於能夠被[自動語音識別]系統理解的一部分人群,”她說。 對於依賴這些技術的殘疾人來說,被誤解可能會產生嚴重的後果。

造成這些差異的原因可能有很多,但科內克指出了最可能的原因:訓練資料。 總體而言,用於訓練語音識別技術的“標準”資料主要是白人的。 透過在使用的詞語和說話方式上都使用狹窄的語料庫,系統排除了具有獨特語言特徵(例如 AAVE)的口音和其他說話方式。 事實上,研究發現,隨著 AAVE 使用的增加,誤解的可能性也隨之增加。 具體而言,研究中發現的差異主要是由於單詞的說話方式造成的,因為即使說話者說出相同的短語,黑人說話者被誤解的可能性仍然是白人說話者的兩倍。

此外,口音和語言偏見也存在於創造這些技術的人類身上。 例如,研究表明,口音的存在會影響 陪審員是否認為人們有罪 以及 患者是否認為他們的醫生稱職。 認識到這些偏見將是避免在技術中實施這些偏見的重要途徑。

Safiya Noble 加州大學洛杉磯分校資訊研究副教授承認,語言很難融入技術中。 “語言是情境化的,”沒有參與這項研究的 Noble 說。 “當某些人說某些詞時,這些詞意味著某些東西,而這些[語音]識別系統實際上並沒有考慮到很多這一點。” 但這並不意味著公司不應該努力減少其技術中的偏見和差距。 然而,為了做到這一點,他們需要了解人類語言的複雜性。 因此,解決方案不僅可以來自技術領域,還可以來自人文學科、語言學和社會科學領域。

勞倫斯認為,開發人員必須意識到他們創造的技術的影響,人們必須質疑這些技術的用途以及它們為誰服務。 做到這一點的唯一方法是讓人文學科和社會科學家參與進來,與技術專家對話,提出重要的問題,即這些識別技術是否可能像面部識別技術的某些有害發展一樣,被用作對抗邊緣化社群的武器。

科內克說,從技術方面來看,向程式輸入更多樣化的訓練資料可以縮小這一差距。 “我認為至少增加訓練資料集中非標準英語音訊樣本的份額將使我們朝著縮小種族差距的方向邁進,”她補充道。 Noble 說,他們還應該更廣泛地測試他們的產品,並擁有更多樣化的勞動力,以便來自不同背景和觀點的人可以直接影響語音技術的設計。

但雙方都認為,科技公司必須承擔責任,並應力求改變。 科內克建議,自動語音識別公司應將他們的研究用作初步基準,並隨著時間的推移繼續使用它來評估他們的系統。

透過這些策略,科技公司和開發人員或許能夠使語音識別技術更具包容性。 但是,如果他們繼續脫離人類語言和社會的複雜性,而不認識到自己的偏見,那麼差距將繼續存在。 與此同時,我們中的許多人在與 Alexa、Cortana 或 Siri 互動時,將繼續在身份認同和被理解之間掙扎。 但勞倫斯每次都選擇身份認同:“我不切換,我不會那樣做。”

© .