偏見偵探

隨著機器學習滲透到社會,科學家們正試圖幫助阻止演算法中的不公正現象

Man wearing a prison orange jumpsuit positioned in front of a shattered computer screen.

馬里奧·瓦格納

2015年,一位憂心忡忡的父親問了雷瑪·維迪亞納坦一個問題,這個問題至今仍縈繞在她心頭。當時,在匹茲堡的一個地下室房間裡,聚集了一小群人,聽她解釋軟體如何解決虐待兒童問題。每天,該地區的熱線都會接到數十個來自懷疑兒童身處險境的人的電話;其中一些電話隨後會被呼叫中心的工作人員標記出來進行調查。但是,該系統並不能捕捉到所有虐待案件。維迪亞納坦和她的同事剛剛贏得了一份價值五十萬美元的合同,用於構建一種演算法來提供幫助。

維迪亞納坦是一位健康經濟學家,她在紐西蘭奧克蘭理工大學社會資料分析中心擔任聯合主任。她向在場聽眾介紹了該演算法的工作原理。例如,一種在大量資料(包括家庭背景和犯罪記錄)上訓練的工具可以在接到電話時生成風險評分。這可以幫助呼叫篩選員標記出哪些家庭需要調查。

在維迪亞納坦邀請觀眾提問後,這位父親站起來發言。他說,他曾與毒癮作鬥爭,社工過去曾將他的一個孩子從家中帶走。但他已經戒毒一段時間了。如果電腦評估他的記錄,他為改變生活所做的努力是否會被視而不見?換句話說:演算法會對他做出不公平的判斷嗎?


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。


維迪亞納坦向他保證,始終會有人工干預,因此他的努力不會被忽視。但是,既然自動化工具已經部署,她仍然在思考他的問題。計算機計算越來越多地被用於引導可能改變人生的決策,包括逮捕被指控犯罪的人後拘留哪些人,調查哪些家庭可能存在虐待兒童行為,以及在一種名為預測性警務的趨勢中,警察應重點關注哪些社群。這些工具承諾使決策更加一致、準確和嚴謹。但是,監督是有限的:沒有人知道有多少工具正在使用。它們可能帶來的不公平性正在引起警惕。例如,2016年,美國記者指出,一個用於評估未來犯罪活動風險的系統歧視黑人被告。

雷瑪·維迪亞納坦構建演算法以幫助標記潛在的虐待兒童案件。圖片來源:奧克蘭理工大學

“我最擔心的是,我們正在開發旨在改善問題[但]最終可能會加劇問題的系統,”人工智慧現在研究所的聯合創始人凱特·克勞福德說。該研究所是紐約大學的一個研究中心,專門研究人工智慧的社會影響。

在克勞福德和其他人發出警告的情況下,各國政府正試圖讓軟體更具問責制。2017年12月,紐約市議會通過了一項法案,成立一個工作組,以建議如何公開分享有關演算法的資訊,並調查演算法是否存在偏見。2018年,法國總統埃馬紐埃爾·馬克龍表示,法國將公開政府使用的所有演算法。在2018年5月釋出的指南中,英國政府呼籲公共部門的資料工作者做到透明和負責。預計於當年5月底生效的歐洲通用資料保護條例 (GDPR) 也將促進演算法問責制。

在如此活躍的活動中,科學家們正在面對關於如何使演算法公平的複雜問題。像維迪亞納坦這樣與公共機構合作,試圖構建負責任且有效的軟體的研究人員,必須努力解決自動化工具可能如何引入偏見或固化現有不平等的問題——特別是當它們被插入到已經存在歧視的社會系統中時。

維迪亞納坦說:“有一個相當活躍的研究人員社群,他們正試圖開發方法,從外部審計這些型別的系統。”

猶他大學的理論計算機科學家蘇雷什·文卡塔蘇布拉馬尼安指出,自動化決策工具提出的問題並非完全是新的。用於評估犯罪或信用風險的精算工具已經存在了幾十年。但隨著大型資料集和更復雜的模型變得普及,人們越來越難以忽視它們的倫理影響。他說:“計算機科學家別無選擇,只能現在就參與進來。我們不能再只是把演算法扔過圍牆,然後看看會發生什麼。”

公平性權衡

匹茲堡所在的阿勒格尼縣人類服務部的官員在 2014 年徵集自動化工具的提案時,他們尚未決定如何使用它。但他們知道他們想對新系統保持開放態度。“我非常反對將政府資金用於黑箱解決方案,因為那樣我就無法告訴我的社群我們正在做什麼,”該部門主任艾琳·道爾頓說。該部門有一個建於 1999 年的中央資料倉庫,其中包含有關個人的大量資訊,包括住房、精神健康和犯罪記錄。道爾頓說,維迪亞納坦的團隊提交了一份令人印象深刻的提案,專注於兒童福利。

阿勒格尼家庭篩查工具 (AFST) 於 2016 年 8 月啟動。對於撥打熱線的每個電話,呼叫中心員工都會看到一個介於 1 到 20 之間的分數,該分數由自動化風險評估系統生成,其中 20 對應於被指定為最高風險的案件。這些是 AFST 預測兒童最有可能在兩年內被帶離家庭或再次被轉介到該縣的家庭,因為來電者懷疑存在虐待行為(該縣正在逐步取消第二個指標,該指標似乎不能密切反映需要進一步調查的案件)。

斯坦福大學的獨立研究員傑里米·戈德哈伯-菲伯特仍在評估該工具。但道爾頓說,初步結果表明它正在發揮作用。她說,呼叫中心工作人員轉介給調查人員的案件似乎包括更多合法的擔憂案例。呼叫篩選員似乎也在對具有相似情況的案件做出更一致的決定。儘管如此,他們的決定不一定與演算法的風險評分一致;該縣希望使兩者更緊密地結合起來。

在 AFST 部署期間,道爾頓希望獲得更多幫助,以確定它是否可能存在偏見。2016 年,她聘請卡內基梅隆大學的統計學家亞歷山德拉·喬爾德科娃分析該軟體是否歧視特定群體。喬爾德科娃此前一直在思考演算法中的偏見問題——並且即將對一個引發了關於該問題的大量辯論的案例發表看法。

2016 年 5 月,新聞網站 ProPublica 的記者報道了佛羅里達州布勞沃德縣法官使用的商業軟體,該軟體有助於決定被指控犯罪的人是否應在審判前獲釋。記者稱,該軟體對黑人被告存在偏見。該工具名為 COMPAS,生成的分數旨在衡量一個人在獲釋後兩年內再次犯罪的可能性。

ProPublica 團隊調查了數千名被告的 COMPAS 分數,這些分數是透過公共記錄請求獲得的。透過比較黑人被告和白人被告,記者發現,不成比例數量的黑人被告是“誤報”:他們被 COMPAS 歸類為高風險,但隨後並未被指控犯下另一起罪行。

該演算法的開發者,一家總部位於密歇根州的公司 Northpointe(現為俄亥俄州坎頓的 Equivant)辯稱,該工具不存在偏見。該公司表示,COMPAS 在預測被歸類為高風險的白人或黑人被告是否會再次犯罪方面同樣有效(這是預測均等概念的一個例子)。喬爾德科娃很快表明,Northpointe 和 ProPublica 的公平性衡量標準之間存在張力。如果兩個群體之間存在差異(例如,白人和黑人被再次逮捕的比率),則預測均等、相等的誤報率和相等的誤報率都是“公平”的方式,但在統計學上不可能調和[參見上文“如何定義‘公平’”]。倫敦大學學院負責任的機器學習研究員邁克爾·維爾說:“你不可能擁有一切。如果你想在某個方面做到公平,你可能必然會在另一個聽起來也很合理的定義中變得不公平。”

事實上,從數學上講,定義公平性的方法甚至更多:在 2018 年 2 月的一次會議上,計算機科學家阿文德·納拉亞南發表了題為“21 種公平性定義及其政治”的演講——他指出,還有其他定義。一些研究過 ProPublica 案例的研究人員,包括喬爾德科娃,指出,不平等的錯誤率是否表明存在偏見尚不清楚。斯坦福大學的計算機科學家沙拉德·戈埃爾說,相反,它們反映了一個群體比另一個群體更難做出預測的事實。“事實證明,這或多或少是一個統計偽影。”

對於某些人來說,ProPublica 案例突顯了許多機構缺乏資源來要求和正確評估演算法工具的事實。“如果說有什麼的話,那就是它向我們表明,僱用 Northpointe 的政府機構沒有給他們一個明確的定義來處理,”卡內基梅隆大學的拉伊德·加尼說。“我認為政府需要學習並接受培訓,瞭解如何要求這些系統,如何定義他們應該衡量的指標,並確保供應商、顧問和研究人員提供給他們的系統實際上是公平的。”

阿勒格尼縣的經驗表明,駕馭這些問題有多麼困難。正如要求的那樣,當喬爾德科娃在 2017 年初開始挖掘阿勒格尼資料時,她發現其工具也存在類似的統計失衡。她說,該模型有一些“非常不受歡迎的屬性”。跨種族和族裔群體的錯誤率差異遠高於預期。而且,出於仍然不清楚的原因,被演算法評為虐待兒童最高風險的白人兒童被帶離家庭的可能性低於被給予最高風險評分的黑人兒童。阿勒格尼和維迪亞納坦的團隊考慮切換到不同的模型。喬爾德科娃說,這可能有助於減少不平等現象。

雖然統計失衡是一個問題,但演算法中潛藏著更深層次的不公平性——它們可能會加劇社會不公正現象。例如,像 COMPAS 這樣的演算法可能聲稱可以預測未來犯罪活動的可能性,但它只能依賴於可衡量的指標,例如被逮捕。而警務實踐的差異可能意味著某些社群成為不成比例的目標,人們因在其他社群可能被忽視的罪行而被捕。“即使我們正在準確地預測某些事情,我們準確預測的事情也可能是強加不公正,”華盛頓特區非營利性社會正義組織 Upturn 的常務董事大衛·羅賓遜說。很大程度上取決於法官在多大程度上依賴此類演算法來做出他們的決定——對此知之甚少。

阿勒格尼的工具也受到了類似的批評。作家兼政治學家弗吉尼亞·尤班克斯認為,無論演算法是否準確,它都在對有偏見的輸入採取行動,因為黑人和混血家庭更有可能被舉報到熱線。此外,由於該模型依賴於阿勒格尼系統中的公共服務資訊——並且由於使用此類服務的家庭通常很貧困——該演算法透過使貧困家庭受到更多審查而不公平地懲罰了他們。道爾頓承認,可用資料是一個限制,但她認為該工具是必要的。“貧困這種不幸的社會問題並不能否定我們有責任提高我們對那些引起我們注意的兒童的決策能力,”該縣在 2018 年釋出在 AFST 網站上的對尤班克斯的回應中說。

透明度及其侷限性

儘管一些機構構建了自己的工具或使用商業軟體,但學者們發現自己在公共部門演算法方面的工作需求量很大。在芝加哥大學,加尼與包括芝加哥公共衛生部門在內的多個機構合作,開發了一種工具來預測哪些房屋可能存在有害鉛。在英國,劍橋大學的研究人員與達勒姆縣的警方合作,開發了一個模型,幫助確定將誰轉介到干預計劃,以替代起訴。2018 年,戈埃爾和他的同事啟動了斯坦福計算政策實驗室,該實驗室正在與政府機構(包括舊金山地方檢察官辦公室)進行合作。地方檢察官辦公室的分析師瑪麗亞·麥基說,與外部研究人員的合作至關重要。“我們都有一種什麼是對的和什麼是公平的感覺,”她說。“但我們通常沒有工具或研究來準確地、機械地告訴我們如何實現目標。”

人們對阿勒格尼采取的更透明的方式有很大的需求,阿勒格尼與利益相關者進行了接觸,並向記者敞開了大門。人工智慧現在研究所的克勞福德說,當演算法是“不開放演算法審計、審查或公開辯論的閉環”時,演算法通常會加劇問題。但尚不清楚如何最好地使演算法更加開放。加尼說,僅僅釋出模型的所有引數並不能提供太多關於其工作原理的見解。透明度也可能與保護隱私的努力相沖突。在某些情況下,披露過多關於演算法如何工作的資訊可能會讓人們利用該系統。

戈埃爾說,問責制的一個主要障礙是,機構通常不收集有關工具如何使用或其效能的資料。“很多時候,沒有透明度是因為沒有什麼可分享的。”

克勞福德說,需要一系列“正當程式”基礎設施來確保演算法具有問責制。2018 年 4 月,人工智慧現在研究所為有興趣負責任地採用演算法決策工具的公共機構概述了一個框架;除其他外,它呼籲徵求社群意見,並賦予人們對針對他們做出的決定提出申訴的能力。

新澤西州卡姆登的警察使用自動化工具來幫助確定哪些區域需要巡邏。圖片來源:Timothy A. Clary 法新社/蓋蒂圖片社

許多人希望法律能夠強制執行這些目標。康奈爾大學研究人工智慧倫理和政策問題的研究員索隆·巴羅卡斯說,這有一些先例。在美國,一些消費者保護規則在對公民的信用做出不利決定時,允許公民獲得解釋。維爾說,在法國,早在 1970 年代就可以找到賦予解釋權和質疑自動化決策能力的立法。

最大的考驗將是 2018 年 5 月 25 日生效的歐洲 GDPR。一些條款——例如,在自動化決策的情況下,有權獲得有關所涉及邏輯的有意義的資訊——似乎促進了演算法問責制。但英國牛津網際網路研究所的資料倫理學家布倫特·米特爾施塔特說,GDPR 實際上可能會透過為那些想要評估公平性的人建立一個“法律雷區”來阻礙它。測試演算法是否在某些方面存在偏見的最佳方法——例如,它是否偏袒某個種族而不是另一個種族——需要了解進入系統的人的相關屬性。但 GDPR 對使用此類敏感資料的限制非常嚴格,處罰也非常高,米特爾施塔特說,有能力評估演算法的公司可能幾乎沒有動力處理這些資訊。“這似乎將限制我們評估公平性的能力,”他說。

GDPR 條款的範圍也受到質疑,這些條款可能會讓公眾深入瞭解演算法並有能力提出申訴。顧名思義,一些 GDPR 規則僅適用於完全自動化的系統,這可能會排除演算法影響決策但應該由人工做出最終決定的情況。米特爾施塔特說,細節最終應該在法庭上澄清。

審計算法

與此同時,研究人員正在推進檢測未公開供公眾審查的演算法中偏見的策略。巴羅卡斯說,公司可能不願意討論他們如何努力解決公平性問題,因為這將意味著承認一開始就存在問題。即使他們這樣做,他們的行動也可能改善偏見,但不能消除偏見,他說,“因此,任何關於此事的公開宣告都不可避免地是對問題仍然存在的承認。”微軟和 Facebook 都宣佈開發了檢測偏見的工具。

一些研究人員,如東北大學的計算機科學家克里斯托·威爾遜,試圖從外部揭示商業演算法中的偏見。例如,威爾遜建立了冒充正在尋找 Uber 乘車的虛假乘客,並將虛假的簡歷上傳到一個招聘網站,以測試性別偏見。其他人正在構建他們希望可以在自我評估中普遍使用的軟體。2018 年 5 月,加尼和他的同事釋出了名為 Aequitas 的開源軟體,以幫助工程師、政策制定者和分析師審計機器學習模型是否存在偏見。對演算法決策的危險直言不諱的數學家凱西·奧尼爾成立了一家公司,該公司正在私下與公司合作審計他們的演算法。

一些研究人員已經在呼籲在刑事司法應用和其他領域退後一步,從狹隘地關注構建做出預測的演算法。例如,一種工具可能擅長預測誰將不出庭。但最好問問人們為什麼不出庭,也許可以設計干預措施,例如簡訊提醒或交通援助,這可能會提高出庭率。“這些工具通常所做的只是幫助我們在邊緣進行修補,但我們需要的是全面的變革,”紐約大學法學院的民權律師和種族正義倡導者文森特·薩瑟蘭說。儘管如此,他說,圍繞演算法的激烈辯論“迫使我們所有人提出並回答關於我們正在使用的系統以及它們的運作方式的真正棘手的基本問題。”

維迪亞納坦目前正在將她的虐待兒童預測模型擴充套件到科羅拉多州的道格拉斯和拉里默縣,她認為即使演算法嵌入其中的總體系統存在缺陷,構建更好的演算法也很有價值。儘管如此,“演算法不能像直升機空投一樣被投放到這些複雜的系統中,”她說:它們必須在瞭解更廣泛背景的人的幫助下實施。但即使是最好的努力也會面臨挑戰,因此在沒有直接答案和完美解決方案的情況下,她說,透明度是最好的政策。“我總是說:如果你不能做到正確,那就做到誠實。”

本文的早期版本於 2018 年發表在 《自然》雜誌 上。

© .