2018年2月19日

如何利用預測性警務對抗偏見

資料驅動技術可能會使不平等現象長期存在，但如果運用得當，它也為推進社會公正提供了前所未有的機會

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定代表《大眾科學》的觀點

執法部門最近對預測分析的使用再次受到抨擊。達特茅斯大學的研究人員釋出報告，引起轟動，稱簡單的預測模型——以及非專業人士——預測犯罪的能力與領先的專有分析軟體一樣出色。領先的軟體僅達到人類水平的效能可能實際上並非致命打擊，但隨後數十家新聞媒體蜂擁而至進行了報道。無論如何，即使這一披露引發了人們對某款軟體工具可信度的質疑，一個更持久、固有的難題仍在困擾著預測性警務。

犯罪預測模型陷入了註定會引起爭議的困境，因為就其本身而言，它們無法實現種族平等。這是一個本質上無法解決的問題。事實證明，儘管此類模型在標記（分配更高機率給）黑人和白人被告時都同樣精確，但這樣做也會導致錯誤地標記黑人被告的頻率高於白人被告。在本文中，我將介紹這種看似矛盾的困境，並展示如何扭轉預測性警務——更廣泛地說，執法部門的大資料——以使這個不公平世界的法律體系更加公平。

預測性警務為人類在執法決策中做出的重要決定引入了定量要素，例如是否調查或拘留、判刑多久以及是否假釋。在做出此類決定時，法官和警官會考慮嫌疑人或被告將來被判犯有罪行的計算機率。“預測建模”（又稱機器學習）軟體的工作就是從資料中計算預測機率。它自動透過梳理歷史定罪記錄來建立模式，反過來，這些模式——共同構成一個預測模型——用於計算未來尚不為人所知的個人的機率。

支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。

儘管“不考慮種族”，但犯罪預測模型對不同種族的處理方式不同。這些模型沒有明確地將種族——或任何受保護的類別——納入其計算中（儘管宗教曾是一個考慮因素）。儘管如此，黑人被告被標記為高風險的頻率高於白人被告。

這種差異是我們所處的種族失衡世界的直接結果。例如，被告的先前定罪次數是預測模型的標準輸入，因為先前被定罪的被告（釋放後）再次犯罪的可能性高於未被定罪的被告。由於更多的黑人被告有先前定罪記錄，這意味著預測模型標記（即，分配更高機率給）黑人被告的頻率高於白人被告。黑人被告並非因種族而被標記，但更有可能因此而被標記。

然而，今天的激烈爭論並非關於這種更高的標記率——更具體地說，它是關於更高的錯誤標記率。預測模型錯誤地標記不會再次犯罪的黑人被告的頻率高於白人被告。在關於預測性警務偏見的最廣為引用的文章中，ProPublica 報道，全國使用的 COMPAS 模型（懲教罪犯管理替代制裁側寫）錯誤地標記白人被告的比例為 23.5%，而黑人被告的比例為 44.9%。換句話說，不應受到標記的黑人被告被錯誤標記的次數幾乎是應受到標記的白人被告的兩倍。為了解決這種差異，谷歌的研究人員提出了一項類似平權行動的政策，即對弱勢群體採用更寬鬆的標準。（他們的互動演示描述了為貸款違約而不是未來犯罪進行標記的情況，但相同的概念適用。）

與此相反，COMPAS 的倡導者反駁說，對於所有種族，每個標記都同樣合理。為了回應 ProPublica，COMPAS 的建立者指出，在被標記為高風險的人中，被錯誤標記的比例對於黑人和白人被告來說是相似的：分別為 37% 和 41%。換句話說，在被標記的被告中，白人和黑人被告被錯誤標記的頻率相同。其他資料科學家也同意這符合免除模型偏見的標準。

然而，似乎每個單獨的標記在種族上都是公平的，但總體錯誤標記率卻並非如此。儘管這兩件事看起來可能相互矛盾，但它們都成立

——如果您被標記，無論種族如何，標記是合理的可能性是相同的。

——如果您不應被標記，如果您是黑人，您更有可能被錯誤地標記。

誰是對的？這兩種觀點相互對立，但每種觀點本身似乎都是有效的。一方面，所有標記似乎都是同樣合理的。對於被分配更高機率的被告，白人和黑人被告的後續起訴率是相同的。另一方面，在不會再次犯罪的被告中，黑人個體面臨更高的被錯誤標記的風險。一個更細緻的立場聲稱，為了解決這個問題，我們必須就公平的定義達成一致。

但是，與其劍拔弩張，最終的解決方案應該是就對抗種族不平等的措施達成一致。爭論 COMPAS 模型是否應該被指控為“有偏見”會分散人們對下一步行動的注意力。與其僅僅審查預測模型是否會加劇種族不公正，不如加強預測性警務，積極幫助改善情況。這樣做的關鍵動力直接來自於圍繞“偏見”的爭論背後看似矛盾的地方，這使得它如此難以解決。這種奇怪之處本身揭示了當今種族不平等現象的一個通常被隱藏的症狀：如果預測標記的設計使其表明白人和黑人被告的再犯機率相同——即，設計為對兩組人都同樣精確——那麼，鑑於黑人被告的總體再犯率更高，該群體遭受的錯誤標記的普遍程度更高。

這真是令人震驚的不平等。對於任何種族的被告來說，被標記意味著要承受標記是錯誤的巨大風險。這可能會導致額外的監禁年限，並且無法確認這是否合理（因為被監禁的被告失去了證明未來不會犯罪的自由）。對於黑人人口來說，比白人更頻繁地承受這種風險更是雪上加霜：黑人不僅更有可能首先成為被告，而且黑人被告也更有可能因對未來犯罪的錯誤預測而被不公正地判處額外的刑期。

這種不平等並非新鮮事。即使在預測模型出現之前，考慮嫌疑人的定罪歷史的常見做法也會對非裔美國人群體造成同樣的迴圈延續。現在的不同之處在於，它已被明確量化並廣為人知。意識正在提高，採取行動的動力將會增長。

鑑於這一啟示，預測性警務處於理想的位置，可以做出回應並採取行動。預測性警務旨在整合支援整個執法部門決策的技術，它已經構建了一個理想的平臺，可以在該平臺上系統地、廣泛地部署新的種族平等實踐。這是種族公正前所未有的機會。

為此，讓我們對執法部門的決策者進行關於觀察到的不平等的教育和指導。培訓法官、假釋委員會和警官，讓他們瞭解在給出黑人嫌疑人、被告或罪犯再次犯罪的計算機率時，相關的注意事項。這樣做可以使這些決策者能夠以他們認為合適的任何方式納入這些考慮因素——就像他們最初對待預測機率一樣。

在使用再犯機率時，有三個關鍵的考慮因素需要反思

首先，透過代理變數，被告的種族影響了您正在檢視的計算機率。儘管種族不是公式的直接輸入，但 COMPAS 模型可能會納入近似於種族的未選擇的、非自願的因素，例如家庭背景、鄰里（“您的鄰里犯罪率高嗎？”）；教育水平（僅部分選擇）；以及家人和朋友的行為。FICO信用評分也受到了類似的批評，因為它納入了諸如“銀行賬戶數量”之類的因素，“這可能會以不公平的方式與文化——進而與種族——相互作用”。此外，COMPAS 模型被密封為“黑匣子”，因此執法部門、被告和公眾都不知道它如何納入這些因素。事實上，該模型的建立者最近透露，它僅納入了收集的 137 個因素中的六個因素，但哪六個因素仍然是專有秘密。然而，COMPAS 背後的公司創始人表示，如果與種族相關的因素（例如貧困和失業）“……從您的風險評估中省略，準確性就會下降。”

以這種方式保持內部工作專有性就像擁有專家證人而不允許辯方進行交叉詢問。這就像執行一項政策細節保密的公共政策。存在一場運動，要求演算法透明化，以實現問責制和正當程式，部分由威斯康星州的相關立法和紐約市推動，儘管美國最高法院去年拒絕受理一起相關案件。

其次，由於有偏見的真實情況，計算出的機率對黑人被告不利。傳統觀點和軼事證據支援這樣一種假設，即黑人個體比犯下相同罪行的白人個體更頻繁地受到調查、逮捕，進而被定罪。因此，用於開發犯罪預測模型的資料包括比黑人更多的白人“假陰性”案例——逍遙法外的罪犯。因為這種現象的普遍性，根據定義，是未觀察到的且不在資料中的，所以模型效能的度量並不能揭示黑人被告被不公正標記的頻率有多高。畢竟，模型本身並不預測犯罪；它預測定罪——你不知道你不知道什麼。有偏見的真實情況問題經常被報道，例如《華盛頓郵報》和資料科學家。

第三，黑人人口深受錯誤標記之害。由於被標記的頻率更高，不應受到標記的黑人被告和嫌疑人被錯誤標記的次數幾乎是不應受到標記的白人的兩倍。與上述前兩點不同，這並不一定意味著標記本身受到種族的不公平影響。然而，將這個系統性問題納入考慮，有助於促進更大的利益。這是一個機會，可以幫助彌補過去和現在的種族不公正以及隨之而來的權利剝奪迴圈。這就是預測性警務可以緩和此類迴圈模式，而不是無意中放大它們的方面。正如我們透過限制非法獲取證據時的定罪權來保護嫌疑人一樣，我們也可以選擇代表這個弱勢群體採取保護措施。對於執法部門來說，這是一個成為解決方案的一部分，而不是成為問題的一部分的獨特機會。

如果我們這樣做，預測性警務可能會變成披著狼皮的羊。它揭示了不平等現象，看起來具有威脅性——但它為實施新措施以對抗社會不公正提供了前所未有的機會。犯罪預測模型本身在設計上必須保持不考慮種族，但我們對它們進行語境化和應用的方式不能仍然如此。以這種方式重新引入種族是實現從僅僅篩選預測模型的種族偏見到有意設計預測性警務以積極推進種族公正的唯一途徑。