幾十年來,許多研究人員認為,在預測獲釋罪犯是否會再次入獄方面,統計資料比人類更有效。如今,商業風險評估演算法正在全國各地的法院協助進行此類預測。他們的結果可以為法律官員在量刑、保釋和假釋方面做出決定提供參考。儘管在過去幾年中,專家們對這些工具的準確性和公正性提出了擔憂,但半自動化司法的廣泛採用仍在繼續。最近,一篇新的科學進展 論文於週五發表,發現演算法在預測獲釋罪犯是否會在兩年內再次被捕方面優於人類。然而,參與先前研究的研究人員對這些結果提出了質疑。目前分析一致認為的一點是,沒有人是完美的——人類和演算法的預測都可能不準確且存在偏見。
這項新研究是對2018年科學進展 論文的直接回應,該論文發現,未經訓練的人類在預測累犯方面與一種名為“懲教罪犯管理替代制裁剖析”(COMPAS)的流行風險評估軟體表現相當,累犯指的是被判刑的罪犯是否會再次犯罪。這項研究引起了廣泛關注,部分原因是它與人們普遍的認知相悖。臨床心理學家“保羅·米爾”在1954年的一本著名著作中指出,“精算或統計預測幾乎總是優於未經指導的人類判斷,”弗吉尼亞大學法學院的心理學家約翰·莫納漢說,他沒有參與最近的研究,但曾與其中一位作者合作。“在過去的六十年裡,大量的研究證明他是正確的。”當2018年的論文發表後,COMPAS的經銷商,刑事司法軟體公司Equivant(前身為Northpointe),在其網站上釋出了一份官方回應,稱該研究誤解了風險評估程式,並質疑了所使用的測試方法。當大眾科學最近聯絡Equivant代表時,他們表示沒有其他評論可以新增到這份回應中。
為了檢驗2018年論文的結論,斯坦福大學和加州大學伯克利分校的研究人員最初採用了類似的方法。這兩項研究都使用了COMPAS進行的風險評估資料集。該資料集涵蓋了佛羅里達州布勞沃德縣約7000名被告,幷包括每個人的“風險因素”——重要資訊,如性別、年齡、該人被指控的罪行以及其先前的犯罪次數。它還包含了COMPAS對被告在獲釋後兩年內是否會再次被捕的預測,以及該預測是否成真的確認。透過這些資訊,研究人員可以衡量COMPAS的準確性。此外,研究人員還使用這些資料建立了基於每位被告風險因素的概況或小插曲,並將這些概況展示給透過亞馬遜Mechanical Turk平臺招募的數百名未經訓練的人員。然後,他們詢問參與者,他們是否認為小插曲中的人會在兩年內再次犯罪。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。
2018年的研究發現,COMPAS的準確率約為65%。個別人類的正確率略低,而人類的綜合估計則略高。最近的一篇論文遵循與該論文研究人員相同的程式,證實了這些結果。“我們注意到的第一個有趣的事情是,我們實際上可以複製他們的實驗,”新研究的合著者、斯坦福大學的計算社會科學家沙拉德·戈埃爾說。“但隨後我們以各種方式改變了實驗,並將實驗擴充套件到其他幾個資料集。”他說,在這些額外的測試過程中,演算法顯示出比人類更高的準確性。
首先,戈埃爾和他的團隊擴大了原始實驗的範圍。例如,他們測試了在預測因任何罪行而被捕與預測暴力犯罪而被捕時,準確率是否會發生變化。他們還分析了多個程式的評估結果:COMPAS、另一種名為服務水平清單修訂版 (LSI-R)的風險評估演算法,以及研究人員自己構建的模型。
其次,該團隊以幾種方式調整了實驗的引數。例如,之前的研究在人類受試者每次做出預測後都給予反饋,使人們可以在工作時學到更多。新論文表明,這種方法並不符合某些現實場景,在現實場景中,法官和其他法院官員可能不會立即——或者根本不會——瞭解他們決定的結果。因此,新研究對一些受試者給予了反饋,而對另一些受試者則沒有給予反饋。“我們在那裡發現,如果我們不提供即時反饋,那麼人類的表現會急劇下降,”戈埃爾說。
最初研究的研究人員不同意反饋會使他們的實驗不切實際的觀點。朱莉婭·德雷塞爾在達特茅斯學院攻讀計算機科學本科時參與了該論文的研究,目前是Recidiviz的軟體工程師,Recidiviz是一家為刑事司法改革構建資料分析工具的非營利組織。她指出,Mechanical Turk上的人可能對刑事司法系統沒有任何經驗,而現實世界中預測犯罪行為的人則有經驗。她的合著者漢尼·法裡德是一位計算機科學家,他於2018年在達特茅斯工作,目前在加州大學伯克利分校工作,他也同意,在現實生活中使用COMPAS等工具的人比2018年研究中接受反饋的人擁有更多的專業知識。“我認為他們有點過於字面地理解了反饋,因為當然,法官、檢察官、假釋委員會和緩刑監督官擁有大量關於人們的資訊,這些資訊是他們多年積累的。他們會在做決定時使用這些資訊,”他說。
新論文還測試了,揭示更多關於每個潛在累犯的資訊是否會改變預測的準確性。最初的實驗僅向預測者提供了關於每位被告的五個風險因素。戈埃爾和他的同事測試了這種情況,並將結果與他們提供另外10個風險因素時的結果進行了比較。資訊量更高的情況更類似於真實的法庭場景,在真實的法庭場景中,法官可以訪問關於每位被告的五個以上的資訊。戈埃爾懷疑這種情況可能會讓人類感到困惑,因為額外的資料可能會分散注意力。“很難以合理的方式整合所有這些事情,”他說。儘管他有所保留,但研究人員發現,人類的準確率保持不變,儘管額外的資訊可以提高演算法的效能。
基於更廣泛的實驗條件,新研究得出結論,COMPAS和LSI-R等演算法在預測風險方面確實優於人類。莫納漢認為這一發現是有道理的,他強調,人們很難對累犯做出有根據的猜測。“我不清楚,在現實生活中——當實際的法官面對許多許多可能是風險因素的事情,並且沒有得到反饋時——人類法官怎麼可能像統計算法那樣好,”他說。但戈埃爾警告說,他的結論並不意味著應該毫無保留地採用演算法。“關於在刑事司法系統中正確使用風險評估,仍然存在許多懸而未決的問題,”他說。“我不想讓人們得出這樣的想法,‘演算法比人類更好。所以現在我們可以都回家了。’”
戈埃爾指出,研究人員仍在研究風險評估演算法如何編碼種族偏見。例如,COMPAS可以判斷一個人是否可能再次被捕——但一個人可能在沒有犯罪的情況下被捕。“因低級別犯罪而被捕將取決於警務發生在哪裡,”戈埃爾說,“而警務本身就高度集中在少數族裔社群。”多年來,研究人員已經一直在探索演算法中的偏見程度。德雷塞爾和法裡德也在他們2018年的論文中考察了這些問題。“將人類從[迴圈]中移除並消除偏見這種想法的部分問題是:它忽略了一個巨大的、顯而易見的問題,即歷史資料充滿了偏見——針對女性、有色人種、LGBTQ,”法裡德說。
德雷塞爾還指出,即使在表現優於人類時,新研究中測試的風險評估工具的準確率也不是很高。“COMPAS工具的準確率約為65%,LSI-R的準確率約為70%。當您考慮到這些工具如何在法庭環境中被使用時,它們具有非常深刻的意義——如果某人在審判前被拘留數週,可能會對某人的生活產生非常重大的影響——我認為我們應該對它們提出比65%到70%的準確率更高的標準——並且僅僅比人類預測略好。”
儘管所有研究人員都同意,應該謹慎應用演算法,而不是盲目信任,但COMPAS和LSI-R等工具已經在刑事司法系統中得到廣泛應用。“我稱之為技術烏托邦,這種認為技術可以解決我們所有問題的想法,”法裡德說。“如果過去的20年教會了我們什麼,那應該是這根本不是真的。”
