資料之害

關注算法系統如何影響全球邊緣化人群,是實現公正公平未來的關鍵

安德烈亞·烏奇尼

在澳大利亞,他們稱之為“機器人債務”:一種自動化債務追討系統,給依賴或曾經依賴社會救助的人們帶來了恐懼、焦慮、憤怒和羞恥。2016年,該國的人類服務部推出了一種新的計算福利受益人年收入的方法,並開始向那些被認定為多領福利的人傳送自動催債信。新的會計方法意味著可以將每兩週的收入平均化來估算全年的收入——這對那些從事合同工、兼職或不穩定工作的人來說是個問題。報告顯示,該系統每年傳送的催債通知從2萬份增加到每週傳送多達2萬份。

此前,當系統識別出某人可能多領了福利時,會由人工負責調查該案件。然而,在自動化系統下,這個步驟被取消了;相反,證明自己沒有多領福利成了接受者的責任。這意味著要找出自己被盯上的原因——通常需要花費數小時的電話溝通——並翻出遠至七年前的工資單副本。更糟糕的是,許多催債通知被髮送給了已經生活在困境中的人們。那些被針對的人感到無能為力,因為他們幾乎沒有時間和資源來挑戰這個系統。《報紙》報道了至少一起自殺事件。一家社會服務組織最終報告說,它調查的催債通知中有四分之一是錯誤的,澳大利亞參議院的一項調查得出結論,認為“程式公平的根本缺失”貫穿了整個過程。2019年,經過多年的行動主義、公民社會動員以及政治和法律挑戰,一位法官裁定該系統非法,一項集體訴訟於2020年以12億美元達成和解。

我們已經進入了“資料化時代”,世界各地的企業和政府都在獲取新型資訊,連線他們的資料集,並更多地利用演算法和人工智慧來獲得前所未有的洞察力,並做出更快、據稱更高效的決策。我們尚不完全瞭解所有的影響。然而,關於我們每個人的驚人資訊量,加上新的計算能力,確實意味著我們變得無限可知——同時我們在質詢和挑戰我們的資料如何被使用方面的能力有限。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們今天世界的發現和想法的具有影響力的故事的未來。


在威爾士卡迪夫大學的資料公正實驗室,我們維護著一個數據危害記錄,這是一個持續記錄全球各地報告的自動化和算法系統問題的日誌。我們分析這份記錄,以瞭解這些系統出錯的各種方式、公民團體如何應對新出現的問題,以及政府機構和法律系統如何應對這些挑戰。我們希望,我們的研究將使人們更深入地瞭解民主制度可能需要如何演變,才能在大資料時代更好地保護人民——特別是邊緣化群體。

加劇不平等

機器人債務醜聞是眾多表明許多新興資料系統中都包含權力失衡的案例之一。為了理解發生了什麼,我們需要回答諸如以下問題:為什麼一個錯誤率如此之高的系統在沒有為公民提供充分的正當程式保護的情況下就被引入?為什麼在推出之前沒有進行穩健的影響評估?為什麼在設計線上門戶或幫助熱線時沒有充分考慮受影響者的需求?以及為什麼取消人工監督被認為是允許的?它以及許多其他資料驅動系統的問題,很大程度上源於潛在的社會和政治背景——具體而言,長期存在的“值得”和“不值得”公民的二元對立,這影響了他們如何被重視和對待。

事實上,正如澳大利亞墨爾本大學的數學家西蒙·威廉姆斯在談到機器人債務案件時指出的那樣,自動化系統中一定程度的錯誤是不可避免的:總是會出現誤報和漏報,而這種差異應該導致更廣泛的審查,以及在實施此類計劃之前進行影響調查和辯論。

麻省理工學院媒體實驗室的喬伊·布奧拉姆維尼的研究對於影響企業和政府機構重新思考他們對面部識別技術的使用至關重要。2016年,布奧拉姆維尼創立了演算法公正聯盟。她與蒂姆尼特·格布魯合作進行的性別陰影研究發現,面部識別技術通常表現出膚色和性別偏見。研究的系統最準確地識別白人男性,並且對於較深膚色的人表現出更高的錯誤率,其中膚色較深的女性的錯誤率最高。鑑於這些系統可能會影響您的旅行能力或獲得政府服務的能力,或者可能導致錯誤逮捕,這些錯誤率是一個特別嚴重的問題。布奧拉姆維尼認為,系統錯誤的部分原因是機器學習演算法是在主要包含白人面孔的資料集上訓練的。設計這些系統的高科技公司的員工大多是白人——這種失衡可能會限制發現和解決偏見的能力。

同樣,新聞機構ProPublica的一項調查發現,預測被指控犯罪的人再次犯罪的可能性演算法,在錯誤地將黑人被告列為高風險方面,是白人被告的兩倍。美國各地都在使用類似的評分系統,並且可能會影響判刑、保釋金以及獲得康復而不是入獄的機會。由於這些模型是專有的,因此很難知道為什麼會發生這種情況,但這似乎與演算法分配給諸如就業、貧困和家庭歷史等因素的權重有關。從不平等世界中提取的資料將反映這種不平等,並且往往最終會加劇這種不平等。

令人不安的是,研究人員發現,處於頂層的人——設計者和管理者——通常未能認識到他們正在引入的系統的侷限性。例如,底層資料集可能包含錯誤,或者它們可能是從其他不太相容的資料集中編譯而來的。而且,實施者通常也意識不到可能在實地造成問題的官僚或基礎設施複雜性。他們通常未能評估新系統對邊緣化人群的影響,或諮詢那些確實具有必要經驗和知識的人。當演算法取代人為判斷時,它們消除了來自受影響者的糾正性反饋,從而加劇了問題。

在其他時候,危害源於大資料的使用方式。我們的資料“尾氣”——我們在網上交流、旅行和進行交易時產生的資料——可以與其他資料集結合起來,構建關於我們的詳細個人資料,並對我們進行分類和定位。人們可以根據宗教、性偏好、疾病、財務脆弱性等等來識別。例如,世界隱私論壇的帕姆·迪克森發現,資料經紀人(聚合和銷售消費者資料的公司)提供了一系列有問題的資料列表,例如患有成癮行為或痴呆症的人以及強姦受害者等等。研究2008年金融危機的研究人員發現,銀行已經將線下和線上資料結合起來,對客戶進行分類和影響。2012年,美國司法部與富國銀行達成了1.75億美元的和解協議,原因是富國銀行被指控系統性地將黑人和西班牙裔借款人推向成本更高的貸款。

總的來說,資料系統可能造成的損害種類繁多。這些可能包括資料洩露造成的隱私洩露;工作場所監控迫使人們承擔超出其能力的工作而造成的身體傷害;保險費率和利率的提高;以及基本必需品的喪失,例如食物、家庭護理和醫療保健。在不平等的社會中,它們進一步鞏固了社會和歷史歧視。

異議的必要性

當人們試圖挑戰資料危害時會發生什麼?迄今為止,我們已經調查了澳大利亞、加拿大、荷蘭、紐西蘭、英國和美國政府使用新資料系統的案例。即使在這些民主社會中,僅僅依靠法律系統也可能需要數年時間,在此期間,寶貴的精力和資源被耗盡,而家庭卻陷入危機。公民們正在將他們的時間和資源集中起來,進行集體和多管齊下的努力,其中包括民主的所有支柱。

在機器人債務案件中,受影響者建立了一個“非我的債務”運動,用於匿名釋出他們的故事、獲得幫助和分享資源。維多利亞法律援助刑事法執行主任丹·尼科爾森表示,該組織難以發起聯邦法院的挑戰,部分原因是,在人類服務部向媒體洩露了一位批評者的私人詳細資訊後,人們不願公開露面。該組織後來確實在2019年成功挑戰了該系統。尼科爾森最擔心的問題之一是,政府如何將證明無債務的責任轉移給個人公民,儘管政府在彙編證據方面具有巨大優勢。

在荷蘭,個人和組織共同成功地對政府提起了法院訴訟,反對系統風險指示(SyRI),該系統將公民資料聯絡起來以預測誰可能犯下欺詐行為。訴訟者認為,該系統侵犯了公民的權利,因為它將所有人視為有罪,直到被證明無罪。2020年,海牙地方法院裁定SyRI違反了《歐洲人權公約》。這個法庭案件可能會激勵其他民主國家的公民尋求保護自己的權利並擴大危害的定義。

在英國,defenddigitalme等組織正在對學校網路監控軟體的心理和社會影響,以及它可能損害被錯誤標記為有自殺傾向或幫派成員的學生的方式提出擔憂。在紐西蘭,非政府組織(NGO)成功阻止了社會發展部要求所有社會服務提供者提供關於其客戶的資料才能獲得政府資助的企圖。非政府組織認為,這項要求可能會促使已經處於邊緣地位的群體成員,例如難民或家庭暴力受害者,因為害怕被識別而避免尋求幫助。

在阿肯色州小石城,該州人類服務部引入的一種演算法被指責不公正地削減了重度殘疾人士的家庭護理時間。此前,家庭護理護士決定家庭護理時間。變更後,他們幫助人們填寫調查問卷並將資料輸入計算機系統——然後由演算法決定。政府代表辯稱,自動化系統確保家庭護理時間的分配是公平和客觀的。一些人強烈反對,並在阿肯色州法律援助的幫助下,其中七人將該部門告上法庭。六人的每週家庭護理時間被削減了30%以上。法庭檔案令人不寒而慄,每位原告都敘述了削減對其生活和健康的影響。

阿肯色州法律援助律師凱文·德利班透過法院命令提取的關於該演算法的資訊,發現該演算法及其實施方式存在許多問題。2018年5月,一位法官命令人類服務部停止使用該演算法,但該機構拒絕了——隨後法官裁定該部門藐視法庭。挑戰最終獲得成功,該機構於2018年停止使用該演算法。

這些案例說明了集體動員在保護人們免受資料系統造成的不公正待遇方面的重要性。對於個人而言,由於資源相對有限或無法獲得關於資料系統的內部資訊,很難單獨質詢這些系統或在受到傷害時尋求補救。除了發起集體挑戰外,還需要就保護公民權利所需的資料系統的透明度、問責制和監督進行更廣泛的公眾討論。此外,應該如何傳達關於這些新系統的資訊,以便每個人都能理解?政府在確保資料素養方面有何義務?是否存在禁區?當然,作為民主問責制的第一步,應該提供政府在何處以及如何引入資料系統以及共享人民資料的地圖。

同樣重要的是確保公民能夠有意義地挑戰影響他們的系統。鑑於資料化系統總是容易出錯,人為反饋變得至關重要。應該歡迎批評,而不是抵制。有必要對治理進行根本性的反思——特別是關於資料系統如何在系統性歧視和暴力的漫長曆史中發揮作用的問題,關於異議和協作對於民主運作的必要性,以及公共機構和當局如何在不平等和資料滲透的社會中更好地促進兩者的問題。

© .