資料之害

關注算法系統如何影響全球邊緣化人群,是實現公正和公平未來的關鍵

安德烈亞·烏奇尼

在澳大利亞,他們稱之為“機器人債務”:一個自動化的債務追討系統,在那些依賴或曾經依賴社會救助的人群中引發了恐懼、焦慮、憤怒和羞恥感。2016年,該國的人類服務部引入了一種新的計算福利受益人年收入的方法,並開始向那些被認定為多領福利的人傳送自動催債信。新的會計方法意味著,可以將兩週的收入平均化來估算全年的收入——這對那些從事合同工、兼職或不穩定工作的人來說是個問題。報告顯示,該系統每年傳送的催債通知從2萬份增加到每週傳送多達2萬份。

此前,當系統識別出某人可能多領了福利時,會由人工負責調查該案件。然而,在自動化系統下,這個步驟被取消了;相反,證明自己沒有多領福利成為接受者的責任。這意味著要查明自己為何成為目標——通常需要花費數小時的電話溝通——並翻出遠至七年前的工資單副本。更糟糕的是,許多催債通知被髮送給了已經生活在困境中的人們。那些成為目標的人感到無能為力,因為他們幾乎沒有時間和資源來挑戰這個系統。報紙報道了至少一起自殺事件。一家社會服務組織最終報告說,他們調查的催債通知中有四分之一是錯誤的,澳大利亞參議院的一項調查得出結論,整個過程“從根本上缺乏程式公正”。2019年,經過多年的行動主義、公民社會動員以及政治和法律挑戰,一位法官裁定該系統非法,並在2020年以12億美元的價格達成了一項集體訴訟和解。

我們已經進入了“資料化時代”,世界各地的企業和政府都在獲取新型資訊,連結他們的資料集,並更多地使用演算法和人工智慧來獲得前所未有的洞察力,並做出更快、據稱更高效的決策。我們尚不完全瞭解所有影響。然而,關於我們每個人的驚人資訊量,加上新的計算能力,確實意味著我們變得無限可知——同時在質詢和挑戰我們的資料如何被使用方面能力有限。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


在威爾士卡迪夫大學的資料正義實驗室,我們維護著一個數據危害記錄,這是一個持續記錄全球各地報告的自動化和算法系統問題的日誌。我們分析這個記錄,以瞭解此類系統出錯的各種方式、公民團體如何應對新出現的問題,以及政府機構和法律系統如何應對其挑戰。我們希望,我們的研究將更深入地理解民主制度可能需要如何發展,以便在大資料時代更好地保護人民——特別是邊緣化群體。

加劇不平等

機器人債務醜聞是眾多表明許多新興資料系統中融入了權力失衡的案例之一。為了理解發生了什麼,我們需要回答諸如以下問題:為什麼在沒有為公民提供充分的正當程式保護的情況下引入了這樣一個錯誤率如此之高的系統?為什麼在推出之前沒有進行強有力的影響評估?為什麼在設計線上入口網站或幫助熱線時沒有充分考慮受影響者的需求?以及為什麼認為取消人工監督是允許的?它以及許多其他資料驅動系統的問題,很大程度上源於潛在的社會和政治背景——特別是長期存在的“值得幫助”和“不值得幫助”的公民二元對立,這種二元對立影響著他們被重視和對待的方式。

事實上,澳大利亞墨爾本大學的數學家西蒙·威廉姆斯在談到機器人債務案件時指出,自動化系統中一定程度的錯誤是不可避免的:總是會有假陽性和假陰性,這種差異應該導致更嚴格的審查,以及在實施此類專案之前進行影響調查和辯論。

麻省理工學院媒體實驗室的喬伊·布拉姆維尼的研究對於影響企業和政府機構重新思考他們對面部識別技術的使用至關重要。2016年,布拉姆維尼創立了演算法正義聯盟。她與蒂姆尼特·格布魯共同進行的性別陰影研究發現,面部識別技術通常表現出膚色和性別偏見。研究的系統最準確地識別白人男性,並且對膚色較深的人表現出更高的錯誤率,其中膚色較深的女性的錯誤率最高。鑑於此類系統可能會影響您旅行或獲得政府服務的能力,或者可能導致錯誤逮捕,這些錯誤率尤其成問題。布拉姆維尼認為,系統錯誤的部分原因是機器學習演算法是在主要包含白人面孔的資料集上訓練的。設計這些系統的高科技公司的員工大多是白人——這種不平衡可能會限制發現和解決偏見的能力。

同樣,新聞機構ProPublica的一項調查發現,預測被指控犯罪的人再次犯罪可能性的演算法,錯誤地將黑人被告評為高風險的可能性是白人被告的兩倍。類似的評分系統正在美國各地使用,並且可能會影響判刑、保釋金以及獲得康復而不是入獄的機會。由於這些模型是專有的,因此很難知道為什麼會發生這種情況,但這似乎與演算法分配給就業、貧困和家庭歷史等因素的權重有關。從不平等的世界中提取的資料將反映這種不平等,並且往往最終會強化它。

令人不安的是,研究人員發現,處於頂層的人——設計者和管理者——通常未能認識到他們正在引入的系統的侷限性。例如,底層資料集可能包含錯誤,或者它們可能是從其他不太相容的資料集中編譯而來的。而且,實施者通常也意識不到可能在實地造成問題的官僚或基礎設施複雜性。他們通常未能評估新系統對邊緣化人群的影響,或者與那些確實擁有必要經驗和知識的人協商。當演算法取代人類的判斷時,它們消除了受影響者的糾正性反饋,從而加劇了問題。

在其他時候,危害源於大資料的使用方式。我們的資料“尾氣”——我們在網上交流、旅行和進行交易時發出的資料——可以與其他資料集結合,以構建關於我們的詳細個人資料,並對我們進行分類和定向。人們可以根據宗教、性偏好、疾病、經濟脆弱性等等進行識別。例如,世界隱私論壇的帕姆·迪克森發現,資料經紀人(聚合和銷售消費者資料的公司)提供了一系列有問題的資料列表,例如患有成癮行為或痴呆症的個人以及強姦受害者等等。研究2008年金融危機的研究人員發現,銀行已經將線下和線上資料結合起來,對客戶進行分類和影響。2012年,美國司法部與富國銀行達成了一項1.75億美元的和解協議,原因是富國銀行被指控系統性地將黑人和西班牙裔借款人推向成本更高的貸款。

總的來說,資料系統可能造成的損害種類繁多。這些可能包括資料洩露造成的隱私洩露;工作場所監控迫使人們承擔超出其能力的工作量而造成的身體傷害;保險和利率提高;以及失去獲得食物、家庭護理和醫療保健等基本必需品的機會。在不平等的社會中,它們進一步鞏固了社會和歷史歧視。

異議的必要性

當人們試圖挑戰資料危害時會發生什麼?迄今為止,我們調查了澳大利亞、加拿大、荷蘭、紐西蘭、英國和美國政府使用新資料系統的案例。即使在這些民主社會中,僅依靠法律系統也可能需要數年時間,在此期間會消耗寶貴的精力和資源,同時家庭陷入危機。公民們正在將他們的時間和資源結合起來,形成一種集體和多管齊下的努力,其中包括民主的所有支柱。

在機器人債務案件中,受影響者建立了一個“不是我的債務”運動,用於匿名釋出他們的故事、獲得幫助和分享資源。維多利亞州法律援助執行刑事法律主任丹·尼科爾森表示,該組織努力發起聯邦法院的挑戰,部分原因是人們不願公開,此前人類服務部向媒體洩露了一位批評人士的私人詳細資訊。該組織後來在2019年成功挑戰了該系統。尼科爾森最擔心的問題之一是,政府將證明不欠債的責任轉移給了個人公民,儘管政府擁有遠遠優越的彙編證據的能力。

在荷蘭,個人和組織聯合起來,成功地對政府提起了針對系統風險指示(SyRI)的法院挑戰,該系統將公民資料聯絡起來,以預測誰可能實施欺詐。訴訟當事人辯稱,該系統侵犯了公民的權利,因為它將所有人視為有罪,直到被證明無罪。2020年,海牙地方法院裁定SyRI違反了《歐洲人權公約》。這個法庭案件很可能激勵其他民主國家的公民尋求保護他們的權利並擴大危害的定義。

在英國,defenddigitalme等組織正在提高人們對學校網路監控軟體的心理和社會影響的擔憂,以及這種軟體如何損害被錯誤標記為例如有自殺傾向或幫派成員的學生。在紐西蘭,非政府組織成功阻止了社會發展部要求所有社會服務提供者提供關於其客戶的資料才能獲得政府資助的企圖。非政府組織辯稱,這項要求可能會促使已經處於邊緣地位的群體成員,例如難民或家庭暴力受害者,因為害怕被識別而避免尋求幫助。

在阿肯色州小石城,該州人類服務部引入的一項演算法被指責不公正地削減了重度殘疾人的家庭護理時間。此前,家庭護理護士決定家庭護理時間。變更後,他們幫助人們填寫問卷並將資料輸入計算機系統——然後由演算法決定。政府代表辯稱,自動化系統確保家庭護理時間的分配是公平和客觀的。一些人強烈反對,並在阿肯色州法律援助的幫助下,其中七人將該部門告上法庭。其中六人每週的家庭護理時間被削減了30%以上。法庭檔案令人不忍卒讀,每位原告都敘述了削減對其生活和健康的影響。

阿肯色州法律援助律師凱文·德·利班透過法院命令提取的關於該演算法的資訊中,發現了該演算法及其實施方式的諸多問題。2018年5月,一位法官下令人類服務部停止使用該演算法,但該機構拒絕了——於是法官裁定該部門藐視法庭。最終挑戰成功,該機構於2018年停止使用該演算法。

這些案例說明了集體動員在保護人們免受資料系統造成的不公正待遇方面的重要性。對於資源相對有限或無法獲得有關資料系統內部資訊的個人來說,單獨質詢系統或在受到損害時尋求補救是很困難的。除了發起集體挑戰之外,還需要就保護公民權利所需的資料系統的透明度、問責制和監督進行更廣泛的公眾討論。此外,應該如何傳達關於這些新系統的資訊,以便每個人都能理解?政府在確保資料素養方面有何義務?是否存在禁區?當然,作為民主問責制的第一步,應該提供政府在何處以及如何引入資料系統以及共享人們資料的地圖。

同樣重要的是確保公民能夠有意義地挑戰影響他們的系統。鑑於資料化系統總是容易出錯,人類反饋變得至關重要。應該歡迎批評,而不是抵制。對治理進行根本性的反思是必要的——特別是關於資料系統如何成為系統性歧視和暴力長期歷史的一部分,異議和合作對於民主運作的必要性,以及公共機構和當局如何在充斥著不平等和資料的社會中更好地促進兩者的問題。

© .