人口普查資料如何使跨性別兒童面臨風險

人口普查局必須改進其資料匿名化方法,以保護弱勢群體

Handheld Transgender Pride Flag at Bristol Trans Rights March.

每十年,美國人口普查局都會清點美國的人口,力求在收集準確資訊和保護資料中描述的人的隱私之間取得平衡。但當前的技術可以透過連結看似匿名的資訊(例如他們的社群和年齡)來揭示一個人的跨性別身份,從而發現他們在連續的人口普查中報告的性別不同。解匿名化性別和其他資料的能力可能會給居住在試圖將他們定為犯罪的州的跨性別者和家庭帶來災難。

在德克薩斯州這樣的地方,為跨性別兒童尋求醫療護理的家庭可能會被指控虐待兒童,州政府需要知道哪些青少年是跨性別者才能進行調查。我們擔心人口普查資料可能被用來使這種調查和懲罰更容易進行。公開發布的資料集中匿名化方式的缺陷是否會被利用來找到跨性別兒童,並懲罰他們及其家人?這與 2018 年公眾強烈抗議人口普查要求人們透露公民身份的擔憂類似——擔心這些資料將被用來尋找在美國非法居住的人並懲罰他們。

利用我們在資料科學和資料倫理方面的專業知識,我們使用了旨在模仿人口普查局公開發布的資料集而設計的模擬資料,並試圖重新識別跨性別青少年,或者至少縮小他們可能居住的範圍,不幸的是,我們成功了。使用人口普查局在 2010 年使用的資料匿名化方法,我們能夠識別出 605 名跨性別兒童。值得慶幸的是,人口普查局正在採用一種新的差分隱私方法,這將全面提高隱私性,但這仍然是一項正在進行中的工作。當我們檢視最新釋出的資料時,我們發現該局的新方法將識別率降低了 70%——好得多,但仍有改進空間。


關於支援科學新聞業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關發現和塑造我們當今世界的想法的具有影響力的故事的未來。


即使作為研究人員,我們使用人口普查資料來回答有關美國生活的問題以開展我們的工作,但我們堅信隱私至關重要。人口普查局目前正在進行公眾評議期,以設計 2030 年人口普查。提交的意見可能會影響人口普查的進行方式,以及人口普查局將如何進行資料匿名化。以下是這為何重要的原因。

聯邦政府收集人口普查資料,以便就諸如國會選區的大小和形狀,或如何分配資金等事項做出決策。然而,政府機構並不是唯一使用這些資料的人。經濟學和公共衛生等各個領域的研究人員使用公開發布的資訊來研究國家狀況並提出政策建議。

但是,資料解匿名的風險是真實存在的,而且不僅僅針對跨性別兒童。在一個私人資料收集和訪問強大的計算系統越來越普遍的世界中,有可能解開人口普查局構建到資料中的隱私保護措施。也許最著名的是,計算機科學家 Latanya Sweeney 表明,僅憑郵政編碼、出生日期和分配的性別,幾乎 90% 的美國公民都可以被重新識別出來。

在 2021 年 8 月,人口普查局做出了回應。該組織使用了密碼學家首選的差分隱私方法來保護其重新劃分選區的資料。數學家和計算機科學家一直被這種方法的數學優雅性所吸引,該方法涉及有意地在關鍵人口普查計數中引入可控的誤差量,然後清理結果以確保它們保持內部一致性。例如,如果人口普查精確地統計了某個特定縣有 16,147 人認定自己是美洲原住民,它可能會報告一個接近但不同的數字,例如 16,171。這聽起來很簡單,但縣由人口普查區組成,人口普查區又由人口普查街區組成。這意味著,為了獲得一個接近原始計數的數字,人口普查還必須調整每個普查街區和普查區的美洲原住民人數;人口普查局方法的藝術在於使所有這些接近但不相同的數字加起來得到另一個接近但不相同的數字。

人們可能會認為保護人們的隱私是理所當然的事情。但是一些研究人員,主要是那些工作依賴於現有資料隱私方法的研究人員,對此有不同的看法。他們認為,這些變化將使研究人員在實踐中更難開展工作,而人口普查局正在防範的隱私風險在很大程度上是理論上的。

請記住:我們已經證明風險並非理論上的。以下是我們如何做到這一點的一些資訊。

我們重建了每個普查街區 18 歲以下人口的完整列表,以便我們可以瞭解他們在 2010 年的年齡、性別、種族和民族。然後,我們將此列表與 2020 年的類似列表進行匹配,以找到現在年長 10 歲且報告性別不同的人。這種方法稱為重建輔助連結攻擊,只需要公開發布的資料集。當我們對其進行審查並正式提交給人口普查局時,它足夠強大且令人擔憂,以至於激發了來自波士頓大學和哈佛大學的研究人員聯絡我們,以瞭解更多關於我們工作的細節。

我們模擬了一個不良行為者可能做的事情,那麼我們如何確保此類攻擊不會發生?人口普查局正在認真對待隱私的這一方面,而使用這些資料的研究人員絕不能阻礙他們。

人口普查是在付出巨大勞動和巨大成本的情況下收集的,我們將從這項工作產生的資料中受益。但是這些資料也可能造成危害,人口普查局在保護隱私方面的工作已經取得了長足的進步,以減輕這種風險。我們必須鼓勵他們繼續努力。

這是一篇觀點和分析文章,作者或作者表達的觀點不一定代表《大眾科學》的觀點。

Os Keyes 是華盛頓大學的博士候選人,對技術和醫學的哲學和社會學感興趣。作為首屆 Ada Lovelace 研究員,他們的學術著作發表在 Big Data & Society, Cultural Studies 和 Proceedings of the ACM in Computer-Human Interaction;他們的公共利益寫作已發表在 ViceWired大眾科學 上。

更多作者:Os Keyes

Abraham D. Flaxman 是華盛頓大學健康指標科學和全球健康副教授。他領導健康指標與評估研究所的模擬科學研究團隊,該團隊與美國人口普查局簽訂了合作協議,以開發用於記錄連結的新軟體工具。

更多作者:Abraham D. Flaxman
© .