世界每天產生大約 2.5 百萬兆位元組的數字資料,這進一步擴充了資訊海洋,其中包含許多人健康和習慣的私密細節。為了保護隱私,資料經紀人在與研究人員和營銷人員共享記錄之前,必須對這些記錄進行匿名化處理。但一項新的研究發現,即使資料集不完整,從據稱匿名化的資料集中重新識別一個人也相對容易。
海量資料儲存庫可以揭示趨勢,從而使醫學研究人員瞭解疾病,展示諸如收入不平等的影響等問題,指導人工智慧實現類人行為,當然,還可以更有效地進行廣告投放。為了保護那些(有意或無意)向這些數字倉庫貢獻個人資訊的人們,大多數經紀人都會對他們的資料進行去識別化處理。此過程包括刪除明顯的標記,包括姓名和社會安全號碼,有時還會採取其他預防措施,例如向集合中引入隨機的“噪聲”資料,或用一般細節替換特定細節(例如,將“1990 年 3 月 7 日”的出生日期替換為“1990 年 1 月至 4 月”)。然後,經紀人釋出或出售這部分資訊。
倫敦帝國學院計算隱私學助理教授,新研究的合著者 Yves-Alexandre de Montjoye 說:“資料匿名化基本上是我們過去 25 年來如何在保護人們隱私的同時,將資料用於統計目的和研究的方式。”該研究本週發表在《自然通訊》(Nature Communications) 上。然而,許多常用的匿名化技術起源於 20 世紀 90 年代,當時網際網路的快速發展尚未使收集如此大量的關於個人健康、財務以及購物和瀏覽習慣等方面的詳細資訊成為可能。這種差異使得將匿名資料行與特定人員聯絡起來相對容易:如果一位私家偵探在紐約市尋找某人,並且知道該物件是男性,年齡在 30 到 35 歲之間,並且患有糖尿病,那麼這位偵探將無法推斷出該男子的姓名,但如果他還知道目標物件的生日、子女數量、郵政編碼、僱主和汽車型號,則很可能很容易做到這一點。
支援科學新聞事業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
在過去幾年中,Montjoye 和其他研究人員發表了一些研究,從匿名購物資料或健康記錄等資料集中重新識別了個人。有些人認為,重新識別的風險相對較低,因為這些資料集通常僅反映了人口的一小部分,這造成了任何特定人員是否包含在列表中的不確定性。但是,這項新研究開發了一個統計模型,以計算任何匿名資料條目與其真實身份相關聯的可能性。研究發現,即使在處理不完整的資料集時,這樣做也令人不安地容易。
Montjoye 說:“在美國,平均而言,如果您有 15 個特徵(包括年齡、性別或婚姻狀況),就足以在任何匿名資料集中以 99.98% 的機率重新識別美國人。” 雖然 15 條人口統計資訊聽起來很多,但就實際存在的資訊而言,這只是滄海一粟:2017 年,一家營銷分析公司因意外發布匿名資料集而陷入困境,該資料集包含 1.23 億美國家庭中每個家庭的 248 個屬性。
這會對您的個人資料構成多大的風險?對於這項新研究,研究團隊建立了一個數字工具,允許個人網際網路使用者檢視他們從匿名資訊轉儲中被重新識別的可能性有多大。根據此工具,其普通使用者有 83% 的重新識別風險。而且,在選擇退出資訊收集方面,人們幾乎無能為力。西北大學凱洛格管理學院營銷學副教授 Jennifer Cutler(未參與這項新研究)說:“一個偏執的消費者可以完全停止在網上釋出任何內容,停止使用網際網路,不使用任何應用程式,放棄使用手機,不使用信用卡——但在這個時代,這樣做確實不切實際。” “我們今天的生活在很大程度上是線上的,並且總是需要權衡取捨。政策制定者沒有完全壓制和限制任何資料共享是有原因的。這是因為資料共享和這些模型可以用於偉大的事業。”
Montjoye 建議資料經紀人需要開發新的匿名化技術並嚴格測試它們,以確保第三方無法根據個人統計資料識別個人身份,而不是完全禁止資料收集。“問題主要在於當前在匿名化方面的實踐,”他說。“目前,我們只看到了冰山一角,但令人擔憂的是,它沒有實現防止重新識別的目標。標準需要更高,實踐需要審查。”
由於個人幾乎沒有追索權,一些人認為,要讓資料經紀人達到更高的標準,可能需要新的立法。這項研究的合著者、比利時天主教魯汶大學的博士候選人 Luc Rocher 說:“由於資料是匿名的,資料收集者不必徵求資料主體的同意,因此您不知道您的資料是否正在被收集並與第三方共享。” “我認為,在這裡,更多的是關於法規更好地保護我們個人資料的責任問題。”
Cutler 同意,以研究為後盾的立法將是必要的。她說:“跨學科研究人員和政策制定者確實需要繼續開展工作,就像本文中所做的那樣,”以制定循證監管,“以便我們能夠在創新和進步之間管理最健康的平衡,同時儘可能地保護使用者。”
