如何透過消費者基因資料庫識別幾乎任何人

深入挖掘基因資料庫的新技術可能很快使客戶 DNA 的匿名性無法得到保障

研究人員越來越擅長從家譜、醫療和警方基因資料庫中挖掘資訊,以至於保護任何人的隱私變得越來越困難,即使是那些從未提交 DNA 進行分析的人也是如此。

在 10 月 11 日發表的兩項獨立研究中,研究人員報告說,透過測試消費者基因資料庫中包含的 128 萬個樣本,他們可以將 1.4 億歐洲血統美國人中 60% 的 DNA 與三級表親或更近的親屬進行匹配。他們在發表在《科學》雜誌上的研究中表示,隨著 AncestryDNA 和 23andMe 等消費者資料庫中的樣本數量增加,這一數字將很快上升到接近 100%。

在《細胞》雜誌的第二項研究中,另一個研究小組表明,警方資料庫(曾經被認為是由無意義的 DNA 組成,僅用於將嫌疑人與犯罪現場樣本進行匹配)可以與基因資料庫交叉連結,以將個人與其基因資訊聯絡起來。“這兩篇論文都展示了你能深入到一個家庭和一個群體到什麼程度,”紐約大學法學院的法學教授艾琳·墨菲說。她表示,決定與消費者資料庫共享 DNA 的消費者正在提供有關其父母、子女、他們不瞭解的三級表親,甚至是可能指向尚未出生的孩子的線索的資訊。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。


在第一項研究中,研究人員查看了 128 萬歐洲血統美國人的資料庫,發現這足以提供有關數百萬不在資料庫中的個人的資訊。該資料庫來自 MyHeritage 公司,該公司既測試基因組(AncestryDNA 和 23andMe 也是如此),也允許將它們上傳以進行進一步的家譜分析,就像使用 GEDmatch 資料庫一樣。

Ancestry 和 23andMe 表示,他們會竭盡全力保護其測試結果的隱私,但當上傳到其他資料庫時,資料可能會被訪問。“在美國擁有歐洲血統的個人中,找到三級表親的機會約為 60%,”該論文的第一作者、MyHeritage 的首席科學官 Yaniv Erlich 說。他建議,可能應該加密基因資料以保護個人資訊,儘管這可能會使警方和研究人員希望進行的搜尋複雜化。(在本文發表後,23andMe 指出,只有當客戶自行決定時才會上傳到其他資料庫。)

該技術依賴於遠親之間的聯絡。“把你的家庭想象成洋蔥的層次,”他說。你最親近的親戚是父母、子女和兄弟姐妹。下一層是堂/表兄弟姐妹,你可能有很多。再下一層,你就到了二代堂/表兄弟姐妹,以此類推,直到你發現自己與許多你根本不認識的三代堂/表兄弟姐妹有親戚關係。“當涉及到非常遙遠的親戚時,聯絡的機會要高得多,”他說。今年早些時候,這些型別的聯絡被用來識別所謂的金州殺人案中的一名嫌疑人,他與犯罪的聯絡部分是透過基因資料庫中親戚的 DNA 實現的。

一旦警方獲得了與遠親的基因聯絡,他們就可以繪製一個龐大而複雜的族譜,可能過於龐大而無法分析。但是,然後他們可以根據其他資料(他們居住的地方、年齡、性別等等)排除許多相關的個人,Erlich 指出。其中大部分資訊來自消費者廣泛共享的族譜。以這種方式整理資料後,可以將大約 850 名親屬減少到 15 名,他們可能與相關犯罪有合理的聯絡。

然後,警方可以開始挨家挨戶敲門,並進行他們通常進行的調查。“真正能夠利用這些公共家譜資料庫來識別個人,這在過去一年才變得清晰起來,”馬薩諸塞州總醫院分析和轉化遺傳學部門的負責人丹尼爾·麥克阿瑟說。“學術界並沒有意識到這些資料庫有多大,以及它們如何容易地被用來三角定位基因身份。”

第二項研究表明,警方資料庫包含的基因資訊比研究人員預期的要多。法醫資料庫儲存著少量稱為 STR 的識別標記的資訊。消費者資料庫使用更詳細的標記面板,稱為 SNP。直到最近,人們還認為兩者之間沒有聯絡。華盛頓大學生物統計學教授布魯斯·韋爾說,現在很明顯,法醫資料庫包含一些 SNP 資訊。“對於執法部門來說,這意味著如果他們在自己的資料庫中找不到匹配項,他們現在可以在其他資料庫中尋找匹配項,”他說。他還指出,這也意味著他們可以追蹤親屬的資訊,而不僅僅是匹配個人。“實際上,這是一項巨大的進步。”他補充說,這引發了一個重要的隱私問題。“我是否應該擔心,透過上傳我的資料,我會讓我的親屬容易被執法部門找到?”如果那些親屬犯了罪,這可能是可以接受的。“但是如果他們沒有犯罪呢?”

紐約大學的墨菲說,當警方 DNA 資料庫被設計出來時,其中的 DNA 應該是無意義的垃圾——只是可用於將個人與個人或證據進行匹配的 DNA 模式。因此,人們沒有注意保護資訊的隱私——就像對健康記錄、手機使用、社交媒體帳戶和其他資訊所做的那樣,她說。警方可以自由訪問 DNA,即使沒有犯罪發生,他們也要求提供樣本。“這代表了刑事司法目的的遺傳學與用於醫療診斷或家譜或任何與刑事司法完全無關的遺傳學之間的高牆的崩潰,”她指出。

當被問及她是否會將她的 DNA 傳送到消費者資料庫時,她說:“絕對不會。但我有家庭成員已經這樣做了。” 如果他們在資料庫中,那麼她也在其中。

Paul Raeburn is a journalist, blogger and broadcaster and author of five books, including The Game Theorist's Guide to Parenting: How the Science of Strategic Thinking Can Help You Deal With the Toughest Negotiators You Know--Your Kids (大眾科學/Farrar, Straus and Giroux, 2016).

More by Paul Raeburn
© .