如何保護您的基因組資料的隱私

一種名為“全同態加密”的技術非常安全,即使是未來的量子計算機也無法破解它

它可以挽救生命,找出某人患癌症的傾向,解決很久以前的犯罪或找到失散多年的親戚:自從2000年代初人類基因組首次被測序以來,基因組測序已經取得了長足的進步。快進到今天,確定某人完整基因程式碼的過程正變得越來越常規。例如,成千上萬的 COVID-19 倖存者現在正在繪製他們的基因組圖譜,以幫助研究人員瞭解特定的基因構成如何影響一個人對冠狀病毒的易感性。

但是,雖然窺探某人的 DNA 通常確實有助於預防、診斷和治療許多疾病,但獲得基因指紋也會暴露該個體基因組中編碼的個人資訊。這就是圍繞精準醫學未來存在的難題。突然之間,您正在與測序您基因組的人分享所有六十億個鹼基對的基因。無論目標是什麼,基因組mapping和測序都會危及我們的隱私。

但情況不必如此。有一種方法可以完全模糊某人的 DNA 記錄(並且,要明確的是,一般而言的敏感資料集),同時仍然保持資料的有用性:透過加密它。向全同態加密 (FHE) 問好。這可能拗口,但實際上是一種相當簡單的下一代密碼學型別,它非常安全,即使是未來的量子計算機也無法破解它。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


我們今天常用的加密技術並不能使我們的資料完全安全。每當需要執行任何計算時,例如對測序基因組進行必要的醫學基因檢測,都必須解密資料。無論多麼短暫,資料都容易被盜和洩露。

然而,使用 FHE,資料永遠不會被解密。資訊以這樣一種方式編碼,使其始終保持加密狀態——無論是在傳輸還是儲存時,以及在任何計算期間。資料保持密碼學上的混亂,以在處理過程中保護隱私,以便即使是處理資料的人也無法知道內容。因此,即使資料確實被盜或洩露,它們仍將保持安全加密。接收者只需使用特殊的金鑰解密結果,此操作不會洩露有關來源的任何資訊。

即使當量子計算機變得足夠強大以破解現代密碼學(輕鬆破解典型的加密演算法)時,它們也無法破解同態加密。這是因為 FHE 基於格的數學——重複的、多維的網格狀點集合。基於格的加密方案將資料隱藏在這樣的集合中,與某個點保持一定距離。對於量子計算機和傳統計算機來說,計算加密訊息距離格點的距離都極其困難。

科學家們在 1970 年代首次開始研究同態加密,但直到十年前它仍然是純粹的研究。 2009 年,計算機科學家克雷格·金特里 (Craig Gentry) 開發了第一個 FHE 方案,作為其博士論文的一部分。在隨後的幾年裡,當他在 IBM Research 與合作者一起工作時,該技術不斷得到改進,變得更快、更精確。保護基因組隱私只是 FHE 的一種可能用途。它可以用於保護任何敏感資料,無論是醫療記錄還是財務資訊。

同態加密還解決了資料共享問題——這對於歐洲的 GDPR 法規、一個國家的特定隱私法甚至公司自身的法規至關重要。例如,以銀行為例。如果兩個部門要共享他們的資料,一個部門處理保險,另一個部門處理投資,就會有資料聚合,使資料分析師可以訪問所有資料。使用 FHE,分析師不會知道資料是關於什麼的。

去年,巴西銀行 Banco Bradesco 與 IBM 合作,在真實財務資料上試用 FHE 技術。研究人員表明,可以在加密資料上執行預測,在處理過程中隱藏資料。首先,他們加密了現有的基於機器學習的預測模型,並以與未加密時相同的精度執行預測。然後,他們使用新的加密資料重新訓練模型,並表明可以使用同態加密來保護資料的隱私,永遠不會洩露任何客戶資訊。

目前,FHE 的計算要求遠高於典型的現代加密,這使得該過程耗時更長。但是該技術不斷改進,並且在不久的將來可能會變得足夠快以用於許多不同的應用。當這種情況發生時,它應該成為敏感資料(尤其是醫療和基因組資料)的預設加密選項。因為歸根結底,沒有什麼比我們自己和我們孩子的基因構成資料更重要的了——關於是什麼讓我們成為“我們”的資訊。

Dario Gil 是 IBM Research 的主管,IBM Research 是世界上最大的、最有影響力的企業研究實驗室之一,在六大洲的 19 個地點擁有 3,000 多名科學家。他是 IBM 75 年曆史上的第 12 任主管。他領導 IBM 的創新工作,指導人工智慧、雲計算、量子和探索科學領域的研究戰略。他是 COVID-19 高效能計算聯盟的創始人和聯合主席。

更多作者:Dario Gil
© .