2014年3月6日

如何調和大資料與隱私

在很多方面，“大資料”和“加密”是相互對立的。前者涉及收集、儲存和分析資訊，以揭示研究人員、執法部門和行業可以利用的模式。

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定代表《大眾科學》的觀點

在很多方面，“大資料”和“加密”是相互對立的。前者涉及收集、儲存和分析資訊，以揭示研究人員、執法部門和行業可以利用的模式。後者的目標是使資料對窺探者不可見。這種緊張關係是本週由白宮科技政策辦公室和麻省理工學院（M.I.T.）聯合主辦的會議的核心，來自學術界、政界和行業的十多位專家探討了加密和其他以隱私為導向的技術如何保護大資料工作中涉及的資訊。

麻省理工學院計算機科學與人工智慧實驗室（CSAIL）教授沙菲·戈德瓦瑟在小組討論中表示，功能加密是未來的方向。她補充說，諸如匿名化資料記錄之類的替代方案行不通。由於人們在社交網路和其他公共網站上可以自由獲取大量關於人們的資料，任何想要作惡的人都可以透過交叉引用來自任何線上資源的資訊來建立關於其目標人物的檔案。

麻省理工學院計算機科學與人工智慧實驗室（CSAIL）副教授尼古拉·澤爾多維奇在週一的“隱私增強技術”小組討論中表示，如果只是儲存資料，加密效果很好。問題在於當你實際上需要處理和分析這些資料時。這就是為什麼需要能夠對加密資料進行實際處理的系統，他補充道。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保關於當今塑造我們世界的發現和想法的有影響力的故事的未來。

這種實際的努力通常指的是所謂的“同態”加密，它使得在不首先解密的情況下對加密資料進行計算成為可能。自 1970 年代後期以來，研究人員一直在說，完全同態加密——其中受保護的資訊可以以任意多種方式進行切分和處理，而不會洩露實際資料——是可能的。這樣的系統將對雲計算有利，提供了一種以最小的隱私風險來分析資訊的方式，同時提供資訊給人們。

然而，在實踐中，計算機科學家一直未能開發出一種方法來對加密資料執行少量的有意義的操作。IBM 聲稱，計算機科學家克雷格·根特里在 2009 年開發了一種實用的完全同態系統，但批評人士表示，該技術過於複雜、緩慢且不適合在雲中實際使用。IBM 已經為根特里的工作申請了專利，並繼續進行開發。

人們正在努力開發，如果不是完全同態系統，那麼就可以以新的和新穎的方式處理加密資料的系統。

其中一個專案是CryptDB，該系統透過在請求資料的軟體和儲存該加密資料的資料庫之間放置一個代理伺服器來實現對加密資料的分析。代理使用旨在比較和分析加密資訊的演算法。在某些情況下，代理必須刪除不同的加密層才能更好地分析資料，但其想法是它不會將資料完全加密為純文字。儘管 CryptDB 可以執行的查詢型別有限，但谷歌是該技術的重要支持者，並使用它在其基於雲的BigQuery 服務中提供加密查詢，用於搜尋海量資料集。在搜尋和檢索過程中新增一個像代理伺服器這樣的額外裝置通常會減慢速度，但澤爾多維奇及其同事表示，他們正在努力緩解這個問題(pdf)。

麻省理工學院的小組成員還提出了一些不依賴加密的安全措施。例如，差異隱私是匿名化資料的一種替代方案。哈佛大學維基·約瑟夫教授薩利爾·瓦丹說，這種方法使用了一個自動化的資料管理員，可以在保護資料集中個人的隱私的同時，向請求資料的人員提供有用的資訊。正如《大眾科學》網站上 2012 年 12 月的一篇文章中指出的那樣，“差異隱私資料釋出演算法允許研究人員提出關於敏感資訊資料庫的幾乎任何問題，並提供已經 ‘模糊’ 的答案，以便它們實際上不洩露任何個人的資料，甚至不洩露該人是否首先在資料庫中。”

另一個選擇是讓工程師將隱私政策要求直接編碼到收集、儲存和分析資料的軟體中。麻省理工學院計算機科學與人工智慧實驗室（CSAIL）首席研究科學家丹尼爾·魏茨納說，這樣的“負責任的系統”將被編寫為自動分析資料的特定使用是否違反了法律。“使用一個類比，我們可以在世界各地以相當高的公眾信任度來運營經濟，”他補充道。“我們這樣做是因為我們有一套以一致方式應用的一致規則。我認為我們應該對資訊的使用方式設定類似的目標。”

週一的會議源於巴拉克·奧巴馬總統今年早些時候呼籲全面審查大資料對美國人的生活、生計以及與政府關係的影響。奧巴馬指示白宮顧問約翰·波德斯塔領導審查過程，該過程將在幾個月後結束，併發布一份預計會影響與大資料相關的政策、資金和研究的報告。