本月早些時候,前美國國家安全域性僱員愛德華·斯諾登 披露,該機構正在收集數百萬美國人的資料,從通話時長到 Facebook 帖子,所有這些都透過一個代號為 PRISM 的專案進行。由此引發的媒體強烈反對重新引發了關於網際網路隱私和政府監控技術的辯論,但問題仍然存在:國家安全域性是如何獲取資料的?這種資料收集工作對我們的公民自由構成了多大的威脅?
為了找到答案,《大眾科學》採訪了元資料專家馬克·赫施伯格,他是 Madison Logic 的首席技術官,也是麻省理工學院的講師。赫施伯格曾參與使用用於收集大資料的程式,並且能夠闡明我們的網際網路資料是如何成為一種重要的——如果不是侵入性的——商品的。
以下是採訪的編輯稿。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。
可以使用哪種軟體來收集大資料?
可以透過多種不同的方式收集資料。聽起來美國國家安全域性正在進入 Facebook 和其他公司的伺服器,並透過某種“後門”訪問他們的日誌檔案。 在這種情況下,您可以編寫非常簡單的程式來複制這些檔案並將它們傳輸到本地伺服器。您還可以透過在個人計算機上安裝間諜軟體來獲取這些資料。第三種選擇實際上是透過管道監聽,這是數字版本的電話竊聽。
當個人下載某些內容或訪問網頁時,所有資料都透過網際網路服務提供商。 透過有效地竊聽他們的線路,您可以看到他們來回傳送的每一個位元組。
為什麼美國國家安全域性想要訪問像 Facebook 帖子這樣的內容?
您可以獲得的是訊號。例如,如果您觀察青少年自殺,他們通常會花費大量時間思考和計劃。 專業人士已經接受過培訓來尋找一些跡象,例如在他們結束自己生命之前向人們道別。
同樣,您可能會在壞人採取行動之前從他們身上看到訊號。 他們可能會改變他們的習慣。 這些是反恐專業人士可以解讀的事情。
您還可以使用個人資料來找出人們去過哪裡以及他們在做什麼。 用手機拍攝的照片包含地理標記資訊:我可以檢視某人釋出的照片,並準確知道照片是在哪裡拍攝的。
我們還可以看到誰在與誰交談,並觀察到重要的變化。 我給您舉個例子:假設有一棟房子,有人進進出出。 我實際上看不到進進出出的人,但我可以看到停在這棟房子前的汽車數量。 假設我通常每天看到兩到三輛車,而今天我突然看到 20 輛車停靠。 這告訴我有些事情正在發生。 即使您無法獲得詳細資訊,僅檢視通訊模式的變化也可以提醒您正在發生某些事情。
有很多資訊需要收集和儲存。 美國國家安全域性如何才能對所有這些資料進行編目?
我懷疑美國國家安全域性並沒有關於我們每個人的大型檔案。 我確信他們掌握了關於特別知名的目標的資訊,但我認為您和我不在監視名單上。
布魯斯特·卡勒 製作了一個模型,該模型表示,如果有人將一年內所有國內電話通話都放入雲端儲存,那麼每年的儲存成本約為 2700 萬美元。 對於像美國國家安全域性、國防部和其他機構來說,這只是小菜一碟。 如今,儲存變得如此便宜,以至於我們可以以相對較低的成本儲存大量資料。
當您考慮一個人一年可以撥打的電話數量時,這有一個上限。 技術不允許我說得更快——我們撥打電話的數量並沒有比幾年前高出多少,但儲存容量卻增加了許多倍。 我們的儲存能力超過了我們產生資訊的能力。 我們傳送的電子郵件比幾年前更多,但在某個時候,我只能快速地發出電子郵件。 但是儲存這些電子郵件的能力呢? 這種情況繼續呈指數級增長。
您是否預見到未來實體會儲存我們產生的所有資訊?
這不是未來。 這是現在,它被稱為 Google,它被稱為 Yahoo,它被稱為 Facebook。 Facebook 已經儲存了您透過 Facebook 傳送過的每一條 IM。 Google 已經儲存了您透過 Gmail 傳送的所有電子郵件。 他們擁有這些資料,他們已經對其進行了索引,並且他們已經生成了關於您的模型。 這不是未來;這是過去幾年發生的事情。
這種資料收集是為了廣告目的嗎?
絕對是。 在廣告中,零售商建立某些模型。 如果我每週都買啤酒和薯片,然後突然他們看到我買了驗孕棒,然後他們看到我買了尿布。 他們可能會說“哦,好的。 單身生活結束了。 我們知道發生了什麼,我們將向這個人傳送關於嬰兒產品的資訊。” 每個人都在進行預測建模。
關於這一點,您是否認為這裡存在隱私問題?
存在巨大的隱私問題。 這裡有一個 來自美國公民自由聯盟的精彩影片,內容是關於未來訂購披薩的,它總結了這一點。 實際上沒有任何資料隱私法到位。 就網站或零售商可以追蹤您的資訊而言,我不知道有任何關於這個主題的法律。
我們個人通常將這些資訊的價值評估為零。 在研究中,研究人員問人們:“對於這個特定的網站或服務,我們將給您兩個選擇:您可以付費使用它,或者您可以免費使用它,但它帶有廣告。” 每個人都選擇了免費使用並帶有廣告。 他們沒有意識到,或者他們知道但不在乎的是,這些廣告帶有跟蹤 cookie。 他們正在收集關於我們的大量資料集,而我們美國人似乎並不介意。 無論是在文化上還是在法律上,我們似乎都不在乎。 我認為這非常不幸。
除了反恐和廣告之外,我們還可以用資料收集做任何絕對 積極的事情嗎?
大資料是一種工具,就像任何工具一樣,它可以用於好的方面或壞的方面。 網際網路可以用來傳播規模難以想象的資訊,也可以用來傳播兒童色情內容。 因此,這實際上掌握在使用它的人手中。
我們可以建立以前從未有過的模型。 在犯罪方面,紐約以 Compstat 系統 而聞名,警察可以在該系統中檢視發生了哪些犯罪以及何時何地發生。 他們根據此分配警力。 更高效的警察隊伍對社會來說是美好的。
同樣,這些模型可以用於好的方面或壞的方面。 這些警察可以用來阻止罪犯,或者在極端的警察國家中,這些警察可以用來鎮壓異議者。
最後,公司正在收集關於我們的海量資料,我認為這對個人的威脅與政府資料收集可能造成的威脅一樣大。