幾年前,我在去機場的路上在星巴克買了一杯拿鐵,停好車,然後登上飛往英國的航班。八小時後,我在希思羅機場下飛機,買了一張手機預付卡,然後去買火車票進倫敦。這時,我的信用卡突然罷工,再也無法使用。直到我回到美國,才弄清楚發生了什麼事。顯然,在星巴克的小額消費,隨後在海外購買手機卡,觸發了我信用卡公司電腦中的某種反欺詐資料探勘演算法。它試圖給我打電話,但只能留言,然後就將我的信用卡列入了黑名單。
讓我對整個經歷感到惱火的是,電腦本應知道在英國使用我的卡的人是我自己。畢竟,我用同一張卡買了機票,並且乘坐的是一家主要的美國航空公司。難道所有這些資料庫不應該是互相連線的嗎?
大多數人可能都認為它們是連線的。我們已經從好萊塢電影中,例如《全民公敵》和《諜影重重》三部曲中,期望那些神秘組織能夠即時訪問我們依賴的所有資料庫,並且只需敲擊幾下鍵盤,就可以監視我們的一舉一動。從多個來源收集資訊並將其合併的過程,被稱為資料融合,據說可以建立一個比任何原始來源都更強大、更靈活、更準確的資訊資源。資料融合的支持者說,他們的系統可以讓組織更好地利用他們已經擁有的資料;批評者說,融合威脅了公民自由,因為它以最初收集資訊時從未設想過的方式使用資訊。雙方都認為資料融合系統實際上是有效的。但現實情況是,這些系統遠沒有人們想象的那麼無所不知、那麼可靠或那麼完善。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的有影響力的故事的未來。
合眾為一
資料融合技術可以追溯到 20 世紀 70 年代的計算機匹配程式。當國會在 1974 年透過《隱私法》時,它也授權建立了聯邦父母定位服務,該服務現在運營著一個巨大的黑名單,拒絕向拖欠子女撫養費的非監護父母提供包括護照在內的各種聯邦福利。這些資料與全國新僱員名錄融合,以查詢最近受僱但未按時支付撫養費的父母,以便可以扣押他們的工資。
“資料融合”一詞於 1984 年進入技術術語,當時洛克希德·馬丁公司先進技術中心的研究人員發表了兩篇關於“戰術資料融合”系統的文章,該系統將即時融合來自感測器、資料庫和其他來源的戰場資訊,供人類分析師使用。從那時起,這個想法蓬勃發展。生物資訊學研究人員談論基因組資料融合。國土安全部已花費超過 2.5 億美元建立約 58 個州或地方融合中心。消費者營銷公司尼爾森開發了資料融合產品,用於識別和定位具有特定特徵的潛在客戶,而不是浪費精力進行傳統的散彈槍式營銷。
但是,儘管資料融合有很多用途,但其在識別潛在恐怖分子方面的應用引發了最大的公眾辯論。“發現恐怖分子的關鍵是根據對當前陰謀和過去恐怖襲擊的觀察,尋找表明恐怖分子陰謀的活動模式,”國防高階研究計劃局 (DARPA) 的約翰·波因德克斯特海軍少將和羅伯特·L·波普在 2006 年寫道。他們認為,如果政府能夠掃描商業資料庫中非農民大量購買化肥的記錄,1993 年的世界貿易中心爆炸案和 1995 年的俄克拉荷馬城爆炸案可能就可以避免。但是,獲取這些購買記錄並將其與農場所有權和就業記錄資料庫相結合,將需要政府前所未有地訪問私人計算機系統。該國每一筆交易——以及每個人——都將在沒有可能原因的情況下受到監控。由於這些原因,以及其他原因,國會在 2003 年扼殺了波因德克斯特和波普的研究專案“全面資訊意識”專案。
不要摺疊、穿孔或混淆
政府的保密牆無助於平息公民自由主義者的擔憂。各機構對其可能已經部署或可能尚未部署的用於保護國家安全的資料融合系統幾乎沒有透露任何資訊:他們辯稱,如果壞人知道融合程式是如何工作的,他們將更容易逃避這些程式。但是,公開可用的資訊足以表明,資料融合不僅會引發道德和法律問題,還會引發技術問題。
資料質量是其中之一。資料庫中的許多資訊最初是出於純粹的統計目的而收集的,可能不夠準確,無法做出可能產生懲罰性結果的自動判斷。1994 年,堪培拉澳大利亞國立大學的羅傑·克拉克研究了美國和澳大利亞聯邦和州政府維護的計算機匹配程式。這些系統掃描了數百萬條記錄,並標記了數千個潛在的“命中”。但大多數結果都是誤報。例如,一個用於查詢福利欺詐者的程式將衛生與公眾服務部的就業記錄與華盛頓特區周邊縣的福利名冊進行了匹配。它產生了大約 1,000 次命中,但進一步調查表明,四分之三的被識別人員是無辜的。這些收益不足以證明收集資料、培訓人員和追查誤報的成本是合理的。
許多人認為,如果一個數據融合程式能夠預測和阻止一次重大的恐怖襲擊,那麼無論花費多少都是值得的。職業海軍軍官波因德克斯特將技術問題比作在浩瀚的海洋中尋找敵方潛艇。但是,在資料海洋中尋找恐怖主義準備活動的特徵比在水海洋中尋找潛艇要困難得多。世界海洋可能浩瀚無垠,但每個地點都可以透過經度、緯度和深度來唯一識別。資料海洋不像海洋那樣容易分類。此外,世界海洋的面積並沒有像資料海洋那樣每隔幾年就翻一番。資訊空間的很大一部分是未知的;資料分散在數百萬個獨立的計算機系統中,其中許多系統對當局來說是隱藏的或未知的。
融合之所以困難,是因為我們被來自多個來源的資料淹沒,所有這些來源都具有不同的詳細程度和不確定性。資料融合的真正挑戰不是獲取資料,而是理解資料。
您的硬碟驅動器上有什麼?
理解資料融合問題的一個好方法是從您計算機硬碟驅動器上的資訊開始。在 1998 年至 2005 年期間,我正是這樣做的:我在 eBay、小型電腦商店和跳蚤市場購買了 1,000 多個二手硬碟驅動器;我甚至從遺棄在街角的電腦中搜尋了一些。2003 年 1 月,現在弗吉尼亞大學擔任計算機科學家的阿比·謝拉特和我發表了一篇論文,詳細介紹了我們的發現。
大約三分之一的驅動器不再能用,另外三分之一在丟棄之前已正確擦除。但剩下的三分之一是個人資訊的寶庫:電子郵件、備忘錄、財務記錄。一個驅動器以前是自動取款機的一部分,記錄了數千個信用卡號碼。另一個驅動器曾被一家超市用來向其銀行提交信用卡付款。這兩個驅動器在公開市場上轉售之前都沒有被正確擦除。
使我能夠搜尋驅動器的工具是廣泛可用的,而且並非特別複雜。世界各地的警察部門使用相同型別的工具從計算機和手機中恢復檔案。有時使用者沒有意識到他們留下的數字面包屑。以所謂的 BTK 殺手為例,他在 20 世紀 70 年代和 80 年代在堪薩斯州威奇托犯下了八起謀殺案,然後轉入地下。該殺手於 2004 年 3 月再次出現,給《威奇托鷹報》寄了一封信,詳細描述了他早期的罪行,並給當地電視臺寄了一張軟盤,上面有一個 Microsoft Word 文件。該檔案包含“元資料”,將其連結到當地教堂的一臺電腦。警方發現,使用該電腦的人是教會理事會主席——也是兇手。
檔案雜湊值
但是,弄清楚哪些文件是重要的,哪些是毫無價值的,是很困難的,並且需要將外部知識與硬碟驅動器上的資訊融合在一起。例如,當我在 20 世紀 90 年代開始分析硬碟驅動器時,其中許多都包含《島嶼跳躍者新聞》的副本。這似乎非常可疑。後來我瞭解到,這份電子報紙實際上是微軟隨 Visual Studio 6.0 產品分發的演示檔案。如果我不知道這一點,我可能會對驅動器的前任所有者得出錯誤的結論。
篩選出無害檔案的唯一方法是抽樣數字文件世界,並建立一個廣泛可用的文件列表。一種快速、自動化的方法是建立所謂的雜湊集。加密雜湊演算法可以為任何數字檔案分配唯一的電子指紋。最流行的兩種是 MD5(建立 128 位指紋)和 SHA-1(生成 160 位指紋)。然後,取證工具無需逐位元組比較兩個檔案,而是可以檢查指紋。
在美國國家標準與技術研究院 (NIST) 國家軟體參考圖書館司法部撥款的支援下,該圖書館從數百家出版商處獲取軟體,並將每個檔案簡化為加密雜湊值。然後,NIST 分發該資料庫(現在有超過 4600 萬個條目),以便為法醫調查人員提供一種快速可靠的方法來清除軟體出版商分發的檔案(例如《島嶼跳躍者新聞》),因此可以安全地忽略這些檔案。其他聯邦機構提供的資料庫包括計算機駭客工具和兒童色情製品的電子指紋。
但是,儘管雜湊資料庫很有用,但它們僅代表所有文件中的一小部分樣本。為了擴充它們,我開發了一種稱為跨驅動器分析的技術。它可以自動將分散在數千個硬碟驅動器、USB 儲存棒和其他資料來源中的資訊拼接在一起。該技術突出顯示並隔離電子郵件地址和信用卡號碼等識別符號,並根據它們出現的頻率對其進行加權:據推測,識別符號越常見,它就越不重要。最後,該技術將所有單個裝置上的識別符號關聯起來:如果電子郵件地址或信用卡號碼僅在數千個磁碟驅動器中的兩個磁碟驅動器上出現,則這兩個驅動器很有可能相關。
誰是誰?
資料融合者的另一個問題是身份。在電子世界中,可能有數十人同名同姓,也可能有數十個名字被同一個人使用。一些資料庫可能會將波因德克斯特列為約翰·馬蘭·波因德克斯特或 J·M·波因德克斯特,甚至可能會拼錯這位海軍少將的姓氏波因克斯特。一個人的名字在一個數據庫中可能被列為羅伯特,在另一個數據庫中被列為羅布,在第三個資料庫中被列為鮑勃。一個在西非的阿拉伯名字音譯為 Haj Imhemed Otmane Abderaqib 的人,在伊拉克可能被稱為 Hajj Mohamed Uthman Abd Al Ragib。
將電子世界中各種名稱和帳號與物理實體匹配起來稱為身份解析。沒有它,資料融合是不可能的。奇怪的是,身份解析系統的許多創新都是由拉斯維加斯的賭場推動的。根據內華達州法律,賭場必須禁止自我宣告的問題賭徒玩遊戲。這些賭徒自願將自己的名字列在一個名單上,實際上是說“不要再讓我賭博了!”但賭博可能是一種疾病,名單上的一些人仍然試圖透過更改姓名或在出生日期中交換幾個數字來偷偷溜進去。賭場也決心將有嫌疑或被判有罪的作弊者排除在外。如果一位客人在二十一點牌桌上贏了大量資金,賭場希望確保莊家和玩家不是室友。
因此,賭場資助開發了一種稱為非顯性關係分析 (NORA) 的技術,該技術將身份解析與信用公司、公共記錄和酒店住宿資料庫相結合。例如,一個 NORA 系統可能會發現,二十一點莊家的妻子曾經與剛剛贏了 10 萬美元的玩家住在同一棟公寓樓裡。在 20 世紀 90 年代,軟體工程師傑夫·喬納斯開發了一個系統,該系統可以以一種容忍錯誤、歧義和不確定性的方式,將賭場計算機中的姓名與其他資訊來源匹配起來。該系統的工作原理是基於資料構建假設,然後在新資訊可用時修改這些假設。
例如,它可能會收到 Marc R. Smith 的駕照記錄、Randal Smith 的信用報告以及 Marc Randy Smith 的信用申請。它可能會猜測這些名字屬於同一個人——特別是如果 Marc R. Smith 和 Marc Randy Smith 具有相同的駕照號碼,並且如果 Randal Smith 和 Marc Randy Smith 共享一個電話號碼。但是,假設新資料顯示,Randy Smith, Sr. 與 Randal Smith 的出生日期相同,但他的社會安全號碼與 Marc R. Smith 的社會安全號碼不同。現在,系統可能會修改其猜測,決定 Marc R. Smith 是 Randal Smith, Jr.,而 Randy Smith 是 Randal Smith, Sr.。使這一切工作的關鍵是程式設計系統,使其永遠不會將原始資料與從這些資料推斷出的結論混淆。
喬納斯在 2005 年將該系統及其公司出售給了 IBM。從那時起,IBM 增加了一項名為匿名解析的功能:兩個組織可以確定他們是否在各自的資料庫中共享一個人的姓名——而無需共享所有不匹配的人的姓名。該技術透過比較加密雜湊值而不是真實姓名來工作。
隱私倡導者仍然堅持認為,雜湊值、跨驅動器分析、匿名解析等對於克服他們的根本異議幾乎沒有作用。畢竟,這些系統仍然將個人資訊用於最初獲取資訊時目的以外的目的。它們還使得不加區分地蒐集私人資料成為例行公事,而不管所涉人員是否涉嫌犯罪。然而,這些系統產生的誤報明顯少於 20 世紀 80 年代開發的系統。在某個時候,社會效益可能會超過計算機窺探人們記錄的隱私成本。
整合一切
那麼,融合系統實際上效果如何呢?資料質量仍然是一個嚴重的問題。例如,從美國三大信用報告機構中的每一家獲取您的信用報告,每份報告都可能包含錯誤和不一致之處。這些資料可能會沉寂多年,而不會造成太大麻煩。當某些新奇的演算法過度解讀這些不一致之處時,危險就產生了。
即使資料是準確的,透過比較資料庫揭示的關係也可能具有實際意義,或者可能是純粹的巧合,就像在一個房間裡找到兩個生日相同的人一樣不可避免。每週聚會一次進行長途駕駛的四個人可能正在策劃犯罪。但另一方面,他們可能屬於一個壘球隊,並且每週一起旅行參加大型比賽。
社會對資料融合的期望可能過高。如果恐怖分子融入人群,人類調查員和計算機都將很難找到他們。大多數資料探勘和融合系統都具有某種靈敏度調整功能:向左移動滑塊,系統將無法找到真正的匹配項;向右移動滑塊,系統會做出太多最終被證明是錯誤的預測。滑塊應該設定在哪裡?如果一個系統標記出每三個航空旅客中的一個,它將更有可能發現真正的恐怖分子。但它也會使空中交通陷入停頓,並使執法部門不堪重負。
如果資料融合系統無法按預期工作,則其演算法可能存在根本性缺陷。但問題也可能在於資料匱乏。同樣,如果系統執行良好,給它更多資料可能會使其效能更好。換句話說,無論系統執行狀況如何,構建和使用這些系統的人們自然而然地傾向於想要更多更多的輸入資料。因此,資料融合專案具有內建的使命蔓延趨勢——這不僅令公民自由倡導者感到沮喪,也令那些支付賬單的人感到沮喪。克拉克在他的 1994 年的文章中得出結論,“國家對社會控制的興趣與公民個人免受不合理干預的自由之間的權衡[正在]持續地朝著有利於國家的方向解決。”
作為一名科學家,公眾對資料融合的爭論讓我感到沮喪的原因是,關於實際使用的資料融合系統,公開的資訊太少了。這讓人回想起 20 世紀 90 年代的密碼學辯論,當時美國政府辯稱,在法律上限制密碼學的使用是有充分理由的,但這些理由非常敏感,以至於在公開場合討論它們將對國家安全構成威脅。我懷疑一場類似的辯論正在醞釀,內容涉及政府對資料融合的使用,更不用說這項強大技術在商業甚至政治活動中的應用了。這是一場值得進行的辯論——而且應該公開進行。
注:本文最初印刷時的標題為“世界資訊聯合起來”。