人口販賣者在隱秘網路中被抓獲

一套名為Memex的新型搜尋工具,由DARPA開發,深入“深網”以揭示非法活動

編者注(2015年11月16日):在11月13日巴黎恐怖襲擊事件以及隨後關於反恐努力和加密通訊的辯論之後,《大眾科學》重新發表以下文章。

2012年11月,一名28歲女子從紐約市一間臥室的窗戶墜落15米至人行道,這次災難性的墜落使她身體破碎但仍活著。這次意外既是絕望之舉,也是希望之舉——這名女子從六樓的窗戶爬出來,是為了逃離一群性侵犯她並囚禁她兩天之久的男子

四個月前,紐約縣地方檢察官辦公室將應對這名女子苦難負責的男子之一本傑明·加斯頓送入監獄,判處50年至終身監禁。根據紐約縣地方檢察官辦公室的說法,檢察官手中的關鍵武器是一套實驗性的網際網路搜尋工具,美國國防部正在開發這套工具,以幫助抓捕和監禁人口販賣者。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


儘管國防部和檢察官辦公室尚未公開承認使用這些新工具,但他們向《大眾科學》證實,國防高階研究計劃局(DARPA)的Memex計劃提供了先進的網際網路搜尋能力,幫助確保了定罪。DARPA正在建立Memex,以便在網際網路上搜索有關人口販賣的資訊,特別是用於引誘受害者進入奴役狀態並促進對其性剝削的廣告。

這些資訊中的大部分是公開可用的,但它存在於佔所謂“深網” 90%的部分中,而Google、Yahoo和其他流行的搜尋引擎並未對其進行索引。這使得大量資訊未被觸及,這些資訊對普通網路衝浪者可能沒有價值,但可以為調查人員提供關鍵資訊。Google不願證實其索引的網際網路內容不超過10%,這是一個已被廣泛報道的統計資料,但一位發言人指出,該公司的重點是其搜尋結果是否相關且有助於回答使用者的查詢,而不是它是否已索引網際網路上100%的資料。

深網資訊中的大部分是非結構化資料,這些資料是從感測器和其他裝置收集的,這些裝置可能並不位於可以被搜尋引擎掃描或“抓取”的資料庫中。其他深網資料來自臨時頁面(例如,非法性服務和類似非法服務的廣告),這些頁面在搜尋引擎可以抓取之前就被刪除了。深網的某些區域只能使用特殊軟體訪問,例如Tor Onion Router,它允許人們透過點對點連線而不是透過中央計算機伺服器匿名秘密地共享資訊。DARPA正在與來自公司和大學的17個不同的研究團隊合作,作為Memex計劃的一部分,開發網際網路搜尋工具,這些工具為政府、軍隊和企業提供了分析、組織和與從這個更大的來源池中提取的資料進行互動的新方法。

法律與秩序
DARPA對Memex及其執法部門和檢察官使用它來調查犯罪嫌疑人一事鮮有提及。
 
根據已發表的報告,包括卡內基梅隆大學的一份報告,紐約縣地方檢察官辦公室是過去一年中使用早期版本的Memex軟體來查詢和起訴人口販賣者的幾個執法機構之一,人口販賣者脅迫或綁架人口——通常是婦女和兒童——以達到剝削目的,包括性剝削或其他剝削。“Memex”——“記憶”和“索引”兩個詞的組合,最初在1945年《大西洋月刊》的一篇文章中提出——目前包括八個開源的、基於瀏覽器的搜尋、分析和資料視覺化程式,以及執行復雜計算和資料分析的後端伺服器軟體。

這種能力可能成為打擊人口販賣的關鍵組成部分,人口販賣是一種定罪率低的犯罪,主要是因為販賣者使用策略來掩蓋受害者的身份(pdf)聯合國毒品和犯罪問題辦公室估計,在任何給定時間,全球約有250萬人口販賣受害者,但將迫使他們從事服務的罪犯繩之以法卻很困難。在其2014年關於人口販賣的研究報告(pdf)中,聯合國機構發現,在2010年至2012年期間,接受調查的40%的國家每年報告的定罪少於10例。報告涵蓋的128個國家中,約有15%的國家沒有記錄任何定罪。

線上兜售此類服務的罪犯的證據很難確定,因為深網中使用了臨時廣告和點對點連線。根據DARPA資助的研究,在兩年時間內,販賣者花費了約2.5億美元釋出了超過6000萬個廣告。如此龐大的網頁數量,其中許多網頁釋出時間不夠長,無法被搜尋引擎抓取,這使得調查人員很難將各個點連線起來。部分原因是,調查人員通常使用大多數人用來查詢餐廳評論和禮品創意的相同搜尋引擎來搜尋人口販賣的證據。因此才有了Memex專案。

Memex內部
在DARPA位於弗吉尼亞州阿靈頓的總部,Memex專案經理克里斯托弗·懷特向《大眾科學》展示了他和他的同事正在開發的一些工具的演示。刑事調查通常從極少的資訊開始,例如電子郵件地址。懷特將一個演示地址插入Google,以展示調查人員目前的工作方式。正如預期的那樣,他收到了來自Google抓取的網際網路部分(也稱為“表層網路”)的連結頁面,這些連結按Google演算法優先排序,試圖在頂部提供最相關的資訊。在點選其中幾個連結後,調查人員可能會找到與電子郵件地址關聯的電話號碼。

到目前為止,懷特從網際網路上提取的資訊與大多數人看到的資訊相同。但他隨後面臨所有網路使用者都會遇到的下一步:篩選大量超連結頁面,但幾乎沒有可用的分析資訊來將不同的搜尋結果聯絡起來。與Memex從更廣泛的網際網路領域提取資訊的能力同樣重要的是,它的工具可以識別不同資料片段之間的關係。這有助於調查人員建立資料地圖,用於檢測空間和時間模式。一個例子可以是中心輻射型視覺化,描繪了連線到單個性服務電子郵件、電話號碼或工作者的數百個網站。

> > 《大眾科學》獨家報道:Memex資料地圖的搶先預覽

懷特還展示了MEMEX如何生成不同國家的彩色編碼熱圖,這些熱圖可以定位在任何給定時間線上釋出性廣告最多的地點。懷特說,這些模式和其他模式可能有助於揭示調查人員可能錯過的關聯,懷特在2010年開始與DARPA合作,擔任顧問,開發資料科學工具以支援美軍在阿富汗的行動。

搜尋結果
自從DARPA大約一年前開始向選定的執法機構引入Memex以來,該技術已經取得了成果。紐約縣地方檢察官辦公室表示,其新的人口販賣應對小組現在在其處理的每起人口販賣案件中都使用DARPA的Memex搜尋工具。根據紐約縣地方檢察官辦公室的說法,Memex在至少20起活躍的性販賣調查中發揮了作用,並且除了加斯頓的定罪外,還應用於八項未決起訴。“Memex幫助我們建立基於證據的起訴,這對於打擊人口販賣至關重要,”曼哈頓地區檢察官小賽勒斯·R·萬斯說。“在這些複雜的案件中,檢察官不能僅僅依靠受創傷的受害者作證。我們需要證據來證實,或者在某些情況下,取代受害者作證的需要。”

Memex的不同組成部分也在幫助全國其他地區的執法部門打擊販賣活動。加利福尼亞州莫德斯托的一名偵探使用一款名為Traffic Jam的特定軟體,跟進有關內布拉斯加州一名特定受害者的線索,最終確定了一名性販賣者,該販賣者與妓女一起在整個中西部和西部地區旅行。調查最終導致他被捕。Traffic Jam由卡內基梅隆大學研究人員於2011年獨立於DARPA開發,後來分拆成一家名為Marinus Analytics的公司,使調查人員能夠透過快速審查販賣者在多個地點發布的廣告來收集證據。

DARPA此後授予卡內基梅隆大學一份為期三年,價值360萬美元的合同,以增強Traffic Jam作為Memex一部分的基本搜尋能力,並使用機器學習演算法來深入分析結果,據該大學稱。卡內基梅隆大學的研究人員還在研究如何將計算機視覺應用於搜尋,以幫助調查人員識別具有相似元素的影像——例如來自同一家酒店房間的傢俱,這些傢俱出現在多張影像中——即使影像本身不完全相同,傑夫·施耐德說。施耐德是該專案的首席研究員,也是大學計算機科學學院Auton Lab的研究教授,該實驗室研究統計資料挖掘。例如,酒店房間裡的傢俱可以幫助執法部門確定販賣活動的地點。

萬斯和其他執法官員歡迎此類進展。“技術本身不能解決案件,但它肯定有幫助,”他說。“當我們把傳統的現場情報與這個工具提供的資訊結合起來時,我們取得了最大的成功。”

懷特同意DARPA的技術是對其他調查方法的補充,包括對受害者的訪談。除了針對人口販賣外,執法官員還發現他們可以利用Memex來打擊其他相關犯罪,包括槍支和毒品販運。

“比大多數人想象的更大”
除了改變執法方式的能力外,Memex標誌著網際網路搜尋技術本身的一次重大轉變,有一天它可能會幫助我們所有人獲得更實用的搜尋結果。懷特說,大多數人將網際網路搜尋視為超連結結果列表,並且40%的時間會點選第一個連結。但是,他補充說,“網際網路比大多數人想象的更大。”

搜尋引擎忽略了他們在深網中發現的大部分非結構化資料、未連結內容(沒有連結到其他頁面的網頁)和臨時頁面,認為它們對搜尋引擎廣告商試圖接觸的受眾來說是不可用的。臨時頁面的一種型別可能是人口販賣者在網際網路上為他們的客戶熟知的位置設定的性服務廣告,但在它可以被索引並被執法部門發現之前就被撤下了。其他臨時頁面則較為無害——例如,那些由根據查詢而變化的資料查詢結果組成的頁面。

常規搜尋引擎忽略這些表面下資料的一個原因是網路廣告商對它不感興趣。懷特說,瀏覽器公司透過他們產生的搜尋結果賺錢。“我們正在表明,還有其他使用網際網路的模式,它們可以是特定領域的——販賣、反恐、疾病應對等,”他補充說。“[它]不僅僅是為了讓人們點選廣告。”

Google的搜尋引擎梳理了Google的網際網路索引,Google使用名為蜘蛛的軟體程式構建該索引,這些程式查詢和編目網頁。Google搜尋的結果由指向該公司搜尋引擎可以在該索引中找到的最相關資訊的連結組成。Google主要根據每個頁面的受歡迎程度對這些連結進行排名。Yahoo、Bing和其他流行的搜尋引擎的功能也大致相同。“當前引擎上發生的大部分是實體搜尋——我正在尋找關於音樂家、事件或產品的資訊,”倫斯勒理工學院資料探索與應用研究所所長、計算機與認知科學無纜世界教授詹姆斯·亨德勒解釋說。“在現有的搜尋技術下,您必須猜測好的關鍵詞才能獲得您正在尋找的資訊。如果您不知道正確的關鍵詞,或者您需要將搜尋結果置於上下文中,您就會遇到一個難題。”基本上,您要麼獲得大量通用連結,但對它們如何與您的原始查詢相關聯沒有清晰的概念,要麼獲得一個簡短的列表,但該列表沒有為您提供您需要的具體資訊。

更有價值的是介於這些極端情況之間的東西。亨德勒說,這正是Memex打算做得非常好的事情,亨德勒曾在1999年至2001年擔任DARPA資訊系統辦公室的專案經理和首席科學家,儘管他沒有參與Memex。

測試Memex
Memex在2014年2月進行了首次測試,當時懷特和他的團隊與新澤西州區域行動情報中心合作,監控和 disruption 與在花園州大都會人壽體育場舉行的第四十八屆超級碗相關的任何性販賣激增。DARPA科學家使用早期版本的Memex工具,讓警方瞭解問題的範圍。更具體地說,他們分析了性服務廣告中的影像,以確定這些廣告中的女性是否出現在以前的廣告中,還是新的,可能是專門為滿足圍繞大型比賽增加的需求而帶到紐約-新澤西地區的。

在去年八月,懷特向更多的beta測試人員推出了Memex——兩個地方檢察官辦公室,一個執法團體和一個非政府組織(NGO)。儘管懷特不願透露這些使用者的身份,但他表示,他們在打擊人口販賣方面的工作涵蓋了起訴、行動和受害者外展。

下一輪測試將在幾周後開始,並將包括聯邦和地區檢察官、區域和國家執法部門以及多個非政府組織。這一輪的主要目標之一是測試新的影像搜尋功能,該功能可以分析照片,即使可能有助於調查人員的部分——包括販賣者的面孔或背景中的電視螢幕——被模糊化。另一個目標是嘗試不同的使用者介面,並嘗試評估時間敏感資料的流式架構。

懷特說,他希望每季度擴大使用者測試,直到他和他的團隊建立了一個他們可以放心地移交給執法機構和檢察官的Memex版本。當這種移交發生時,諸如網路爬蟲、機器學習演算法和圖形分析等軟體元件將被本地安裝在執法機構中,這些元件可以搜尋表層網路和深網。它們將連線到機構和公眾通常會使用的常規基於瀏覽器的軟體,例如Firefox和Chrome。這將確保執法部門可以從任何連線網際網路的裝置訪問該軟體。

表層網路
懷特就Memex可以訪問的資料型別做出了幾個關鍵決定,以努力避開圍繞政府訪問公民私人資訊和通訊的爭議,這是一個特別敏感的話題,自從愛德華·斯諾登的國家安全域性爆料於2013年6月開始以來。懷特說,如果某項內容受密碼保護,則它不是公共內容,Memex不會搜尋它。“我們不想進行駭客攻擊,”他補充說。“我們不想透過不必要地拖入窺探和監視的幽靈來使這項工作蒙上陰影。”懷特和他的團隊發現,有足夠的公共內容來挑戰他們,因為他們正在開發工具以幫助執法部門和檢察官。

此類內容可以在大多數人熟悉的表層網路以及深網或“暗網”中找到,後者是未索引深網的子集,需要專門的軟體和演算法才能找到和瀏覽。執行地下絲綢之路網路黑市的人員等經常使用暗網匿名釋出可能合法也可能不合法的內容。

當然,暗網站點已經引起了DARPA的注意,因為它們是人口販賣活動的良好候選者。因此,懷特和他的團隊正在開發一個“暗網爬蟲”,該爬蟲探索深網中Tor可訪問的點對點區域,並且迄今為止在很大程度上啟發了研究人員瞭解暗網活動的程度。懷特說,暗網曾經被認為由大約1000頁組成,但現在可能有30,000到40,000個暗網頁面。“僅僅找到這些頁面並檢視其內容就是搜尋技術的一個新方面,”他說。

DARPA選擇以執法努力 disruption 人口販賣作為一項具體的事業,圍繞這項事業,它可以快速開發和部署其新的網際網路搜尋方法。懷特相信,Memex技術同樣可以應用於任何型別的調查工作,包括反恐、失蹤人員、疾病應對和救災。

也許有一天,它甚至會為尋找餐廳評論、禮品創意和網際網路絕大多數使用者渴望的其他更平凡的資訊提供更好的方法。

© .