阻止垃圾郵件

為了阻止垃圾電子郵件資訊的泛濫,我們能做些什麼?

1978年,第一封垃圾電子郵件——來自數字裝置公司營銷代表為新型 Decsystem-20 計算機做的廣告——被髮送到 Arpanet 上的大約 400 人。如今,以不請自來的商業請求形式出現的垃圾郵件佔網際網路傳輸的所有電子郵件的三分之二以上,每天傳送數十億條資訊。對於三分之一的電子郵件使用者來說,收到的郵件中約有 80% 是垃圾郵件。最近,隨著所謂的網路釣魚攻擊的激增,垃圾郵件變得更具威脅性——這些虛假的電子郵件看起來像是來自您信任的人或機構,但實際上是由騙子傳送的,目的是竊取您的信用卡號或其他個人資訊。根據 2004 年 Gartner Research 的一項研究,網路釣魚攻擊每年造成約 12 億美元的損失。

垃圾郵件現象不僅僅困擾著電子郵件。聊天室裡潛伏著偽裝成人類的“機器人”,試圖說服人們點選連結,這些連結會指向色情網站。即時訊息 (IM) 使用者遭受所謂的 spIM——電子郵件垃圾郵件的同源詞的困擾。部落格可能會被“連結垃圾郵件傳送者”破壞,他們透過在網站上新增誤導性連結來降低網際網路搜尋引擎的執行效率,從而扭曲網站和連結的實用性評級。

垃圾郵件令人窒息的影響有時似乎很可能破壞,甚至摧毀我們已經熟悉的網際網路通訊。然而,現實並非如此黯淡。已經發明瞭幾種攔截垃圾郵件和阻止垃圾郵件傳送者的技術,而且還有更多技術正在研發中。我們將討論的方法側重於垃圾電子郵件,但其中許多方法也可能適用於垃圾郵件的其他形式。這些方法中沒有一種是靈丹妙藥,但如果我們大多數人都能接受這些方法的組合,就能創造奇蹟。我們並非不切實際地期望有一天我們的電子郵箱將再次幾乎沒有垃圾郵件。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將有助於確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


陰險的電子郵件
欺詐性電子郵件的激增直接源於有利的市場力量:垃圾郵件的傳播成本極低。但它並非完全免費。我們估計,傳送一條訊息的成本約為百分之一美分。按照這些低廉的價格,即使回覆率低至十萬分之一,垃圾郵件傳送者每筆銷售額只需賺取 11 美元仍可獲利。因此,儘管很少有電子郵件使用者購買垃圾郵件中宣傳的任何東西,但我們所有人都會因為那些購買的人而遭受損失。

垃圾郵件最令人惱火的方面之一是,它不斷變化以適應阻止它的新嘗試。每當軟體工程師以某種方式攻擊垃圾郵件時,垃圾郵件傳送者都會找到繞過他們的方法。這場垃圾郵件軍備競賽導致了兩者的持續共同進化,從而導致雙方的複雜性不斷提高。

另一個根本問題源於工程師和立法者發現很難定義垃圾郵件這一事實。大多數法律將其定義為來自沒有預先存在的業務關係的某人的未經請求的商業電子郵件。然而,這種描述過於寬泛。例如,我們最近收到了一份電子郵件提案,建議將我們在網際網路上發表的一篇短篇小說改編成電影。這種溝通符合法律的要求:未經請求、商業性、來自未知發件人,但幾乎沒有人會稱其為垃圾郵件。另一種定義可能包括垃圾郵件通常是群發的這一事實。但我們最近向 50 位我們從未見過、但曾就此主題發表過文章的人傳送了請求,為一次討論電子郵件系統和反垃圾郵件方法的科技會議徵集論文。他們都沒有抱怨。也許對垃圾郵件最好的描述是,它是目標不明確且不受歡迎的。為垃圾郵件制定精確的定義極其困難,但是,就像色情作品一樣,當我們看到它湧入我們的郵箱時,我們當然知道它是什麼。

變形的訊息
自 1997 年以來,我們就一直在研究垃圾郵件問題,當時我們中的一位(海克曼)建議,機器學習方法可能提供一種有效的攻擊路線。從那時起,我們三個人以及我們在軟體行業的許多同事已經調查並開發了幾種阻止垃圾郵件的方法。它們包括技術和法律解決方案以及行業範圍內的倡議。[break]

一些最早用於阻止垃圾郵件的方案是所謂的指紋匹配技術。在這些系統中,工程師首先找到垃圾郵件示例,並讓計算機程式“指紋識別”它們。指紋是從訊息內容派生的數字,因此相似或相同的訊息會獲得相同的數字。為了給出一個簡化的例子,可以加上訊息中 A 的數量,再加上 10 倍的 B 的數量,再加上 100 倍的 C 的數量,依此類推。當新訊息到達時,反垃圾郵件程式會計算其指紋,然後將其與已知垃圾郵件的指紋進行比較。如果指紋匹配,程式將刪除或存檔該訊息。

遺憾的是,這些簡單直接的方法很容易被垃圾郵件傳送者擊敗,他們只是開始在訊息中新增隨機字元。垃圾郵件鬥士們透過更復雜的指紋技術來應對,試圖排除明顯的隨機字元序列,但垃圾郵件傳送者用更合法的隨機內容(例如虛假天氣預報)克服了這些努力。最終,使指紋系統足夠強大以看穿垃圾郵件傳送者的隨機化變得非常困難。

智慧過濾器
我們的團隊沒有追求指紋方法,而是走了一條利用機器學習能力的道路。這些專門的計算機程式可以學習區分垃圾郵件和有效郵件,並且它們不會輕易被新增的幾個隨機字母或單詞所迷惑。

起初,我們嘗試了最簡單和最常見的機器學習方法。樸素貝葉斯演算法從訊息中每個單詞的機率開始。“點選”、“此處”和“取消訂閱”等詞語在垃圾郵件中出現的機率可能分別為 0.9,而在合法電子郵件訊息中出現的機率可能為 0.2(1.0 為確定性)。透過將訊息中所有單詞的機率相乘並使用稱為貝葉斯規則的統計原理,我們可以估計訊息是垃圾郵件的可能性。

樸素貝葉斯策略在確定真實電子郵件的外觀方面效果顯著,並且像所有此類學習方法一樣,它可以抵抗簡單的混淆。然而,我們很清楚它的缺點。它假設電子郵件中的單詞是獨立的且不相關的,這在許多情況下是錯誤的(例如,“點選”和“此處”經常一起出現),這會歪曲結果。

由於這些困難,我們的研究側重於判別線性模型,該模型在為特徵分配權重時最佳化模型的後續決策。這些特徵包括單詞和訊息的屬性,例如訊息是否傳送給多個收件人。這些模型可以在某種意義上學習單詞之間的關係——例如,“知道”不要過多地權重那些傾向於一起出現的單詞,如“點選”、“此處”和“取消訂閱”。進一步解釋:假設一個樸素貝葉斯模型看到了這三個經常與垃圾郵件相關的詞。它可能會認為它有足夠的證據得出結論,任何包含它們的郵件都是垃圾郵件,從而導致它有時會刪除有效的電子郵件。相比之下,經過判別訓練的模型會知道這些詞傾向於一起出現,因此會為它們分配更低、更合理的權重。這樣的系統甚至可以學習到像“此處”這樣的詞,它可能在垃圾郵件中更頻繁地出現,應該完全不給權重,因為它實際上無助於區分好壞。判別方法還可以發現某些詞會相互抵消。雖然像“溼”這樣的詞在垃圾郵件中更頻繁地出現,但當“溼”與“天氣”一起出現時,訊息很可能是合法的。

樸素貝葉斯系統的優點是它們易於訓練。確定判別方法的權重要困難得多:它要求程式設計師嘗試許多單詞和其他特徵的權重值集,以找到區分垃圾郵件和非垃圾郵件的最佳整體工作組合。幸運的是,研究人員在這方面取得了重大進展。微軟的約翰·C·普拉特發明的順序最小最佳化演算法和我們中的一位(古德曼)建立的順序條件廣義迭代縮放 (SCGIS) 演算法比舊技術快幾十倍甚至數百倍。在處理大量垃圾郵件訓練資料(超過一百萬條訊息和數十萬個權重)時,更快的演算法至關重要。[break]

隱藏垃圾郵件
我們一直都知道,我們的機器學習系統(專注於訊息中的單詞)很容易受到混淆其輸出措辭的垃圾郵件傳送者的攻擊。例如,聰明的垃圾郵件傳送者學會了使用諸如“M0NEY”(用零代替字母“O”)之類的詞,或使用 HTML(超文字標記語言)技巧,例如將一個詞分成多個部分(例如,“cl”和“ick”而不是“click”)。由於明顯的術語(“money”、“click”)不再在訊息中,過濾器可能會感到困惑。好訊息是機器學習系統通常可以學習這些技巧並進行調整。

不幸的是,我們錯誤地假設很少有人會回覆明顯試圖擊敗垃圾郵件過濾器的訊息——因為我們認為,誰會購買這樣的產品呢?可悲的是,我們錯了;非法或非法產品的購買者不期望賣家採用體面的廣告技巧。因此,我們不得不透過採用研究人員所謂的 n-gram 模型來改變我們的學習系統。這些技術使用單詞的子序列來檢測經常與垃圾郵件相關的關鍵詞。例如,如果一封電子郵件訊息包含短語“n@ked l@dies”,則從此短語中提取的 n-gram 將包括

n@k”、“n@ke”、“@ked”等等。由於這些詞片段出現在已確認的垃圾郵件訊息中,因此它們的存在提供了有價值的線索。

N-gram 技術還幫助我們提高了過濾器應用於外語時的效用。例如,日語和中文不使用空格分隔單詞,因此明確查詢單詞分隔符非常困難。對於這些語言,啟用 n-gram 的系統只需篩選每個可能的單詞和單詞片段。

基於影像的垃圾郵件
垃圾郵件傳送者有時會將他們的訊息隱藏在影像中,機器學習系統無法分析內容(儘管他們仍然可以利用其他線索,例如訊息中的連結、發件人信譽資訊等)。未來研究的一個有希望的領域是將光學字元識別 (OCR) 技術用於垃圾郵件過濾。用於掃描文件的相同 OCR 技術可以找到影像中的所有文字,並將其饋送到機器學習過濾器。

垃圾郵件更令人反感的方面之一是色情影像出現在某人的郵箱中。幸運的是,計算機視覺研究人員在自動檢測色情影像方面取得了巨大進展。該領域的工作出奇地廣泛,因為它在防止兒童訪問包含色情內容的網站以及防止色情作品製作者濫用免費網路託管系統方面都有應用。然而,這種影像識別仍然非常耗時,並且識別的可靠性需要提高。良性影像,尤其是那些顯示大量皮膚的影像,可能會觸發誤報。

我們的團隊還在研究通用資源定位符 (URL) 資訊(連結到網頁的程式碼)的分析,以區分垃圾郵件。95% 的垃圾郵件訊息包含 URL。大多數垃圾郵件傳送者的首要目標是讓使用者訪問他們的網站(儘管一小部分人更喜歡透過電話號碼聯絡),因此 URL 資訊是過濾器的特別好的目標。

過濾器可以透過多種方式利用 URL 資訊。一些反垃圾郵件軟體提供商已經開始阻止包含指向已知垃圾郵件相關網頁的連結的垃圾郵件。指向以前未知域名的連結可能被認為是可疑的:垃圾郵件傳送者會非常快速地生成新域名,而大多數合法域名都是長期存在的。另一方面,URL 資訊也可以作為合法電子郵件的指標:一條僅包含指向已知非垃圾郵件相關頁面的指標或根本不包含 URL 的訊息不太可能是垃圾郵件。

證明它
儘管過濾技術效果很好,但我們認識到垃圾郵件傳送者將始終嘗試攻擊它們。我們認為,從長遠來看,最有效的方法是改變遊戲規則,而不是試圖贏得這場永無止境的競爭。因此,我們正在探索證明系統——其目標是要求垃圾郵件傳送者付出超出其承受能力的代價。[break]

第一封垃圾郵件是透過手動鍵入所有 400 個電子郵件地址傳送的。今天,幾乎所有垃圾郵件都是自動傳送的。因此,如果發件人可以證明自己是人類,則發件人可能不是垃圾郵件傳送者。以色列魏茨曼科學研究所的莫尼·納奧爾提出的最早的證明系統之一就利用了這一概念。納奧爾提議使用後來被稱為 HIP(人機互動證明)、CAPTCHA(“全自動區分計算機和人類的公開圖靈測試”的縮寫)或反向圖靈測試的東西[參見 Lee Bruno 的“Baffling the Bots”;大眾科學,2003 年 11 月]。HIP 是一種問題或謎題,旨在對大多數人來說很容易,但對計算機來說盡可能困難。例如,人們在識別影像中部分遮擋或扭曲的隨機字母集方面遠優於機器。

HIP 構成挑戰-響應系統的一部分,該系統驗證發件人是人類。在傳遞訊息之前,系統首先檢查收件人認為值得信賴的發件人的“安全列表”。如果發件人在列表中,則訊息將傳遞到收件人的郵箱。如果不在,則會向原始發件人傳送一條挑戰訊息,要求他或她解決一個 HIP。在發件人解決 HIP 後,響應將返回給收件人,收件人的電子郵件軟體隨後將訊息傳輸到收件人的收件箱。

然而,這種互動式系統可能會讓使用者感到煩惱。很少有人願意解決 HIP 來發送電子郵件訊息,有些人甚至拒絕這樣做。納奧爾和他的同事辛西婭·德沃克提出的另一種自動替代證明機制使用計算難題。為了成功傳遞訊息,發件人的電子郵件系統必須首先解決收件人系統提出的計算難題。其目的是證明發件人在該單個訊息上花費的計算機時間比群發營銷垃圾郵件傳送者能夠承受的更多。計算難題就像拼圖遊戲——難以解決但易於驗證。平均而言,它們可能需要幾秒鐘甚至幾分鐘才能找到解決方案,但只需幾毫秒即可驗證。及時解決這些問題將要求垃圾郵件傳送者購買大量計算機,使其成本過高。

另一種證明系統使用真金白銀。發件人在他們的訊息中附上一張小額電子支票,例如一美分。包含支票允許他們的訊息透過垃圾郵件過濾器。如果訊息是好的,收件人會忽略支票,但如果訊息被證明是垃圾郵件,則標準化的投訴機制允許收件人兌現支票(或將其捐贈給慈善機構)。同時,速率限制軟體會監控發件人的訊息量,確保他們傳送的郵件不超過其餘額允許的範圍。對於合法的發件人來說,這個系統是免費的,但對於垃圾郵件傳送者來說,每條訊息的成本可能是一美分,是我們當前價格估計值的 100 倍——垃圾郵件傳送者無法承受。對於個人來說,他們的網際網路服務提供商或在他們購買電子郵件軟體時也會存入一小筆虛擬存款,因此對於大多數使用者來說,根本沒有任何成本。

儘管這種貨幣系統概念簡單,但要付諸實踐將很困難。電子系統需要一些開銷,因此這些交易不會是免費的。關於小額支付銀行基礎設施的許多問題仍未得到解答:支付它的資金將來自哪裡?它的運營將如何維持,誰將從中獲利?誰將獲得付款,系統將如何防止欺詐?儘管這些問題都不是無法解決的,但建立這樣一個計劃將是艱難的。

全方位攻擊
我們最喜歡的阻止垃圾郵件的策略是將電子郵件過濾技術與證明測試的選擇結合起來:HIP、計算難題和小額支付。在這種方法中,如果訊息的發件人不在收件人的安全列表中,則訊息將被轉移到基於機器學習的反垃圾郵件過濾器,該過濾器旨在特別激進;如果訊息即使有點可疑,也會對收件人發起挑戰。然而,大多數人與人之間的訊息不會受到質疑,這大大減少了證明的數量。然後,原始發件人可以選擇:解決 HIP 或計算難題或進行可退款的小額支付。如果發件人的計算機具有較新的軟體,它將自動解決難題,而發件人甚至不會意識到挑戰。否則,發件人將解決 HIP 或進行小額支付。[break]

當然,個別公司或機構,無論規模多大,在對抗垃圾郵件方面都只能取得有限的進展。全面的解決方案需要整個計算機和軟體行業以及各國政府的合作。

如今,大約三分之二的電子郵件使用“欺騙”或虛假的發件人地址。今天使用的電子郵件協議基於信任:發件人只需宣告自己的身份,收件人就會相信他們。在網際網路早期,在垃圾郵件氾濫之前以及電子郵件用於商業交易之前,這種方法效果很好。

更改網際網路標準非常困難,對於電子郵件協議而言尤其如此。然而,一個新的行業標準 Sender ID Framework 最終解決了欺騙問題。它的工作原理是在域名伺服器 (DNS) 中新增補充資訊,以列出可以從特定域(網路的一部分)傳送郵件的網際網路協議 (IP) 地址。IP 地址是數字地址,就像單個計算機的街道地址一樣,例如“1.2.3.4”。給定域(例如“example.com”)的新 DNS 條目列表確定哪些 IP 地址可以從該域傳送郵件。如果垃圾郵件傳送者偽裝成 example.com,他或她的 IP 地址將與 example.com 的 Sender ID 條目中的任何 IP 地址不匹配,並且電子郵件程式將知道垃圾郵件傳送者的郵件是假的。

儘管瞭解發件人的身份是防止欺詐(如網路釣魚電子郵件)的關鍵步驟,但它不會解決垃圾郵件問題。沒有什麼可以阻止垃圾郵件傳送者每天甚至每隔幾分鐘就編造新的身份。這就是為什麼信譽服務(發件人可以透過它證明自己是合法的)如此重要的原因。

在 IronPort 的 Bonded Sender 計劃的一個案例中,發件人存入資金作為保證金。如果來自發件人的投訴率超過某個閾值,則保證金將沒收給指定的慈善機構。垃圾郵件過濾器可以檢查 Bonded Sender 列表,並允許來自經過認證的發件人的郵件透過垃圾郵件過濾器,即使它看起來可疑。此類程式甚至適用於傳送少量訊息的人。例如,像 MSN 或 AOL 這樣的網際網路服務提供商 (ISP) 可能會加入信譽服務以訪問其認證計劃;然後,ISP 將監控其每個使用者的電子郵件量和投訴率,從而確保其任何使用者都不是垃圾郵件傳送者。

如果大多數合法發件人採用這種系統(並且他們沒有理由不這樣做),則可以使垃圾郵件過濾器在處理剩餘郵件時更具侵略性,從而阻止絕大多數垃圾郵件。信譽系統可以與挑戰-響應系統相結合,以便那些無法加入的人有另一種傳送郵件的方法。

阻止垃圾郵件的一種補充方法是政府立法。《反垃圾郵件法案》於 2004 年 1 月在美國生效。該法案本身並未取締垃圾郵件傳送;它僅禁止某些特別惡劣的技術,例如使用虛假的“發件人:”資訊。不幸的是,《反垃圾郵件法案》迄今為止幾乎沒有可衡量的效果。自該法案生效以來,帶有欺詐性“發件人:”地址的垃圾郵件比例實際上從 41% 增加到 67%。相比之下,歐洲國家通過了更嚴格的選擇加入法律,禁止人們在未經收件人明確許可的情況下發送商業電子郵件。根據傳聞證據,這些法律在某種程度上是有效的,至少在阻止大型合法公司傳送垃圾郵件方面是有效的。

顯然,任何一個國家的法律都無法希望結束垃圾郵件。只有大約一半的垃圾郵件來自美國;其餘的來自海外。透過垃圾郵件銷售的產品(如保險或抵押貸款再融資)中,只有大約三分之一需要美國國內業務。其他產品,包括色情作品、“草藥增強劑”和詐騙,已經位於國外,可以輕鬆轉移到海外或本身就是非法的。[break]

無垃圾郵件的未來
行業、開源社群和學術界都在繼續研究如何消除垃圾郵件。我們最近幫助建立了第一個關於該主題的正式會議——電子郵件和反垃圾郵件會議,該會議吸引了來自世界各地的研究人員。IBM 的工程師展示瞭如何使用生物資訊學技術(最初旨在尋找基因中的模式)來識別垃圾郵件中的模式。AOL 的調查人員證明,具有不同詞彙表的多個指紋系統可以更好地防禦垃圾郵件傳送者的混淆。加州大學戴維斯分校的一個團隊描述了新增一些常用詞如何對機器學習垃圾郵件過濾器產生有效攻擊,以及如何透過訓練使過濾器更能抵抗這種攻擊。

我們毫不懷疑,當前和下一代技術的結合最終將阻止大多數垃圾郵件。當然,總會有一些垃圾郵件傳送者願意付出代價來進入我們的郵箱,但洪流將變成涓涓細流。

模式分類。 第二版。Richard O. Duda、Peter E. Hart 和 David G. Stork。John Wiley & Sons,2000 年。

垃圾郵件之王:推動色情、藥物和 %*@)# 增大背後的高調兜售者的真實故事。 Brian McWilliams。O'Reilly,2004 年。

閘道器軟體

垃圾郵件傳送者的策略

電子郵件使用者訓練垃圾郵件過濾器

多重反垃圾郵件努力

大眾科學 Magazine Vol 292 Issue 4本文最初以“阻止垃圾郵件”為標題發表於大眾科學雜誌 第 292 卷第 4 期 ()
doi:10.1038/scientificamerican042005-4ojP5yuzVybvKP9dVOf3Lw
© .