如果網際網路在核彈爆炸中倖存下來,那麼一旦衝擊波消退後伺服器恢復供電,用於檢查親友生存狀況的訊息很可能會與垃圾郵件交織在一起。垃圾內容的無限多樣性和永續性使其相當於以指數級速度繁殖的電子微生物群。看看內容農場的大規模生產——兜售關於如何穿著毛衣背心的技巧以及除臭劑容器的評測——大量愚蠢無關的人工撰寫的文字傾瀉而下,模糊了垃圾郵件和實際內容之間模糊不清的界線。內容農場 19 世紀撒旦磨坊般的品質與擺脫了人為因素的無知機器形成鮮明對比。可以說,殭屍網路是終極垃圾郵件——機器奪取它們想要的東西(一臺被入侵的電腦不到五美分),而不是詢問你是否想購買不需要的商品。在我們芬恩·布倫頓非凡的垃圾郵件鉅著的章節的第三部分中,跟隨這一切。
目錄
過濾:科學家和駭客 [節選,第一部分] 《垃圾郵件》書籍節選系列的第一部分
投毒:垃圾郵件的改造 [節選,第二部分] 《垃圾郵件》書籍節選系列的第二部分
量化受眾 內容農場代表了一種“回歸基礎”的垃圾郵件方法,讓人想起 19 世紀的血汗工廠
殭屍網路 認識垃圾郵件機器人 ActiveAgent,它爬取網頁以尋找地址,並向它們傳送預程式設計的文字
市場 進入蓬勃發展的全球垃圾郵件供應和惡意軟體集市
關於支援科學新聞報導
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報導 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。
轉載自 《垃圾郵件:網際網路的陰影歷史》, 作者芬恩·布倫頓。版權所有 © 2013,麻省理工學院。經出版商麻省理工出版社許可使用。
“情感的新轉折”:內容農場和社交垃圾郵件
量化受眾
谷歌作為我們這個時代的代表性公司,就像福特是 1910 年代的代表一樣,它的業務不是搜尋,而是廣告——其廣告服務提供了其收入的 97%。 這些廣告採用小段文字或影像的形式,通常是針對特定的搜尋關鍵字顯示的。如果網站所有者將其中一些廣告放在他或她的網頁上,他們可以獲得一定數量的收入,通常非常少,按展示次數(即,每次在瀏覽器中載入帶有廣告的頁面時)或按點選次數(檢視者實際點選廣告以訪問廣告商的頁面)計算。谷歌也從這筆收入中分一杯羹,所有在部落格和網頁上投放的廣告、搜尋結果中的贊助連結以及伴隨谷歌 Gmail 服務中對話的廣告都累積成公司的收入,這幾乎支付了所有其他費用。(這個基金也來自大量的免費內容,其託管費用是從個人分享的這筆錢中支付的,以換取在其網站上投放廣告。)因此,如果廣告是業務,而內容僅僅是誘餌——也就是說,引擎上的裝飾品——為什麼不最佳化廣告呢?
因此,splog 和垃圾郵件網站包含一個又一個的帖子和一頁又一頁的文字,這些文字是自動收集和生成的,以最好地適應谷歌的搜尋引擎演算法,並在最後一個畫素中填充廣告,以便最大限度地利用每個頁面瀏覽量和點選率作為收入來源。垃圾郵件頁面上的廣告可能完全透過谷歌的聯盟廣告計劃投放——換句話說,它們可能是谷歌的重要收入來源。這意味著 搜尋引擎 垃圾郵件傳送者執行著龐大的垃圾郵件部落格和網站,這並非異常現象。他們正在最大限度地利用可用的技術和經濟,構建一個系統,在這個系統中,所有與人和對話無關的事物都被修剪掉,轉而支援內容生產、搜尋結果、點選和廣告投放的自動化。(該領域眾多企業之一的“企業”套餐將為訂閱者批次生產多達 1,000 個部落格,每天圍繞訂閱者選擇的 150 個關鍵字產出 10,000 篇文章——每天的文字量在數量上超過了整個有文字文化的文明和歷史時代。)這個系統反過來使谷歌處於矛盾的境地,不得不分析和驅逐其許多最忠實的客戶:那些故意過度利用,並意外地過度暴露,支撐著當代網路的金融和注意力經濟以及技術的人。
被稱為“內容農場”的人工撰寫文字的大規模生產系統加劇了這種矛盾的角色。Demand Media 是一個典型的案例,它根據一種演算法委託人工撰稿人(他們願意以非常低的標準、高速和極少的錢來滿足要求)撰寫內容,該演算法決定任何給定文章在其生命週期內的廣告收入。然後,它透過 eHow.com 和 Livestrong.com 等數十個域名發布這些內容。Demand Media 在高峰期每天生成數千篇文章,可以建立一種知識的模擬,這種模擬足以吸引搜尋引擎的回報和真人的點選(儘管產生了一種無用性的無意義詩歌,這是垃圾郵件的機器混亂的後人類語義的相關物,文章如“如何穿著毛衣背心”和除臭劑容器的冗長評論)。正如 C. W. Anderson 所觀察到的,內容農場正在從事吸引和操縱“量化受眾”的工作,這種策略標誌著更負盛名的合法媒體製作與垃圾郵件本身之間模糊的邊界空間。 畢竟,這些是非常精確定位的文章,由人為人寫作;它們在什麼時候從報紙會刊登的僅僅是輕浮或引人注目的文章的空間跨越到網路不良行為的領域?演算法量化何時與精明的編輯分道揚鑣,後者知道性、連環殺手和操作指南故事能賣錢?
在整個歷史中,垃圾郵件都產生了定義上的問題。雖然很容易識別一個典型的例子——例如,早些時候描述的那些可笑的糟糕的過濾器擊敗專案,其中將西力士連結插入到由《聯邦黨人文集》製成的詞彙紙漿中——但邊緣案例才是問題所在。無論我們談論的是 Usenet 上的言論自由、透過電子郵件進行的合法營銷和商業活動的政策問題,還是觸發過濾器並消失的理想但類似垃圾郵件的訊息,總會存在摩擦,不是圍繞最惡劣的案例(沒有人為 Leo Kuvayev 的“\/1@gR/-\”訊息辯護),而是在垃圾郵件威脅要融入可接受用途的模糊地帶,並且打擊一種可能對另一種產生有害影響。 “社交垃圾郵件”和量化受眾的領域是最模糊的領域之一——在這些領域,獲得關注和受眾管理的相當可接受和既定的方法可能開始轉變為垃圾郵件。
“該演算法的輸入來自三個來源:搜尋詞(來自 100 多個來源(每天包含 20 億次搜尋)的熱門詞)、廣告市場(哪些關鍵字受到追捧以及它們的價格快照)以及競爭(線上已有的內容以及術語在搜尋結果中的排名)。” 這句話可能是在描述一個運營極其良好的 splog 帝國,但這是記者丹尼爾·羅斯對 Demand Media 運營的描述。 該演算法 輸出什麼是盈利的,職位被發布到一個單獨的網站以尋找勞動力,然後一個人撰寫條目。“它是一個人類需求的資料庫,”羅斯補充道,但這並不完全正確。它是一個不斷更新的查詢集合,這些查詢的結果可以長期穩定地賺錢;“需求”有點太宏大了。安德森剖析了這種“演算法新聞報導”所做的規範性承諾——因為它確實做出了承諾並反映了信念,我們不應過於迅速地否定這些信念,儘管這些信念可能顯得膚淺和自私自利。它們是不同的選區劃分領土並在技術戲劇中提出論據的地方。
安德森確定了五項承諾,在這些承諾中,我們可以找到內容農場和其他型別的演算法新聞報導所參與的垃圾郵件血統的顯著回聲。 它是圍繞“大資料”構建的,因此它具有我們之前看到的模糊性,即人類和機器輸入和判斷之間的模糊性。它以“消費者選擇”的思想為基本原則——畢竟,它是“需求”媒體,它可以聲稱以非常高的數學精度給予那些輸入查詢的人們正是他們想要的,因此沒有任何家長式地過濾或“策劃”資訊以造福他們的藉口。最後,它是面向未來的,因為它是預測性的——它不是報導即時過去的新聞,而是可以關注趨勢,並根據趨勢製作內容以達到頂峰,就像維納控制論的槍射擊到飛機到達的位置一樣。看看內容農場專案中體現的這五種信念,我們可以再次看到相關性的捕獲,其形式比以前更加精細。與其傳送一百萬封電子郵件來期待少數回覆,不如製作一百萬篇文章,這些文章將被搜尋引擎認為足夠相關,以便在少數搜尋中獲得最高排名,並被人們點選並貢獻廣告收入。
對於這個專案的略微不同的方法,我們可以轉向美國線上,那裡歷史的諷刺意味變得幾乎濃鬱。該公司的圍牆花園方法為美國聯網計算帶來了大量新使用者。並非巧合的是,它也帶來了大量不熟悉的新使用者,這些使用者不斷打破“網路禮儀”的規則,並為早期的垃圾郵件傳送者提供了有利可圖的誘餌。它現在正在將自己重塑為一個瘋狂的 SEO 遊戲內容帝國。一份關於“美國線上方式”的洩露的內部備忘錄揭示了一個引人入勝的專案,即使用一個緊密協調的人工團隊來生成大量文字,以便在這些文字上投放廣告。文章的數量將從每月 33,000 篇躍升至 55,000 篇——每位員工每天生產 5 到 10 篇文章——圍繞一個基於“流量潛力”、“收入/利潤”、“周轉時間”和“編輯誠信”的指標系統構建,其中包含逐點問題,例如“此內容將賺取多少 CPM?”(“CPM”是指廣告載入一千次(一千 = M,如羅馬數字)的成本——即美國線上預期的收入。)“這個故事是否是熱門關鍵字的 SEO 冠軍?” 出現在檢查清單中:這裡可以使用多少個至關重要的熱門關鍵字來獲得最多的搜尋次數?從這個角度來看,美國線上收購了大型內容生產和聚合網站《赫芬頓郵報》符合安德森描述的演算法新聞報導模式。美國線上並不是在購買一個受歡迎且可能存在問題的文化資產,就像索尼購買電影製片廠或康泰納仕在《紐約客》上虧錢一樣。他們購買的是一家工廠——一個擁有經過驗證的往績和管理良好(如果艱苦)的時間表的裝配線系統,可以生產或聚合適合熱門話題的材料,並可靠地生成頁面瀏覽量,其中包括最新的十大列表和真人秀明星的困境。
這是垃圾郵件嗎?不完全是,儘管經常使用這個術語——但“垃圾郵件”從來都不是精確的。在所生產材料的一次性和機會主義性質,以及用於生產它的人工和自動化基礎設施的混合中,存在一些相似之處——一個旨在壟斷對話和徵用相關資訊空間的犬儒主義專案。連結誘餌是一個相關術語,它起源於 SEO 社群,用於描述生產相關的、高度“可連結”的內容的策略,希望從“精通連結的部落格作者和網路內容創作者”以及追隨他們的“數百名像綿羊一樣的內容創作者”那裡吸引流量,從而獲得廣告收入(引用該術語在 2005 年秋季最早出現的說法之一)。 “連結誘餌”最初是一個積極的片語,用於描述建立在長期以來在雜誌行業流行的輕量級基於趨勢的內容之上的剝削性策略,但很快就被採用為一個負面描述詞,涵蓋相同的內容。從尋找有深度內容的讀者的角度來看,它是描述大量與連結內容藻類大量繁殖的完美術語,這些內容具有引人注目的標題、關於熱門話題的十大列表、誇張的說法以及不必要的反對立場,所有這些內容每篇文章僅提供幾百字。該術語現在已從其 SEO 根源擴充套件到描述其他文化現象,這些現象被認為犧牲了論點和證據,以換取吸引注意。
考慮一下這種想法的另一個版本,應用於個人自我推銷:人格垃圾郵件,這是作家梅林·曼恩創造的一個略帶苦澀的玩笑,關於使用微博服務 Twitter。人格垃圾郵件是指為自己爭奪關注,使用社交媒體來建立受眾——通常是一個經過仔細量化的“關注者”和“轉發者”受眾——而不是像最初承諾的那樣建立朋友圈。這是一個對社會可接受但積極渴望眼球的人的機智譴責,這些人想要成為或表現得像名人、“影響者”或“思想領袖”。在 Facebook 上取消好友資格的首要原因是“頻繁、不重要的帖子”,許多基於計算機的 Twitter 客戶端都有“靜音”功能,因此您可以忽略某些使用者的訊息,而不必取消關注他們,然後稍後再重新關注他們(這會讓他們知道您曾經暫時關閉了他們)——人格垃圾郵件是指每日生活中的一個特徵。正如安德森透過演算法新聞報導所暗示的那樣,這些做法
反映了一些真正新穎的東西,並且尚未明確地進行理論化,與哈貝馬斯的公共對話作為審議以及阿多諾和霍克海默的文化產業的平淡無奇的管理產品(後者由多層次的人才塑造,以實現最廣泛的傳播)截然不同。正在進行一場重新調整,其中正在權衡可接受的社會表達和自我推銷模式的問題。借鑒愛麗絲·馬威克的研究,我們可以發現一些由個人塑造的這些新模式,他們將自己變成了主要廣告和營銷公司的後繼者:品牌就是你,目標是為某些術語或想法積累相關性,以便你在某種模糊的意義上變得“有影響力”。(據推測,從這種狀態將會產生書籍合同、演講費和電視節目合同。)因此,方法是將每個平臺、聚會和互動都視為營銷機會,以配置自己和自己的活動,以適應搜尋演算法。
用您自己的話來說:垃圾郵件傳送和人機協作
演算法在垃圾郵件傳送專案中的逐步主導地位出現在過濾器和響應過濾器建立的垃圾郵件中,出現在搜尋引擎及其操縱者中,並且正如將要展示的那樣,出現在殭屍網路的宏偉全球專案中。然而,在那些演算法倡議和人工勞動交匯的地方,它最令人毛骨悚然地被看到。內容農場是這種結合的一個很好的例子,但還有其他更親密的例子,在這些例子中,人工和機器生產相互結合,以擊敗反垃圾郵件系統的自動化安全。例如,Mechanical Turk 是一個真正奇怪且現代的事物:一個眾包可在計算機上由人完成的小單位工作的市場。在“人工人工智慧”的標題下,它是一個“請求者”(在 Mechanical Turk 術語中)可以將任務分解為稱為人類智慧任務 (HIT) 的片段,提供每個任務的價格,然後看看是否有任何“提供者”雲——尋找少量微支付勞動力的工人,類似於等待 Demand Media 新工作的“內容生產者”——會接受它們。亞馬遜的系統協調工人、任務片段和付款。(如果您有一個 45 分鐘的 mp3 檔案採訪,您可以將音訊分成兩到三分鐘的片段,將它們上傳到 Mechanical Turk,為每個轉錄片段提供一美元,去吃午飯,然後回來發現大部分工作都已完成。)據估計,該服務在 100 個國家/地區擁有 10 萬名工人,其中大多數在印度和美國。它被用於轉錄工作,如我們的示例所示,以及資料庫專案、調查、影像標籤和更深奧的活動。它具有一系列用於重寫各種長度的文字的 HIT,其中許多似乎適用於向付費學生提供抄襲或“預先寫好的”論文和論文的服務——重寫文字(“用您自己的話”)使教師更難透過 Google 搜尋識別它們。
與殭屍網路等簡單且大規模自動化的流程相比,僅僅建立 HIT 來傳送垃圾郵件電子郵件將是毫無意義的困難和昂貴。但是 Mechanical Turk 系統非常適合從事社交網路垃圾郵件。(“社交網路”:當然,所有網路都已經是社交網路,無論它們是否願意成為社交網路。)許多網站現在都帶有內建的使用者操作和選擇模型,從投票到公共書籤到協作過濾,為群組分配顯著性和價值提供了不同的方式。除了來自這些網站之一的直接流量的好處外,當使用者看到有趣的連結並點選它時,在主要的社交網站上獲得連結是提高一個人的 PageRank 並獲得更好的搜尋結果的好方法。搜尋引擎垃圾郵件傳送者數十年來在搜尋排名中攀升的追求因此已遷移到社交推薦系統的新領域。“您能否為我的網站新增書籤 / 使用以下網站之一: http://www.del.icio.us/ http://www.stumbleupon.com/ http://www.furl.com,” 一位 Mechanical Turk 請求者說,為每個書籤提供 1.75 美元的費率。突然之間,在社交網站和搜尋引擎的演算法眼中,聲譽良好且高價值的真人社交網站使用者對這個關於抵押貸款重組或名人性愛錄影帶的廣告網站產生了濃厚的興趣。
與此同時,Craigslist 為那些想要傳送社交網路垃圾郵件的人提供了非常不同的挑戰和回報——這種挑戰導致了一場奇怪的人機軍備競賽。Craigslist 是一個免費網站,用於發布分類廣告,從出售腳踏車到出租公寓(以及大量徵友和“錯過的聯絡”,城市孤獨和渴望的大規模索引)。它在美國(截至撰寫本文時)頁面瀏覽量排名第九的網站上為廣告提供免費空間,與谷歌及其屬性維基百科和 Facebook 並列。因此,Craigslist 顯然需要保護自己免受垃圾郵件傳送者的侵害。垃圾郵件的特徵之一是文字的重複——這是貝葉斯過濾器抓住的一個弱點——因此 Craigslist 阻止了具有相同文字或來自相同網路地址的多個廣告帖子。他們要求提供有效的電子郵件地址才能發布,並向該地址傳送電子郵件確認請求,必須點選該請求廣告才能發布。他們使用 CAPTCHA 系統——理論上只有人類才能讀取的奇怪背景上的變形字母,以驗證他們的非機器人身份——以阻止自動發布工具。最後,他們允許其他使用者將廣告標記為垃圾郵件,以便網站版主可以刪除它。作為回報,垃圾郵件傳送者開發了諸如 CL Auto Posting Tool 和 Craigslist Bot Pro 1 之類的工具(垃圾郵件業務的平庸:67 美元,僅限 Windows,“允許您自動化您的個人和商業線上廣告”),以繞過 Craigslist 的每一項防禦措施。文字多型性——垃圾郵件訊息語言的個別差異——可以擊敗重複訊息檢測器,就像在電子郵件中一樣。代理可以用於從許多不同的網路地址發布廣告,帶有由 Jiffy Gmail Creator 等程式像車牌一樣衝壓出來的有效電子郵件地址。Captcha King 可以填寫 CAPTCHA。開發了監視器來檢測廣告何時被標記為垃圾郵件,以便可以自動重新提交。
然後 Craigslist 轉向電話驗證。要在某些類別中發布廣告,您必須接聽自動電話或簡訊,其中包含您的確認密碼,然後廣告才能發布,每個電話號碼只能發布一個廣告。垃圾郵件傳送者嘗試使用諸如 Skype 之類的網際網路語音 (VoIP) 服務,在某些情況下,這使得生成新的電話號碼成為可能。Craigslist 阻止了這些。“我的假設可能是準確的,即 CL 正在檢視國家資料庫,該資料庫區分哪些號碼是 voip,哪些不是 [原文如此],”一位垃圾郵件傳送者在專門討論如何克服這些新進展的廣泛技術討論中寫道。垃圾郵件傳送者轉向可以讓他們以少量費用註冊額外電話號碼的服務。Craigslist 也阻止了這些。
垃圾郵件傳送者轉向其他平臺:“你們為什麼不帶一臺筆記型電腦去:卡車停靠站、機場、汽車站,你們應該在那裡找到將近 100 部公用電話”——並使用這些電話及其號碼進行驗證訊息。另一位垃圾郵件傳送者回復說:“我曾經
有 140 個帳戶都是我在公用電話上完成的。我花了大約 3 天時間。這並不容易,而且很無聊。” 隨著這些努力達到高潮,隨之而來的是一個更巧妙、幾乎類似於 Mechanical Turk 的勞動分工專案:“有些人正在建立手機鈴聲頁面[用於手機],如果有人想要鈴聲,您只需在她的手機中接收一條簡訊(craigslist),並將此程式碼放在網站上,即可自動下載您的鈴聲。” 換句話說,在行動電話上尋找免費鈴聲的人將充當分散式電話驗證系統,以補償 Craigslist 的反垃圾郵件措施:一個隨機的志願人群,由機器遠端組織,幫助廣告商淹沒社群平臺,而他們從不意識到自己正在這樣做。
CAPTCHA,Craigslist 等眾多網站和平臺使用的介於人類和機器人可讀之間的邊界,長期以來一直困擾著垃圾郵件的生產,使得啟動新的 Blogger 部落格或開設更多免費電子郵件帳戶變得更加困難,垃圾郵件傳送者一直在不同方面努力克服它們。2008 年 5 月,一個真正奇怪的突破發生了。安全公司 Websense 記錄了一系列針對電子郵件服務帳戶建立過程的攻擊。許多帳戶請求不斷達到 CAPTCHA 階段,大多數請求失敗,但並非全部失敗。有俄語證據表明有人出價少量資金來解決 CAPTCHA,但速度(六秒內回覆)和失敗率(九比一)表明計算機正在進行求解。(“我們仍然相信有人工參與,”該公司宣告。) 後來,Websense 還 記錄了一個 顯著改進的 CAPTCHA 破解器,垃圾郵件傳送者的計算機可以將他們的 CAPTCHA 問題傳遞給該破解器,因為他們建立了新的電子郵件帳戶。該程式可以獲取扭曲文字的影像並返回結果。在 20 到 25 秒內,錯誤率顯著提高,達到五到八次嘗試成功一次或介於 12% 到 20% 之間——一點也不差。擁有所有備用計算能力的殭屍網路非常適合對分析 CAPTCHA 所需的計算量大的處理進行暴力攻擊。
與此同時,諸如 Captcha King 之類的服務(在前面提到的 Craigslist-垃圾郵件傳送者軍備競賽中提到過)正在採取相反的策略,這些服務宣傳一系列以貴族為主題的支付計劃(皇家、帝國和皇帝),用於批次銷售數千個 CAPTCHA 解決方案。他們的方法與自動 Craigslist 釋出引擎、Jiffy Gmail Creator 和 MySpace 機器人等垃圾郵件傳送軟體整合,檢索 CAPTCHA 影像以進行“手動輸入”。外包人員整天坐在那裡敲擊 CAPTCHA,保證“成功率為 95%,響應時間不到 90 秒”。與他們相比,那些可憐的人,他們的工作使常規資料輸入顯得非常愉快,本質上是受僱成為人類,也就是說,表現出一種理論上完全是人類的特徵。(另一項類似的服務 KolotiBablo 透過其支付率告訴我們,“赤裸裸的人性”本身並不值多少錢:每解決一千個 CAPTCHA 支付 0.35 美元至 1.00 美元——這意味著每天連續工作八小時,每分鐘輸入六次 CAPTCHA 文字,每天的收入略低於 3 美元。)在他們的工作中,以及在宣告“我們仍然相信有人工參與”中,我們可以聽到艾倫·圖靈的打字機在客廳裡玩模仿遊戲的咔噠聲。CAPTCHA 是由深感厭倦的人的分散式勞動力解決,還是由在受感染機器網路上執行的日益複雜的光學字元識別程式解決?一些細節可以幫助區分它們,但兩者可以混合在一起且難以識別的事實——誰在電話線的另一端?——引發了圖靈思想實驗的本質問題。正如凱文·凱利所說,“如果垃圾郵件傳送者在谷歌之前提出人工智慧會怎樣?”
作為回應,用於區分計算機和人類的技術也在不斷發展,變得更加精密——又一場軍備競賽。目前的工作集中於呈現由動畫斑點組成的移動影像(例如奔騰的駿馬),背景也是斑點狀的。這是人類可以識別,但計算機至少到目前為止會發現極其困難的事情。在一個充滿創造力的本土化反機器人程式解決方案的世界裡,個人網站上提供了各種各樣的選擇:一個以“oryx”結尾的電子郵件地址,並附註在傳送前刪除“羚羊屬名”;一個非常簡單的笑話,你必須從中選擇顯而易見的正確笑點;一張照片,你必須簡要描述(“我在房子裡還是在海灘上?”)才能傳送訊息——這些任務對於人類來說是微不足道的,但對於目前被髮送來收集地址和釋出評論垃圾資訊的粗糙程式來說,則需要不可能的推理。有趣的是,早些時候描述的驗證碼破解血汗工廠之一,一家名為 Antigate 的俄羅斯服務,透過要求訪問者使用西裡爾字母輸入現任俄羅斯總理的名字來阻止西方人,這是一種“文化限制型驗證碼”,目的不僅是抵禦機器人程式,還要區分人類群體。什麼才是獨特且可靠的人類特質(並且可以在不同型別的介面上進行大規模自動測試)的領域,是未來技術專家探索的有趣領域之一——哪怕只是為了阻止殭屍網路。
殭屍網路
“到現在我也不知道蠕蟲裡到底有什麼,”主人公宣佈。“隨著它蔓延到我從未敢想的地方,更多的位元正在被自動新增進來。”他繼續說道,“而且——不,它無法被殺死。只要網路存在,它就能無限期地自我延續。即使它的一部分失效,缺失部分的副本也會儲存在其他某個站點,蠕蟲會自動細分併發送一個重複的頭部來收集備用組並將它們恢復到正確的位置。”這段文字引自約翰·布魯納 1975 年的科幻小說《衝擊波騎士》,在約翰·肖奇和喬恩·哈普 1982 年的傑出論文《“蠕蟲”程式——分散式計算的早期經驗》的開頭被引用。正是透過他們,以及他們在施樂帕克研究中心的工作,蠕蟲從布魯納小說中的概念和詞源學意義上,演變到新千年中電子郵件垃圾郵件的變異。
肖奇和哈普設想了一種非常有創意的東西,尤其是在當時:“分散式計算”,即一個單一程式跨多臺機器執行,並利用空閒處理能力來完成其工作。這種“蠕蟲”是第一個怪物,其他的怪物都由此衍生而來,擁有相同的基本 DNA,這種蠕蟲在夜間生長(“對夜間探索的偏好導致一位研究人員將這些描述為‘吸血鬼程式’”),因為它分割各個未充分利用的機器以實現集體目的。從布魯納的小說到 1982 年的實驗室,再到今天,其核心專案仍然相同:將所有的小盒子變成一臺大機器。“我們沒有將這種環境視為連線到網路的 100 臺獨立機器,而是將其視為一個 100 元素的多處理器,正在尋找一個要執行的程式。”此後,蠕蟲在合法的計算機科學領域擁有悠久而傳奇的歷史,但布魯納、肖奇和哈普闡明的蠕蟲程式概念也在殭屍網路及其垃圾郵件資助的運營中獲得了非凡的生命力。
想象一下世界某處一棟大樓裡的辦公室隔間——可能在美國、臺灣、德國或巴西。熒光燈在吊頂上嗡嗡作響。一名員工離開了他的辦公桌。他的電腦正在播放家庭照片的螢幕保護程式。這臺電腦——一臺標準的中國製造的克隆機器,執行 Windows XP——處於空閒狀態,但仍在透過其寬頻連線進行自動行為。例如,它每隔幾分鐘就會在伺服器上檢查新郵件。少量但定期的請求和回覆在其始終線上的網路連線上移動。
在過去的某個時候,也許當電腦使用者訪問惡意網頁、下載和安裝程式或開啟陌生人傳送的電子賀卡時,這臺電腦感染了一段惡意軟體,這是一種旨在利用計算機的程式。在這種情況下,惡意軟體是一種蠕蟲病毒,它是肖奇和哈普蠕蟲概念的高度發展後代,以寄生程式的形式存在,能夠自行執行。(這種行為將其與病毒區分開來,病毒需要在計算機上已有的另一個程式內部執行。)遠遠低於我們員工會注意到的任何級別,在磁碟空間的某個角落,蠕蟲利用計算機上的空閒處理能力和始終線上連線的額外頻寬來完成其工作,將計算機變成蠕蟲程式設計師遠端控制的工具——並自動變成將蠕蟲傳播到其他計算機的工具。這種惡意軟體的感染點可能非常簡單和隱蔽。也許這位員工收到了一封來自同事地址的電子郵件,警告郵件傳送失敗,並給出了無害且令人困惑的解釋“郵件包含 Unicode 字元,已作為二進位制附件傳送”。他下載並開啟附件,看到的只是一頁毫無意義的符號。他關閉了頁面,也許回覆了他的同事——“你的上一封郵件有問題?”——或者將整個事件視為一個電腦謎團而忽略了。
當他開啟該附件時,這位員工啟動了蠕蟲病毒來執行其秘密工作。在計算機上安裝自身後,它開始搜尋主機檔案中的電子郵件地址,並向這些地址傳送感染訊息的版本,隨機從一小部分集合中抽取標題、正文文字和附件名稱,所有這些都同樣令人困惑和乏味。它會查詢流行的檔案共享程式 Kazaa(Napster、Gnutella 和 Morpheus 等流行的點對點媒體檔案共享程式組中的一個);如果找到它,它會將自身的一個版本複製到共享檔案目錄中,並使用諸如 strip-girl-2.0bdcom_patches.bat、office_crack.exe 或 winamp5 等名稱之一。現在,在龐大的檔案共享計算機網路中,有人瀏覽該使用者的檔案——或搜尋“破解版”(免費、無保護)的 Microsoft Office 或脫衣舞女郎——會找到這些檔案之一,下載它,啟動它,看到一頁毫無意義的符號或錯誤訊息,並以類似的方式悄無聲息地被感染。但蠕蟲病毒除了複製自身之外,還有更多的事情要做。
它還會開啟一個通往受感染計算機的“後門”,使其能夠與其控制器通訊並代表其執行命令,從而將計算機變成“殭屍”或“肉雞”機器。它開始悄悄地透過其網際網路連線的可用容量來回傳輸資訊。它與“命令與控制”通道進行通訊,在該通道上接收來自殭屍網路主人的指令。(該通道通常使用一種古老而穩健的聊天協議,稱為網際網路中繼聊天 [IRC]。)給它的指令通常是這樣的:獲取這段文字(“您的網上銀行已被阻止!/ 我們最近審查了您的賬戶,並懷疑您的美國銀行賬戶可能已被未經授權的第三方訪問”),並將其作為電子郵件傳送到此地址列表。辦公室隔間桌子上的電腦已成為垃圾郵件分發機器,並且有能力做更多的事情。它已加入殭屍網路。
為什麼殭屍網路中會有“殭屍”?殭屍程式只是可以按照程式指令執行操作而無需人類持續干預的程式。它們可以關聯資料,當有人詢問時在聊天頻道中提供行為準則,或者在程式設計師忙於其他事情時在網路上搜索電子郵件地址。這些能力使它們非常適合各種各樣的計算機任務——其中之一就是傳送垃圾郵件。早在線上社交的歷史中,“floodbot”就會加入一個頻道,並用“垃圾文字、無休止的侮辱或隨機滾滾而來的資料風暴”填充它,從而扼殺正常的對話。82 在 1996 年,隨著垃圾郵件作為一種有針對性的營銷模式興起,NANAE 成立,一家名為 GlobalMedia Design 的公司釋出了 RoverBot,這是最早的地址收集機器人程式之一,它會獲取關鍵詞,查詢相關頁面,並在這些頁面中搜索電子郵件地址,以便您可以生成與“房地產”或“漫畫”相關的地址列表。而且,預示著日益自主的垃圾郵件運營的興起,出現了垃圾郵件機器人程式 ActiveAgent,這是一個小小的噩夢,它會爬取網頁以查詢地址,並使用預先程式設計的文字向它們傳送電子郵件;作者“Robert Returned”會將 ActiveAgent 的程式碼以 100 美元的價格出售給任何有需要的人。當然,當時已經開發出更有效的地址收集和郵件傳送方法——這些方法最終將發展為殭屍網路。
我們虛構的員工的臺式電腦正在執行一個真正的蠕蟲病毒:它於 2004 年初首次釋出,在安全社群中被稱為 Mydoom,它具有很好的原型特徵,可以解釋殭屍網路的基礎知識。特別是,它尾部的刺將殭屍網路帶入了與軍事領域的對話。“在 2004 年 2 月 1 日,”蠕蟲病毒告訴受感染的計算機,“每毫秒請求 SCO 公司網站 http://www.sco.com, ,並持續到當月 12 日。”當您在瀏覽器的位址列中輸入“www.sco.com”並按回車鍵或點選指向 sco.com 的連結時,您就會請求一個網站:請求被髮送到該地址的伺服器,並且來自伺服器的資料被接收並在您的螢幕上顯示。這是伺服器的正常業務,它們被構建和配置為處理來自一定數量使用者的針對一定量資料的請求,具體取決於資源和預期用途。如果在很短的時間內收到太多請求,伺服器將無法處理新請求,並且該網站將無法訪問——它變得慢得無法使用或完全無法響應,使使用者看到錯誤頁面(“伺服器可能不可用”、“伺服器已超時”等等)。這被稱為拒絕服務 (DoS)。DoS 通常是突然流行造成的,當一個通常每天只接收數百名訪問者的個人網站出現在一個主要的部落格或社交新聞網站上時,然後突然接收到數萬名訪問者並變得不堪重負。這種事件也可能被惡意利用。這就是憤怒的 Usenet 居民對 Portal 和 Internet Direct 進行的喧囂報復,用憤怒的郵件和佔用大量容量的影像檔案淹沒了伺服器。
Mydoom 蠕蟲病毒發出的這條命令旨在建立一個龐大的虛幻使用者群體,他們從世界各地成千上萬臺計算機上一次又一次地請求該網站,有效地使該網站離線整整十二天,使其無法開展業務,並對其作為一家為企業客戶提供安全伺服器的公司聲譽造成毀滅性打擊。來自殭屍網路(一個全球機器網路)的協調行動,旨在使網站或伺服器癱瘓,被稱為分散式拒絕服務 (DDoS) 攻擊。這種攻擊可以用來勒索線上公司(如賭場)的錢財,阻止客戶訪問它們,消滅安全公司或其他敵人,以及攻擊民用和政府網際網路基礎設施:這是一個從工具到武器的轉變,垃圾郵件僅僅成為進一步發展的平臺。
Mydoom 蠕蟲病毒的程式碼中嵌入了一條令人心酸的訊息:“(s y n c—1 . * * o * 0 1 ; a n d y * I ‘m j u s t d o i n g m y k * * * * o b, n o t h * p e r s o n a l * * * * * } r r y) B G @”,通常被音譯為“(sync-1.01; andy; I’m just doing my job, nothing personal, sorry)”。Mydoom 的作者或多位作者從未被抓獲;“job”和“Andy”仍然是謎團,只有一小群合作者、競爭對手、敵人和朋友知道。這段從一個人到另一個人的私人訊息嵌入在程式碼中,在殭屍網路的規模背景下,創造了一種令人眼花繚亂的視差感——一個使垃圾郵件生產規模真正達到地球大小的系統。所有那些位於家庭、企業、宿舍和網咖的個人桌上型電腦和筆記型電腦都可以被視為單一資源,一個連續景觀的一部分,以及一個巨大的、尚未開發的備用系統週期、頻寬和敏感資訊的寶庫。一旦您擁有許多受感染計算機的分散式能力,這些計算機又自主地感染其他計算機,新的專案和可能性就會出現。殭屍網路成為一個平臺,垃圾郵件只是在該平臺上執行的“程式”之一,與密碼破解(破解密碼和加密)、點選欺詐(自動“點選”廣告以增加廣告託管商的收入)、各種身份盜竊和 DDoS 攻擊——以及潛在的更多內容並存。這是一個新的運營規模的開始。
市場
作為一名見習殭屍網路主人的一生:您編寫的蠕蟲病毒,或者更有可能是從更熟練的程式設計師那裡購買或盜取的蠕蟲病毒,已經成功了,並且在幾天內穩步擴散。您現在擁有成千上萬臺受損計算機,這些計算機在您的名義控制之下。它們的數量每天都在變化:也許新的感染潮增加了幾千臺,或者釋出了一個補丁,修復了您一直在利用的安全漏洞(但您受感染機器的使用者中只有幾百人知道安裝它,因此您不會損失那麼多殭屍程式)。人們去度假,將他們的電腦關閉一兩週;公司升級,舊機器——您的機器——被送到回收箱,被堆放在托盤上並運往阿克拉或圭嶼。其他蠕蟲病毒編寫者和殭屍網路主人編寫了旨在接管機器並清除已存在的感染(如您的感染)的程式。日復一日,世界各地受感染機器的使用者在夜晚、週末和午休時間的週期中開啟或關閉它們。殭屍程式群體的數量在不斷變化且不可靠,您面臨著如何利用您積累的所有這些分散式計算能力的非常現實的問題。您擁有安全分析師所說的“受害者雲”,您可以利用它來賺錢生成垃圾郵件以及其他工作。您如何控制它?
在最抽象的層面上,您的方法是這樣的:您使用古老但可靠的線上即時訊息傳遞協議,即古老的 IRC。IRC 在自動化互動方面有著悠久的歷史,早在更復雜的技術出現之前,聊天機器人就一直在響應命令和中繼訊息。您的所有受感染計算機都訂閱您的 IRC 頻道,該頻道被稱為命令與控制 (C&C) 頻道,您可以輕鬆地向它們的群體傳送指令,例如垃圾郵件活動的郵件文字和地址“目標列表”。然而,這種相對簡單的安排會產生另一個問題:現在您的受損機器網路有一個單一的控制點,即該頻道,因此很容易受到攻擊和 seizure,無論是執法部門和“白帽”好人駭客,還是其他殭屍網路主人,他們可以徵用您的頻道並利用它來讓您的機器為他們工作。(其他試圖接管您的網路的殭屍網路主人是您面臨的最大持續性問題。)有一些方法可以使您的 C&C 頻道更安全。也許您設法混淆或加密了一些關鍵流量和程式碼,例如您用於控制殭屍程式的身份驗證密碼。這個技巧暫時可以阻止其他殭屍網路主人。下一個關鍵問題:您打算如何賺錢?
與垃圾郵件本身的發展一樣,這一切都與利用新的功能有關:您現在就在這些計算機上,並且控制著它們。首先,您進行窺探,在受損計算機中搜索使用者名稱、密碼、電子郵件聯絡人、財務資訊、秘密——並且您監控它們的網路流量以獲取類似有用的材料,例如與關鍵詞“paypal”和“paypal.com”相關的任何內容,這些內容可能附帶密碼。(當安全公司 Finjan 查獲一臺用於儲存殭屍網路資料的伺服器時,他們發現了來自美國、歐盟、印度、加拿大和土耳其受損機器的 1.4 千兆位元組的材料,其中包括醫療保健提供商的患者資料以及通常大量的商業資料庫和電子郵件日誌。您自己有可能將其中許多資源貨幣化,但這通常也很耗時,並且如果沒有適當的技能,可能會很危險——而且從銀行賬戶和信用卡中安全地取錢與簡單地獲取信用卡號和賬戶登入資訊是非常不同的事情。
相反,您將您的資料帶入圍繞線上犯罪形成的蓬勃發展的地下經濟。您加入了另一個 IRC 頻道:螢幕上顯示著姓名或“暱稱”,他們正在用拼寫錯誤的全部小寫字母進行交易,這種字母是市場的行話。“i need 1 mastercard i give 1 linux hacked root”彈出;“i have verified paypal accounts with good balance . . . and i can cashout paypals.” 值得信賴的使用者,他們已經向頻道管理員證明了他們的可靠性,他們的暱稱末尾有一個 +v 符號,因此您知道您可以與他們做生意——他們不是小偷,“rippers”——至少在他們自己人之間不是。(“report ripperz to @s -Trade OPEN rippers are not alowed [sic] here . . . if u find one show the log.”)此時您可以通過幾種不同的方式賺錢。您可以將您從您控制的受感染計算機中盜取的資料出售給“兌現者”,即知道如何將財務驗證資訊轉化為金錢的人。您的兌現者本身可能需要與“確認者”合作,確認者可以使用被盜賬戶冒充匯款人。(因為兌現者通常需要特定於國家和性別——如果一個帶有斯拉夫口音的男聲線上,銀行不會清理德克薩斯州一個女性名字的賬戶——例如,“fml CA US UK cashout”兌現者已經發展出一種奇怪的經濟。)您也可以嘗試與兌現者達成協議,以保留更多的利潤。
您可以將您的整個殭屍網路出售以獲得較小但快速的利潤:目前的行情是每臺受損計算機 4 美分到 1 角錢之間。他們向您支付總額,您將殭屍程式的 C&C 頻道的密碼和其他資訊傳送給他們——垃圾郵件工廠的鑰匙。您還可以出租殭屍網路的時間和容量,用於其可以提供的所有服務:託管破解軟體供下載,託管用於網路釣魚資訊的虛假網站(人們可以在電子郵件的誘導下輸入他們的密碼,誤以為它屬於 Facebook 或他們的銀行),發起 DDoS 攻擊,以及執行垃圾郵件活動。該頻道也是為您的個人垃圾郵件專案做好準備的好地方,其中包含電子郵件帳戶資料庫,包括“有針對性”的集合——例如,那些擁有銀行賬戶且更可能落入銀行資訊網路釣魚騙局的專業人士——可供購買和交易。您可以獲得網路區塊(網際網路地址範圍)列表,這些列表明顯脆弱或受到嚴密監控,或屬於您可能想要利用或避免的某些組織。最後,您可以物物交換所有這些東西,將任何一種換成另一種:用您機器上的時間換取地址列表,用一些信用卡資料換取您網路中更多的數千臺機器。在一次成功的垃圾郵件活動之後,其中混合了為客戶提供的藥品資訊,以每百萬封郵件的價格支付併發送到廉價、劣質的地址列表——以及為您的個人利潤提供的網路釣魚資訊,傳送到更精確、有針對性的列表——您可以回到市場,出售更多的資料,並用更多的錢從其他人那裡購買工作和資料。
市場是跨國跳躍的——儘管它看起來很像您作為全球罪犯的工作生活中的大部分內容,就像您螢幕上的一個視窗,裡面有文字。人們利用原始的文字/背景顏色選擇,使他們的報價在綠色文字在棕色背景上或白色文字在電藍色背景上的視覺叫喊戰中脫穎而出。正在使用各種拼寫錯誤的語言。在一個普通的下午,一個暱稱“TOrPedO`”的人試圖招攬生意:“CA (DOB + mmn + SIN + ATM PIN + Paypal with email access + Drivers License) = 12 $—AU (DOB + mmn + Paypal with email access + Drivers License + Medicare card number + ATM PIN) = 10 $—Also EU fulls selected countries could be spammed on Request. . . . SELLING cvv2s Available for Sale: Cvv2’s US bundle of 20 for 60$—EU countries bundle of 20 for 75$ ... SELLING MAIL LISTS 1Available for Sale: US, UK, CA, AU, European: IT, ES, GR, FR, GY. Bundle of 5mb = 40$—PM me now.” “PM”是“私信”:走出公共空間,完成交易。
如果 TOrPedO` 在這個場景中是您,您可以“按需”移動垃圾郵件,您有按國家/地區定位的地址列表出售給其他垃圾郵件傳送者,您擁有所有身份盜竊基礎知識,每個 12 美元,以及成捆的 CVV2——當卡不在現場時用於確認信用卡交易的三位數卡驗證值——定價要移動。您積累的一些資料需要轉化為金錢,而暱稱 PhuckedUp 的人正在尋找客戶:“Legit PinCashier, Looking for Supliers, i cashout FCU, CU, Small Banks, with limit of 3k ! msg me only serious supliers !”—FCU 和 CU 是“信用合作社”,即規模較小的銀行業務。您在這個行業有很多競爭對手。zgfrik 釋出:“selling abbey [Abbey banking] account with 23k on it,price 1000$—msg me if interested.” 與任何地方的市場一樣,信任是一個問題,警告滿天飛:“BOSNIAN RIPPERS Ognjen Miric AND Ervin Residbegovic—BOTH LIVES IN Bosnia And Herzegowina! Sarajevo! ZIP: 71000 DONT BUY FROM ANYONE FROM BOSNIA // Sara- jevo! YOU WILL LOSE YOUR MONEY 110%!”
您釋出您的通知:“=(REAL BANK LOGINS SPAM SUPPLYS)=(SELL BANK LOGINS\PRICE DEPENDS ON BALANCE 10% FROM IT)=(BIG BASE!)=(ADD ME>”,後跟聊天名稱和電子郵件地址。稍後,當您在這個世界中遇到其他人時,您將轉向秘密的受密碼保護的頻道,在那裡會發生更嚴肅的行動。您已加入 21 世紀的垃圾郵件經濟。
正如對專門從事惡意軟體、垃圾郵件和信用卡盜竊交易的俄羅斯論壇的分析所記錄的那樣,這不是一份糟糕的營生。代表客戶傳送一百萬封垃圾郵件的成本相當於一百美元——當然,還有批次折扣。一百萬個地址 120 美元,如果您希望按國家/地區排序,則價格更高。拒絕服務攻擊一小時 15 美元;持續時間更長的攻擊價格更高,這需要更多的狡猾才能戰勝目標在發現後可能採取的阻止策略。考慮到目標在攻擊期間癱瘓的代價有多大,這是一種透過敲詐勒索賺錢的好方法。您可以出售一種名為“Pinch”的惡意軟體程式,該程式可以從滲透的計算機中搜索銀行資料和密碼,您還可以出售您獲得的原始資料——每兆位元組 10 美元,供其他人仔細篩選以尋找有利可圖的資訊,併為實際提取資金而付出額外的努力。(企業之間的交易是透過 Yandex 和 WebMoney 等服務完成的,這些服務類似於 PayPal,但在俄羅斯和東歐具有更大的市場滲透率。)如果您以每張 10.66 美元的價格購買一百張“良好”的信用卡號(已驗證,帶有 CVV 和所有 ID 資訊,具有高消費限額),其中可能有一半實際上可以用來購買商品並運往俄羅斯進行轉售或倒賣,然後在您觸發其反欺詐檢測系統之前,每張卡仍然可以產生數百美元的價值,利潤為 13,000 美元。一點也不差。
更划算的是預付款欺詐資訊——前面描述的“奈及利亞垃圾郵件”——傳送 20 萬條資訊的成本為 20 美元(它們更貴,因為它們必須在傳送時更有針對性,並且在寫作上更量身定製,以近期新聞和一些看似合理的細節為主題),回覆率為 2% 或 3%,平均每個受害者的收益為 1,922.99 美元。即使垃圾郵件傳送者沒有釣到真正的大魚,他們最終也可以期望獲得約 20 萬美元的利潤,儘管這需要更多的工作。小偷之間可能沒有榮譽,但有良好的客戶服務。這種經濟相互依存的部分包括商定的產品測試系統(殭屍網路的一部分,用於確認可用頻寬,一批信用卡中的幾張,以確保它們是真實的並檢查餘額)、退款保證、設計精美的介面、合作伙伴計劃,以及迷人的香檳免費贈送,以共同完成交易。正如霍爾特所說,從短期來看,租用殭屍網路而不是自己構建一個殭屍網路是有意義的——您可以傳送垃圾郵件並以稍微更高的利潤率進行攻擊,而無需維護。但是,如果您是一位真正有天賦和遠見的程式設計師呢?如果您想構建一個更好的殭屍網路呢?