垃圾郵件:網際網路的陰影歷史 [節選,第二部分]

軟體過濾器迫使垃圾郵件傳送者變得狡猾。在本節新內容中瞭解如何使用偉大的文學作品來繞過最優秀的軟體工程師設計的複雜過濾方案

過濾的出現迫使垃圾郵件傳送者改變策略。早年垃圾郵件的投機分子退出了舞臺,迎來了老練的罪犯,他們開始欺騙過濾器。遊戲規則已經改變。正如芬恩·布倫頓在他精彩的垃圾郵件歷史著作中所述,這裡摘錄的第二天內容:“他們[資訊]不再是商品或網站的推銷,而是可以用於網路釣魚、身份盜竊、信用卡詐騙,以及用病毒、蠕蟲、廣告軟體和其他形式的危險和不正當的惡意軟體感染接收者的計算機。一條成功的垃圾郵件資訊可以淨賺數千美元,而不是 5 美元或 10 美元,再加上垃圾郵件傳送者可能透過將他們的優質地址賣給其他垃圾郵件傳送者所賺取的收入。” 布倫頓透過詳細描述極具創造性的文學垃圾郵件——劫持博爾赫斯或柯南·道爾的整篇文字來巧妙地繞過垃圾郵件過濾演算法——來說明這種轉變的獨創性。

文學垃圾郵件僅僅是個開始,隨後出現了垃圾部落格、內容農場等等。進入垃圾郵件地下世界的第二天。目錄會引導您瀏覽本章——如果您錯過了,請返回閱讀第一部分,這本引人入勝的書籍節選。

目錄


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事能夠擁有未來。


 

轉載自垃圾郵件:網際網路的陰影歷史作者:芬恩·布倫頓。版權所有 © 2013,麻省理工學院。經出版商 MIT Press 許可使用。

投毒:垃圾郵件的改造

發明文學垃圾郵件

車間裡的機器轟鳴得如此狂野,以至於我經常在轟鳴聲中忘記了我的存在;我迷失在可怕的喧囂中,我的自我消失了,我成了一臺機器。我工作,工作,不停地工作;我一直忙碌,忙碌,忙碌。為了什麼?為了誰?我不知道,我不問!機器怎麼會思考呢?


— 莫里斯·羅森菲爾德,《在血汗工廠》(貧民窟之歌,譯者:利奧·維納,諾伯特·維納的父親)

即使在過濾器安裝時,第一批訊息也開始像涓涓細流般湧入,就像這條訊息一樣:“最後看了一眼鏡子裡的幻影,然而,就在前一年,那裡還站著一朵瓷玫瑰,去買一盒檳榔,最親愛的,那些大型食肉恐龍會遇到它,這會很方便嗎?現在感覺好點了嗎?” 或者像這樣:“玫瑰色的精靈先生.小木屋,治癒者部分.扇形媒體萬歲.笑話,小麥滑雪者.給予猛撞沐浴.除草女主角拳擊手。” 成百上千條訊息,有時帶有連結,大多數時候沒有。就好像一臺巨大的達達機器,Tzara-Bot 9000,剛剛上線。這就是文學垃圾郵件,經過統計重新組裝的剪下文學文字,旨在利用貝葉斯過濾器的設計和部署中的缺陷。

貝葉斯過濾器從三個方面摧毀了電子郵件垃圾郵件作為一種信譽良好的商業模式,而每個方面都成為垃圾郵件轉型的跳板。過濾扼殺了傳統的垃圾郵件語言,即體面的推銷型別,其文字結構繼承自幾代戴爾·卡耐基書籍、直郵信件、電話推銷和嘉年華叫賣者(“今天有數億人在網上衝浪。網際網路在世界各地絕對是爆炸式增長。問問自己:‘我將從中獲利嗎?’ 給我一個機會與您分享這個令人興奮的商機。”)。這種材料成為一種負擔;它的元素太容易被過濾器執行的單詞統計分析捕獲。其次,過濾使透過銷售賺錢變得更加困難——如果只有極少一部分郵件能夠成功傳送出去,您需要從成功的郵件中獲得更高的回報,而不僅僅是從一瓶普通藥品中獲得微薄的利潤,才能使垃圾郵件成為可行的業務。最後,過濾大大提高了垃圾郵件的失敗率。如果過濾器捕獲了  大部分  郵件,您需要傳送更多郵件,並在其構造中更具創造性,才能將那微小的百分比或百分比的一部分轉化為業務。人們認為,訊息傳送能力是一個可靠的限制,是垃圾郵件操作的固定上限:在“垃圾郵件計劃常見問題解答”中,保羅·格雷厄姆 [一位過濾專家] 回答了“如果過濾器捕獲了大部分垃圾郵件,垃圾郵件傳送者難道不會發送更多垃圾郵件來彌補嗎?”這個問題,答案是“垃圾郵件傳送者已經在滿負荷運轉了。” 這三個發展相互促進。如果過濾器攻擊語言的規律性,注意到在垃圾郵件訊息中高機率出現的單詞的存在,您就必須在您編寫的垃圾郵件訊息中更具創造性,在每次嘗試中投入比以前更多的精力。您從增加的努力中獲得的回報將非常少,因為只有更少的訊息能夠成功傳送出去,而且您必須將更多利潤投入到您的基礎設施中,因為您需要大幅增加您可以傳送的垃圾郵件數量。

它們還包含垃圾郵件轉變為一種新的、不同的行業的三個要點,而文學垃圾郵件是其先兆。所有三個轉型要點都取決於格雷厄姆思想的成功:新法律的實施與過濾相結合,消除了單純逐利的投機分子,並將業務留給了罪犯。過濾器使傳統的銷售語言和法律免責宣告成為負擔,這意味著那些願意完全欺騙的人可以轉向完全不同的訊息型別,以繞過過濾器並使使用者採取行動。因此,來自半生不熟的朋友(或友好的陌生人)的推薦連結,突發新聞的公告,以及最非凡的,文學垃圾郵件的碎片化文字實驗。如果過濾使每條訊息賺錢變得更加困難,垃圾郵件訊息可能會變得更有利可圖:它們不再是商品或網站的推銷,而是可以用於網路釣魚、身份盜竊、信用卡詐騙,以及用病毒、蠕蟲、廣告軟體和其他形式的危險和不正當的惡意軟體感染接收者的計算機。一條成功的垃圾郵件訊息可以淨賺數千美元,而不是 5 美元或 10 美元,再加上垃圾郵件傳送者可能透過將他們的優質地址賣給其他垃圾郵件傳送者所賺取的收入。最後,如果新過濾器意味著訊息失敗的頻率更高,垃圾郵件傳送者可以開發出全新的垃圾郵件傳送方法,這些方法成本更低,並且使他們能夠傳送更多、更多垃圾郵件——例如殭屍網路,我們稍後會討論。

在垃圾郵件變得更加犯罪化、實驗性和大規模自動化的情況下,文學垃圾郵件提供了一個引人注目的例子,說明了向一種新的計算創新型垃圾郵件生產方式的轉變。在某個地方,一個裝滿文字檔案和郵件列表的演算法機器人做出了一個喬伊斯式的姿態,宣告了垃圾郵件的現代主義。

為了解釋文學垃圾郵件,回顧一下誤報的問題:合法的訊息被錯誤地歸類為垃圾郵件。您不能使過濾器過於嚴格。您需要給它一些統計上的餘地,因為錯過一條合法訊息的代價可能遠遠超過識別和丟棄一條透過過濾器的垃圾郵件訊息平均花費的 4.4 秒。過濾器的成功或失敗取決於其誤報率;丟失一條重要訊息可能就太多了,格雷厄姆認為,貝葉斯過濾器在其首次出現時沒有普及的原因是帕特爾和林的 1.16% 這樣的誤報率,而不是他的 0.03%。他的論點中隱含著其他人可以複製或至少接近他的百分比的承諾。如果一個人非常勤奮,尤其是在過濾器生命週期的早期  檢查  標記為垃圾郵件  資料夾  以糾正錯誤分類,那麼這個人確實可以重現格雷厄姆近乎完美的誤報率。接收大量具有特定詞彙的電子郵件,一個顯著的詞彙特徵,作為“負面”的合法的非垃圾郵件詞彙,也很有幫助。這些在格雷厄姆身上都是真實的。構建這個過濾器是他的一項嚴肅專案,為此他願意閱讀  大量垃圾郵件訊息,做  相當多  的  程式設計,併成為一名公開的倡導者;因此,他的個人過濾器將得到非常仔細的維護。格雷厄姆在他的初始過濾器上有一個獨特的語料庫可以使用:他的個人訊息,其中包含程式設計師和專業風險投資家特有的所有詞彙——“Lisp [程式語言] ... 實際上是一種向我傳送電子郵件的密碼,”他在最初的“垃圾郵件計劃”檔案中寫道。他的合法詞彙陣列,與標記  垃圾郵件  的單詞(例如“夫人”、“保證”和“共和國”)位於軸的另一側,包括“perl [另一種程式語言]”、“指令碼”、“morris”、“quite”和“continuation”等詞。

然而,其他個人使用者可能具有稍微更高的誤報率,因為他們具有與垃圾郵件詞彙重疊程度高於格雷厄姆的詞彙特徵,或者因為他們的詞彙與屬於

組織或機構的單個更大過濾器背後的其他人的詞彙聚合在一起,或者僅僅因為他們在分類時比較懶惰,或者沒有意識到他們可以對垃圾郵件進行分類而不是刪除它。(對於部落格評論垃圾郵件訊息來說,詞彙特徵問題甚至更糟——那種帶有連結以提高谷歌搜尋排名或帶來一些客戶的訊息——因為垃圾郵件傳送者或他們的自動化程式可以複製和剪下帖子本身中的單詞用於垃圾郵件按摩,使評估變得更加棘手。)因此,使用者並非完美,過濾器可能實施和維護不善,因此必須對邊界訊息稍微寬容一些。在這種不精確性中,電子郵件垃圾郵件的雙管齊下策略成形

1. 理論上,您可以透過在訊息中包含大量中性或可接受的單詞以及更垃圾郵件的語言來影響過濾器,從而將訊息的機率邊緣化為合法性。無連結的胡言亂語訊息是這個想法的測試探針,以無數種變體傳送出去,以檢視哪些被退回,哪些被透過:“我雖然 / 實際上狼吞虎嚥地吃著食物,但始終是戰爭的號角!這種寂靜像蛇毒一樣射向它,/ 我會笑的。”

2. 在  垃圾郵件  訊息  透過之後,接收者  面臨著  一個  困境。如果接收者刪除訊息,而不是將其標記為垃圾郵件,過濾器會將其讀取為合法,並且類似的郵件將在未來透過。如果他或她將其標記為垃圾郵件,過濾器,始終在學習,會將更多的彈珠新增到由重要單詞表示的機率袋中,稍微重新權衡諸如“寂靜”、“小麥”、“笑了”等無辜單詞,使其傾向於垃圾郵件的機率,累積增加誤報的可能性。這些來自博爾赫斯巴別圖書館的廣播實際上是一種劫持單詞的方式。“要麼垃圾郵件繼續傳播,要麼告別‘笑了’。”

但是為什麼要使用文學作品呢?早期的訊息表明,沿著這些路線的第一次實驗是用從詞典中隨機抽取的單詞構建的。這種方法效果不佳,因為我們實際上很少使用大多數單詞。英語中最常用的單詞“the”出現的頻率是第二常用的單詞的兩倍,是第三常用的單詞的三倍,依此類推,大部分語言都落在曲線的末端。32  從過濾器的角度來看,所有那些更遠處的語言曲線上的單詞——“abjure”、“chimera”、“folly”——就像第一次日落後的彈珠袋,裡面有一顆黑彈珠和一顆白彈珠;在沒有先前的證據的情況下,這些未使用的單詞的機率是五五開,沒有任何區別,而一個“sexy”仍然會將訊息標記為垃圾郵件。垃圾郵件傳送者需要的是自然語言,活生生的,並且在使用中處於曲線的前端。

公共領域的大部分文學作品都可以線上以純文字檔案的形式獲得,這是程式設計師最方便的格式:成千上萬的書籍、故事和詩歌。這些可以透過演算法輸入到程式的胃口中,切碎並重新組裝,然後傾倒到垃圾郵件訊息中,以將指標稍微撥到負數,非垃圾郵件類別。因此,許多文學垃圾郵件訊息的節奏都非常怪異,斷斷續續,在迷幻狀態中閃現一絲清醒,就像隨意拼接在一起的不同膠片條。它們的來源包括所有規範文字和公共領域作品,這些作品可在古騰堡計劃等網站上獲得,以及更深奧的材料。許多科幻小說作者在駭客中很受歡迎,駭客有時會給予他們掃描書籍的光學字元識別軟體,將印刷文字轉換為可以線上傳播的文字檔案的可疑榮譽。尼爾·斯蒂芬森的加密驚悚小說Cryptonomicon就是其中一本書,可以透過多種來源獲得全文檔案,並且多年來以垃圾郵件訊息中大量摘錄的形式間歇性地出現。“這是一種奇特的文學不朽,”斯蒂芬森觀察到。“電子郵件訊息被儲存下來,隨意但有可能永遠儲存下來,因此理論上未來的某個人可以透過收集所有這些垃圾郵件訊息並將它們拼接在一起,來重建這部小說。另一方面,電子郵件過濾器會從錯誤中學習。當Cryptonomicon垃圾郵件被髮送出去時,它一定在世界的垃圾郵件過濾系統中產生了免疫反應,使其免受我的文學風格的影響。因此,這實際上可能導致我的作品從網際網路上消失。”

文學垃圾郵件的深刻怪異之處最好透過分解它的一部分來解釋,解剖這些機械化語言的花朵之一。本節開頭隨機從我的垃圾郵件收集地址中提取的樣本是兩個句子和四十五個單詞,由不少於四個插入的來源組裝而成:“最後看了一眼鏡子裡的幻影,然而,就在前一年,那裡還站著一朵瓷玫瑰,去買一盒檳榔,最親愛的,那些大型食肉恐龍會遇到它,這會很方便嗎?現在感覺好點了嗎?” “最後看了一眼鏡子裡的幻影”來自阿伯丁幻想作家喬治·麥克唐納的童話故事《影子》。“然而,就在前一年,”和“那些大型食肉恐龍會遇到”來自阿瑟·柯南·道爾的冒險小說《失落的世界》的第 15 章和第 11 章。“那裡還站著一朵瓷玫瑰,去買一盒檳榔,最親愛的”來自東方學家昌西·斯塔克韋瑟的《馬來文學》中翻譯的《比達薩里史詩》第四首歌曲。而“這會很方便嗎?現在感覺好點了嗎?”來自辛克萊·劉易斯的《大街》第 20 章。這些片段中的每一個都以不同的方式被微妙地扭曲——標點符號被刪除,字母的大小寫被改變——但其他方面保持未編輯狀態。這是來自自動化先鋒派的完全無私的派遣,垃圾郵件傳送者和他們的接收者主要意外地構建了它。“先生們,我開始學習了,”正如卡夫卡在《致學院的報告》中所說的猿人所說,另一位笨拙的說話者學習語言作為逃脫的手段:“哦,是的,當一個人必須學習時,他就會學習;如果一個人想要出路,他就會學習;一個人會無情地學習。”

除了偶爾有趣地類似於特薩拉或巴勒斯的隨機模仿作品(帶有路易斯·祖科夫斯基的引語詩或伯恩·波特的“發現”,這些“發現”是從 NASA 火箭文件中組裝而成的)之外,文學垃圾郵件顯然對人類讀者不起作用。如果有什麼不同的話,它支離破碎的線條和短語沙拉是一個跡象,表明有些事情可疑地錯誤,應該丟棄該訊息。與網頁的雙面、機器人可讀的文字一樣,這些文字告訴搜尋引擎蜘蛛一件事,而告訴人類訪問者另一件事,文學垃圾郵件被不同的參與者以不同的方式閱讀:人類,使用他們的語言,過濾器,使用他們的機率,就像我們欣賞其顏色和香味的花朵一樣,以及蜜蜂定位的斑點紫外線目標。文學垃圾郵件觸及了垃圾郵件奇怪專業知識的核心。它在我們的單詞體驗點上傳遞其單詞,格賴斯式的含義是,所說的事情在某種程度上與所說的其他事情或手頭的情況相關聯,粗暴地與數字文字的可供性相交。就像圖靈測試的負面版本一樣,您認為您將透過電傳打字機與某人聊天(正如圖靈建議的那樣,“請 X 告訴我他或她的頭髮的長度?”),但最終卻得到了成排的真空管,或者更確切地說,是一個 Java 程式,其中儲存了大部分英語文學作品:“當一些成員魯昂,對開本 1667.盎格魯諾曼古物 p. 完成他對國王的演講。” 我們尋找意義,尋找模式和意義,無論是在庫列紹夫效應中——蒙太奇的本質,同一段膠片根據其插入的內容被賦予不同的含義——還是預言訊號的力量,例如一副塔羅牌,其豐富的象徵意義充滿了我們可以與我們自己當前關注的事情、恐懼、記憶和慾望聯絡起來的鉤子。如果訊息中存在垃圾郵件核心——可識別的推銷、連結或誘餌——我們可能會挑出最突出的部分(也許點選這個會解釋這個奇怪的訊息!),垃圾郵件仍然會完成它的工作。

讓我們簡要地回到圖靈,並在我們離開文學垃圾郵件和機器人可讀/可寫文字的世界之前,介紹一下引人入勝的模仿遊戲。一種可量化的、機器介導的方法來描述人類情感的質量的想法在犯罪學、心理學、人工智慧和計算機科學等多個領域的文獻中反覆出現。它的應用通常  提供  對  不同  人類狀態的確定標準的  洞察力——例如,肯·奧爾德在關於測謊儀的精彩著作中描述的那樣,或者在對“水果機”的仍然研究不足的歷史中,這是一種(據稱)測量瞳孔、脈搏和其他對色情影像的反應的裝置,在 1950 年代開發和部署,目的是識別加拿大軍隊和加拿大皇家騎警隊(RCMP)中的同性戀者,以便將他們從軍隊中清除。(它就像銀翼殺手中捕獲複製人的沃伊特-坎普夫機器的性規範噩夢版本。) 在這種對人類標準的研究中,最著名的陳述——當然也是產生最多後續文獻的陳述——是所謂的圖靈測試。圖靈 1950 年的思維實驗的目標(值得重複,因為它在今天被廣泛誤解)是“用另一個問題來取代[‘機器能思考嗎?’這個問題],這個問題與之密切相關,並且用相對明確的詞語表達。” 圖靈認為機器是否“思考”的問題“太沒有意義,不值得討論”,並且非常出色地將問題轉向了是否思考——或者更確切地說,我們如何才能確信其他人會思考。這個專案以客廳遊戲的形式出現:A 和 B,一男一女,透過某種中介(如信使或電傳打字機)與“審問者”C 通訊。C 只知道他們是“X”和“Y”;在與他們通訊後,C 將對哪個是男性,哪個是女性做出判決。A 的任務是說服 C 相信他,A 是女性,而 B 是男性;B 的任務相同。 “我們現在問這個問題,”圖靈繼續說道,“‘當機器在這個遊戲中扮演 A 的角色時會發生什麼?’ 當遊戲像這樣進行時,審問者會像在男人和女人之間進行遊戲時一樣經常做出錯誤的決定嗎? 這些問題取代了我們最初的問題‘機器能思考嗎?’”

文學垃圾郵件非常出色地產生了一種模仿遊戲的戲仿,其中一組演算法不斷試圖說服另一組演算法他們具有可接受的突出程度——對人類具有興趣和價值。正如查爾斯·斯特羅斯所說,“我們有一個派別試圖編寫可以生成可以透過圖靈測試的訊息的軟體,而另一個派別試圖編寫可以管理臨時圖靈測試的軟體。” 換句話說,我們所看到的是演算法編寫者為演算法閱讀器生成文字以進行解析和阻止的產物,最終產品提供了一種引人入勝的支離破碎且非有機的語篇,甚至遠遠落後於先鋒運動(如烏利波,“潛在文學工作室”)的組合文學。垃圾郵件的特殊經濟學獎勵的是數量而不是訊息質量,偉大的技術創新在於生產方面,構建具有紅杉般浪費的系統,紅杉在其一生中可能會產生十億顆種子,其中一顆種子可能會長成一棵成熟的樹。除非必須如此,否則訊息不會從其下限得到改進,因此從人類的角度來看,結果不會變得“更好”——也就是說,更具說服力或更像人類——只是更奇怪。

超現實主義自動寫作有其特殊的聯想節奏,而巴勒斯的剪下取決於其作者偏愛的刺耳並置的味道(來自生活雜誌的一篇文章,《荒原》中的一個序列,巴勒斯的“例行程式”之一,其中來自金星的狒狒殺死了艾森豪威爾)。文學垃圾郵件文字,以及早期的評論垃圾郵件和下一節中描述的奇怪的垃圾部落格,是一種完全不同的意圖的表達,沒有人類作家產生的內涵結構。機率操縱的搜尋引擎返回的結果,或被投毒的貝葉斯噴射出的機器人生成的垃圾郵件,或糟糕的選擇過濾演算法給出的連結混亂,其作用方式與任何蒙太奇都不同。它們更類似於在電視上翻閱頻道,空間之間存在非常清晰的語義轉換——從詩歌到色情,從維基到封閉的公司頁面,從信譽良好的網站到矛式網路釣魚模型。(如果它有文化上的平行,除了

約翰·凱奇的《想象的風景第四號》——其中兩位音樂家根據預先建立的分數操縱收音機的頻率、振幅和音色,而無法控制正在廣播的內容——那將是斯坦利·庫布里克對未來投機性的藝術形式,他將其描述為“模式抽搐”:不同環境之間突然、劇烈、震動的過渡。)41  考慮一下來自“AKfour seven”的訊息,他透過位於賓夕法尼亞州斯克蘭頓的 ISP 上託管的巴西域名寫作


今天,我謙卑地站在這裡,面對[url=http://www.bawwgt.com] dofus kamas[/url]之前的任務,感謝您給予的信任,銘記我們的[url=http://www.bawwgt.com]廉價 dofus kamas[/url]所承受的犧牲。我感謝[url=http://www.bawwgt.com]dofus 力量升級[/url]總統為[url=http://www.bawwgt.com]購買 dofus kamas[/url]的服務,以及他在整個過渡過程中表現出的慷慨和合作。

這是奧巴馬總統的就職演說,與一個網站的連結穿插在一起,該網站的業務是銷售法國線上角色扮演遊戲 Dofus 的貨幣(“Kamas”)和其他必需品,該遊戲以各種樹人、弓箭手和賭博貓為特色——以及一個龐大的灰色市場,用於銷售真錢的遊戲內貨幣。這不僅僅是將最小的與最大的拼接在一起,將主要的與次要的拼接在一起,將現在的與過去的拼接在一起。這是在純粹任意效用的條件下使用書面文字。作為數字化、可搜尋、可複製貼上的文字,它都是一個連續的物質——幾乎令人震驚地無時間性,最好比作不是圖書館或對話,而是哈里森·懷特用來描述社會結構的“聚合物粘液”,充滿了複雜的條紋,可以根據需要從中擠出許多不同的形狀。

最後,關於“無時間性”的想法,結束關於文學垃圾郵件的這一部分。最近,人們從數字美學和音樂的角度討論了無時間性媒體的概念。媒體的數字化將它們移入一種持續使用的當下,就像所有錄製的音樂現在都可以佔據一個單一的、洗牌的內在狀態,來自截然不同的創作點。1927 年在諾頓酒店用借來的班卓琴錄製的遠古老式音樂家 Dock Boggs 的 mp3 無縫過渡到 Oneohtrix Point Never 的合成器層,後者在 2010 年創作的音樂可以冒充 1970 年代乙烯基唱片上的電子宇宙航行。歷史性成為另一種風格元素,就像音色一樣。正如布萊恩·伊諾所說,現在一切都是“當前的”,這使得錄音本身的美學作為一種具有自身內容的風格選擇而突出,因為所有聲音都共存於永久的數字正午。文學垃圾郵件,撇開其最終目的是透過或破壞過濾器以銷售更多色情網站登入名或停產玩具不談,是一種非凡的數字無時間性形式。歷史和神話、詩歌、修剪觀賞花園中菩提樹的說明、宗教註釋和線上稅務指南構成了一種形狀,其中給定的文學垃圾郵件訊息是一個機率引導的表面。“其中引力是時空曲率的結果,時空曲率控制著慣性物體的運動。《南方公園》劇集《連體胎兒女士》和《怪胎與書呆》第一季將躲避球描述為一項潛在的暴力運動。奧古斯特·安海user·布希四世(生於 1964 年 6 月 15 日)是安海user-布希創始人阿道弗斯·布希的曾曾孫,前董事長、總裁兼執行長奧古斯特·布希三世的兒子。其中許多是由颶風或熱帶風暴沿著沿海平原產生的。”

當然,文學垃圾郵件只是眾多新型後過濾器垃圾郵件中的一種。格雷厄姆預測,“未來的垃圾郵件可能看起來像這樣:‘嘿。覺得你應該看看以下內容:http://www.27meg.com/foo.’” 它憑藉中性語言僥倖躲過過濾器,卻因可疑網址被攔截,而且我們確實看到了很多這種情況,以及各種老式垃圾郵件,它們不完美地安裝和訓練有素的過濾器。 (過濾器還造就了垃圾郵件傳送者委婉表達的天賦。近期垃圾郵件中關於男性解剖學承諾的眾多術語中的一小部分,幾乎達到了詩意的暗示:“褲襠裡的引擎”/“鑽孔機”/“‘工作狀態’工具”/“瘋狂穿透者!”/“肉棒冠軍!”/“你的夜間失敗”/“讓你的火山在獅子上爆發”/“你應得的東西”等等)。文學垃圾郵件仍然是非垃圾郵件的意外後果中的意外後果:機械讀者和機械作者在正雄弘定義的恐怖谷內生成文字的迴圈,這仍然是值得關注和特別的事情。《尤利西斯》和電話交換機的偶然相遇,在我們眼中就像猿猴的學究式演講,機器人講述的故事一樣奇怪。

新的受害者

格雷厄姆從未聲稱他或任何其他人可以完美地過濾垃圾郵件,只是過濾器會執行良好,足以使傳送垃圾郵件成為一項無利可圖的業務。各種形式的貝葉斯過濾實際上確實大大減少了垃圾郵件向世界各地收件箱的傳送。 ISP 在個人郵箱和網路其餘部分之間設定了第一層過濾器,到 2006 年底,他們發現垃圾郵件估計佔過濾器遠端所有郵件流量的 85%,這個數字至今保持穩定,上下浮動幾個百分點。大多數人只看到這一總量中極小的一部分。巨大的浪潮不斷衝擊著過濾器,偶爾會有溢位。這正是格雷厄姆概述的計劃。垃圾郵件的回覆率一直很低:垃圾郵件傳送者戴維斯·霍克報告說,在貝葉斯過濾器廣泛使用之前的時期,回覆率達到了可觀的千分之二,而這些過濾器大大減少了傳送量。因此,它在其技術條款上,而且僅在其技術條款上奏效。垃圾郵件的傳播媒介就在於此。技術內嵌和促成的社會選擇成為了失敗點。回顧來看,這些關鍵點有四個:使用者方面兩個,垃圾郵件傳送者方面兩個。

過濾器部署和訓練不均衡
一些 ISP、組織和使用者會做得更好;一些擁有更獨特的詞彙;一些在管理系統訓練方面更加勤奮。對於誤報的成本和可接受的機率,會有不同的估計。許多使用者可能永遠不會意識到在整理收件箱時需要“標記為垃圾郵件”。比率會有所不同,程式會變得過時,並且會出現漏洞,無論多麼小。

“15 個白痴”的問題
在《垃圾郵件計劃》之後的幾個月裡,格雷厄姆考慮了最容易受到垃圾郵件攻擊的人——使垃圾郵件有利可圖的人——與最不可能安裝過濾器或感到使用它們舒適的人重疊的可能性。格雷厄姆認為垃圾郵件從一百萬人中最“愚蠢或最變態的 15 個人”身上賺錢,他繼續說道:“最大的危險是,無論在白痴市場中部署最廣泛的過濾器是什麼,都需要使用者付出太多的努力。 。 。 。[T]15 個白痴可能也是 15 個懶得麻煩的使用者。” 他提出的解決方案(如果可以稱之為解決方案)是“垃圾郵件計劃常見問題解答”中的一個假設:“我懷疑,愚蠢到會回覆垃圾郵件的人通常會透過像 Yahoo Mail 或 Hotmail 這樣的免費服務,或者透過像 AOL 或 Earthlink 這樣的大型提供商獲取電子郵件。一旦訊息傳開,可以過濾掉大多數垃圾郵件,他們將被迫提供有效的過濾器。”

垃圾郵件生產和分發經濟學的變化格雷厄姆斷言,“垃圾郵件傳送者已經在滿負荷運轉。” 事實上,隨著過濾器上線,他們試圖阻止的垃圾郵件的生產正在發生變化。在過濾和法律變更的雙重束縛下,合法垃圾郵件傳送者的終結是垃圾郵件構造向幾乎完全犯罪領域轉變的隆隆聲之一。放棄任何合法性的偽裝釋放了大量的技術獨創性。像殭屍網路這樣的系統的發展,利用外國管轄區的 ISP(在某些情況下完全由歹徒擁有),以及垃圾郵件軟體程式設計的日益複雜,立即提高了垃圾郵件分發的能力,同時降低了運營成本。

垃圾郵件解放為純粹的實驗——以及純粹的欺詐
在改變其商業模式的過程中,垃圾郵件的犯罪化也改變了其工具和文字型檔。它不再需要以看似合法的方式銷售產品的偽裝。諸如網路釣魚和身份盜竊、預付款欺詐以及病毒和惡意軟體分發等策略意味著,隨著分發成本的下降,利潤率被推高,並且垃圾郵件開始在語言上聽起來像許多東西——其中一些是前所未聞的。擺脫了任何型別的束縛,它可以尋找任何能夠繞過過濾器的文字形狀,像細菌消耗和利用外來 DNA 一樣使用莎士比亞,使垃圾郵件變成一種與貝葉斯過濾器旨在阻止的垃圾郵件不同的、更奇怪的野獸。

這些問題是相關的。當格雷厄姆將“15 個白痴”描述為“愚蠢”或“變態”時,他以駭客的傲慢態度寫道,人們會回覆那些似乎需要極大的輕信或對色情有極大愛好的資訊。但是,完全轉向犯罪增加了潛在受害者的數量。許多永遠不會回覆多層次營銷計劃廣告的人會回覆聲稱來自他們的銀行或 PayPal 帳戶的通知。垃圾郵件現在可以更積極地瞄準老年人、困惑的人、使用第二語言上網的人以及一般的新使用者,從而讓本應受到樸素貝葉斯保護的菜鳥受到傷害。你不再需要成為一個白痴才能成為十五個白痴之一,這意味著每個新的受害者可能比舊的受害者更有價值得多。這筆錢反過來又吸引了更多老練和熟練的人才加入垃圾郵件行列,無論是在商業方面還是程式設計方面——能夠構建更復雜的文學垃圾郵件引擎和垃圾郵件分發程式的那種人。格雷厄姆以及在他之前和之後尋找機率過濾器的人,正在構建一個出色的駭客技術,以解決一個複雜且根深蒂固的問題,這個問題在每一步都同時包含技術和社會因素。社會因素響應他們的技術干預而轉變,反過來又改變了技術因素。

這僅僅是對垃圾郵件傳送者製造的大量喋喋不休、粗俗的語言機器(正如卡夫卡的猿猴所說:“模仿這些人太容易了:‘我第一天就會吐口水了’”)的初步介紹。為了衡量和了解它們的人口規模,我們必須轉向旨在影響搜尋引擎的垃圾部落格世界——旨在擊敗完全不同順序的過濾器,即誤導藝術的先鋒。

“情感的新轉折”:垃圾部落格

大眾投票


受驚婦女的尖叫聲、哽咽的啜泣聲、真正具有交流意義的眼淚、短暫的粗魯笑聲。。。嚎叫聲、哽咽聲、再來一次!、召回、沉默的眼淚、威脅、額外嚎叫的召回、讚許的敲擊聲、說出的意見、花圈、原則、信念、道德傾向、癲癇發作、分娩、侮辱、自殺、討論的聲音(為藝術而藝術,形式和思想)等等。


——維利耶·德·利爾-亞當,解釋了他的自動戲劇公眾的某些設定,“榮耀機器”,《殘酷故事集》,1874 年

泰拉的部落格標題為“泰勒·泰勒榮獲 RD 喬納斯 E”,副標題為“九個州監管機構調查拍賣債券,團體稱。泰勒市交通工程部安裝了城市。” 她 2008 年 7 月 16 日釋出的一篇文章,標題為“泰勒州審判法律訴訟律師羅伯特·M。”,開頭寫道


我們的 Web 伺服器找不到您請求的頁面或檔案。本月最佳選擇:_血壓。


返回上一頁的按鈕。天文學家即將發現地球的孿生兄弟。現在估計產品註冊的成本約為百萬。世紀,公眾可能會要求聯邦 _馬薩諸塞州律師協會監督員_ 註冊對臭蟲有效的產品。


我母親住在 _情感 美託洛爾_ 旁邊的住房裡,一年來一直在處理這個問題。

這篇文章又持續了 1300 字,而泰拉僅在 7 月 16 日就釋出了三次。 6 月份,她釋出了 160 篇文章,每天約 5 篇,每篇從數百到數千字不等。這也不是她唯一的部落格;根據她的 Blogger 個人資料,她還有其他 11 個部落格,標題如“S 的第一次嘗試提升了團隊,因為比科”和“只有兩個 USB 富士通始終是三個”。她帖子中怪異的斷斷續續的節奏使得它們難以停止引用。它們的語言沒有口語的傳承,並且缺乏暗示開始和結束的句法邊緣。與文學垃圾郵件訊息一樣,段落到段落之間令人震驚的移動感覺更接近於頻道衝浪有線電視,而不是任何文學媒介:“奧普拉結束了三週的純素飲食。天文學家即將發現地球的孿生兄弟。看到更多的人住在汽車裡。” 然後突然過渡到日記式,帶有“我”句子、觀點和線上思考的節奏性從句:“我不認為這是一個數字遊戲,但我認為無論你最終得到什麼觀點,它都不必是多數人的觀點,理由有分量,而不僅僅是加起來誰同意你的觀點。” 她的帖子中充滿了連結,其中大多數連結到類似的部落格:vollybllgrl 的部落格“昨晚在阿拉巴馬州東北部,一條輸電線擊落了一架黑鷹黑色直升機”,或者 manning6029 在部落格“預設標題”上釋出的帖子,其中包含奇怪的巴拉德式短語“摩洛哥金髮女孩的照片是情感的新轉折”。

當然,泰拉是一個機器人,vollybllgrl、manning6029、“我們民主最茫然的部分”的 Geriut、“三合會女士騎士越野隊有一個凱莉賽季”的 etylycigob 以及無數其他人也是機器人。他們正在製作垃圾部落格,或垃圾郵件部落格——這是搜尋引擎垃圾郵件為響應 Google 的 PageRank 策略及其第三代搜尋引擎模仿者而採取的形式之一。垃圾部落格現在佔所有部落格總數的一半以上。 (相比之下,第二代非部落格垃圾郵件頁面,塞滿了關鍵詞和連結,約佔所有正在索引的網頁總數的 8%。)來自垃圾部落格和 垃圾 ping(垃圾郵件 ping——部落格傳送的連結訊號,像評論一樣顯示在連結的部落格上,理論上可以驅動流量和 PageRank)的資料模式與電子郵件垃圾郵件的模式非常吻合,具有相似的峰值——例如在假期前後——以及神秘的低谷,在此期間,月亮的某些虧缺會導致輸出在幾天或幾周內下降。它們是如何工作的?

隨著 PageRank 系統變得更加廣為人知和理解,谷歌聚集了市場份額,其他搜尋引擎也開始效仿其更精細的排名模型。 (當然,谷歌的排名系統比 PageRank 的基本框架要複雜得多,並且至今仍在引數和複雜性方面不斷增長,但基本輪廓是搜尋引擎垃圾郵件傳送者正在響應的——這足以理解他們的方法。)隨著 PageRank 高的網站轉變為造王者,各種策略應運而生。來自它們的連結可以將頁面移至不同搜尋網站的前十名或前三名,從而提高關注度和收入。“聲譽經濟”的理論概念正在這裡得到充分應用。連結交易開始作為第二代方法,同時請求正面提及和可點選的連結,第三代搜尋放大了這些方法。網站釋出“最佳網路”獎、“百強網站”獎等;獎項包括徽章、小影像和程式碼片段,以複製到獲獎網站——該片段包括指向頒獎網站的連結。人類使用者看到了一個小徽章影像,但搜尋引擎蜘蛛看到了一個出站連結,即認可。普通網路使用者中出現了新的使用習慣和禮儀:部落格文章中的評論包括評論者的網站以及他們的姓名,以積累另一個連結。釋出內容時不包含指向您獲取內容的來源的“via”連結——“via”是額外的出站連結,作為對使用他們的發現的一種感謝——變得越來越粗魯,成為一個粗魯之人的標誌。

這些技術只是觸及了垃圾郵件實踐轉變的表面。 PageRank 試圖透過整合社會關係、社群和人類選擇的表達,一舉解決相關性問題和垃圾郵件問題。從理論上講,社會結構更難用於垃圾郵件目的,但它們在網上的機器人可讀表達方式並非如此。基於第二代的獎勵徽章是眾多策略之一。例如,域名泛洪是建立數十個或數百個網站以重定向到目標網站。連結農場或“互相吹捧協會”應運而生:這些是巨大的連結密集型網站群,每個頁面都連結到許多其他頁面,它們的累積“投票”被出租出去。他們對農場的出站連結收費,就像貧困的貴族收費以將其著名的古老名稱和聲譽與一些不知名的暴發戶成員聯絡起來。在第三代中,垃圾郵件開始轉向建立自己的社交圖譜——產生其自身社會的表象,即使不是現實。

生成不存在的社會現象的表達需要建立比以前的搜尋垃圾郵件專案更多的內容,同時避免某些機器人工作的跡象。人為更改連結圖的舊式嘗試具有簽名模式。一組網站內大量交叉連結的笨重形狀,所有網站只有少數入站連結(因為垃圾郵件頁面是孤獨的),建立了強烈的自我認可的小島,沒有外部參與。對於正確的分析工具來說,這是一種模式,就像虛榮出版商為其新書釋出的報紙廣告一樣明顯,廣告語僅來自朋友和同一情況下的其他作家。搜尋引擎可以透過修改演算法來糾正這些孤島。此外,雖然完整的網頁幾乎可以完全自動生成,但它們仍然需要購買和維護穩定的域名和託管計劃以及服務提供商,這可能會很昂貴。第三代搜尋垃圾郵件需要的是一種非常快速地生成新內容的方法,這些內容在廣泛的不同線上位置(如真正的社群中)中播種了連結。

1999 年,一家名為 Pyra Labs 的公司推出了一項名為 Blogger 的服務。 網路日誌的概念——從最新到最舊的時間順序條目系列——非常直觀且類似日記;Blogger 的概念,以及 Flickr 到 Wikipedia 等眾多相關係統的概念,是為人們提供同樣直觀的方式來發布他們的內容。它是遠端託管的,因此您不必擁有網站域名或支付託管費用;它的許多流程都是自動化的,因此您不必設計它或在幕後進行任何編碼;並且它具有有用且日益複雜的應用程式程式設計介面 (API)。 API 是 Web 服務可以支援來自其他程式的請求集——程式可以用來與服務互動的工具。 API 使自動化釋出過程變得更加容易,並且在像 Blogger 這樣的平臺(該平臺於 2003 年被 Google 收購)上,這種自動化釋出只需很少的精力即可管理大量內容。您可以將帳戶建立過程、設定選擇、出站連結與內容的比率以及釋出頻率委託給程式。這裡缺少的部分是部落格的文字,但文字以 RSS 提要的形式現成可用。

RSS(首字母縮寫詞最初代表 RDF 站點摘要,但已更改為更具解釋性的真正簡單聚合)是一種與部落格開發密切相關的格式;它以易於使用的形式提供站點上的新帖子或其他更改。提要閱讀器可以從啟用 RSS 的站點收集最新條目,材料可以轉發到移動裝置,並且頁面可以顯示來自其他站點的標題或最近的帖子。從垃圾郵件部落格作者的角度來看,此功能就像一個文字水龍頭。塞繆爾·貝克特曾經說過威廉·巴勒斯和布萊恩·吉辛的剪下拼貼技術“那不是寫作,而是管道工程”——這是一個有先見之明的評論,現在我們有一種寫作方式真的像管道工程:鋪設管道、水箱、截止閥,然後開啟水龍頭,離開房間。垃圾部落格生產系統將從其他部落格和新聞來源提取 RSS 提要,根據規則對其進行切碎和重新混合,插入相關連結,並以最少的人工監督,日復一日、日復一日地釋出生成的材料。泰拉已經在編寫本節時釋出了一篇新帖子,標題為“在它成為泰勒市之後”:“一位證人報告說,一位修女在意識到在她前面排隊的人是腎上腺素樂隊的主唱後瘋了。鬼鎮海報讓我失望,格瓦伊斯。有些東西,比如重力,也一定很接近。” 諸如此類,無窮無盡。

並非所有垃圾部落格聽起來都一樣:有些是基於“摘錄”模型構建的,摘錄約 350 個字元的片段,這些片段完全取自其他部落格。這些片段是從在 Google 中投票特別好且關鍵字指標良好的帖子中選擇的。他們的目標是透過情境廣告賺錢,其中頁面瀏覽量和偶爾的點選量是最好的期望。這些會與作者建立寄生關係。網際網路上眾多可互換的產品評論博主之一指出,被垃圾部落格摘錄是您選擇了正確的主題和詞語的標誌,因為垃圾部落格正在抄襲您;如果您想吸引更多垃圾部落格,因為它們透過摘錄為您的網站提供反向連結,“建立帶有熱門關鍵字的帖子,例如 iPhone”。摘錄垃圾部落格的行為很簡單:它們像螞蟻喜歡蜂蜜一樣被正確的語言所吸引。

像泰拉的垃圾部落格那樣基於完整內容模型構建的垃圾部落格玩的是更大、更微妙的遊戲,它們成百上千地交叉連結以扭曲網路的形狀。每個垃圾部落格都分配了一組關鍵字和提要,從中提取相關文字。這就是為什麼泰拉的部落格聽起來像是患有發燒、病態地痴迷於泰勒斯的人的產品。它提取了一組基於“泰勒”作為關鍵字的 RSS 提要和標題,以及其他一些用於變化的關鍵字;因此,一篇又一篇的帖子報道來自一個奇怪的宇宙,在這個宇宙中,幾個名為泰勒的城市和學校、導演泰勒·佩裡、經濟學家泰勒·科恩(他寫部落格)以及提及泰勒斯的帖子和新聞文章都具有同等的重要性。有了經驗,人們就開始看到其中的模式。“大銀幕電影的電視劇集由妮可·阿里·帕克、凡妮莎·威廉姆斯和瑪琳達·威廉姆斯主演”指的是佩裡的一個專案;“社會學家馬克斯·韋伯介紹了消費者之間的區別”是科恩的一個破碎片段。在泰勒強迫症中穿插的是網頁設計的功能語言的刺耳出現,如“返回上一頁的按鈕”,在第一人稱句子的段落中使用。

此時的語言與任何為人類而設的東西有多麼遙遠!泰拉的部落格連結到其他垃圾部落格,這些垃圾部落格又連結到更多的垃圾部落格,形成了一個龐大的站點上的孤立社群——一種 PageRank 溫室,其本身並非旨在供人們閱讀。看到垃圾部落格帖子的人類會立即知道出了問題,並且可以標記該垃圾部落格以供網路管理員刪除。泰拉型別的垃圾部落格根本不是為了與人類互動而建立的;它們完全是為了搜尋引擎蜘蛛的利益而建立的。它們不模仿個人人類——它們不是“喬治·卡普蘭”的計算等價物,“喬治·卡普蘭”是不存在的秘密特工,他在《西北偏北》中的火車票和酒店房間旨在傳達特定的生活。它們僅從遠處工作,看起來像一群人,語言和連結在總體上發揮作用。如果垃圾部落格類似於以前的任何技術人工製品,那麼它們類似於二戰期間建造的“QL”站點,目的是誤導夜間轟炸行動:由管道、木框架、金屬絲網和燈光組成的搖搖欲墜的結構,如果從足夠遠的地方看,看起來像一個小鎮,有鐵路訊號、燈和敞開的門。從統計總數和演算法分析來看,垃圾部落格類似於繁榮社群的模式。它們的帖子被調整到蜘蛛需要接受其輸入作為人類的精確複雜程度,並且它們改編人類文字供其他機器閱讀和操作。對人類的影響是二階結果。

© .