Facebook 能否使用 AI 對抗網路欺凌?

檢測社交媒體上辱罵性帖子和評論的任務並非完全是技術性的

以下文章經 The Conversation 許可轉載,The Conversation 是一家報道最新研究的線上出版物。

Facebook 釋出了關於其社交媒體網路上辱罵行為的統計資料,刪除了超過 2200 萬個違反其禁止色情和仇恨言論規則的帖子,並刪除或添加了另外 350 萬個關於暴力的帖子的警告。其中許多帖子是由監控使用者活動的自動化系統檢測到的,這與執行長馬克·扎克伯格向國會表示他的公司將使用人工智慧來識別可能違反公司政策的社交媒體帖子相符。作為一名研究 AI 和對抗性機器學習的學者,我可以肯定地說,他承認了重大的挑戰是正確的:“判斷某些內容是否為仇恨言論在語言上非常微妙。”

檢測社交媒體上辱罵性帖子和評論的任務並非完全是技術性的。即使是 Facebook 的人工稽核員在定義仇恨言論方面也存在困難不一致地應用公司準則,甚至推翻他們的決定(尤其是在這些決定成為頭條新聞時)。此外,施虐者會調整策略以避免被檢測到——就像電子郵件垃圾郵件傳送者試圖透過在郵件中將“偉哥”替換為“偉@哥”來逃避檢測一樣。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業: 訂閱。 透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


如果攻擊者試圖利用機器學習系統來對抗自身——汙染演算法學習的資料以影響其結果,則可能會出現更多複雜情況。例如,有一種稱為“Google bombing”的現象,人們建立網站並構建一系列網路連結,以試圖影響 Google 搜尋演算法的結果。類似的“資料投毒”攻擊可能會限制 Facebook 識別仇恨言論的努力。

欺騙機器學習

機器學習人工智慧的一種形式,已被證明在檢測多種欺詐和濫用行為方面非常有用,包括電子郵件垃圾郵件網路釣魚詐騙信用卡欺詐虛假產品評論。當有大量資料可用於識別可以可靠地將正常、良性行為與惡意活動區分開來的模式時,它的效果最佳。例如,如果人們使用電子郵件系統將大量包含“緊急”、“投資”和“付款”等詞語的訊息報告為垃圾郵件,那麼機器學習演算法將更可能將未來包含這些詞語的訊息標記為垃圾郵件。

檢測社交媒體上的辱罵性帖子和評論是一個類似的問題:演算法會尋找與辱罵或非辱罵行為相關的文字模式。這比閱讀每條評論更快,比簡單地執行關鍵詞搜尋來查詢誹謗性言論更靈活,也比等待投訴更主動。除了文字本身,通常還有來自上下文的線索,包括髮布內容的使用者及其其他行為。擁有百萬粉絲的經過驗證的 Twitter 帳戶與沒有粉絲的新建立的帳戶可能會受到不同的對待。

然而,隨著這些演算法的開發,施虐者也會調整策略,改變他們的行為模式以避免被檢測到。自從電子郵件垃圾郵件中出現字母替換以來,每一種新的媒介都衍生出自己的版本:人們購買 Twitter 粉絲、有利的亞馬遜評論Facebook 點贊,所有這些都是為了欺騙演算法和其他人,讓他們認為自己更可靠。

因此,檢測濫用行為的一個重要部分是建立一個關於什麼是問題的穩定定義,即使表達濫用行為的實際文字發生變化。這為人工智慧提供了一個機會,可以有效地進入一場針對自身的軍備競賽。如果 AI 系統可以預測攻擊者可能做什麼,則可以對其進行調整以模擬執行該行為。另一個 AI 系統可以分析這些行為,學習檢測施虐者試圖將仇恨言論偷偷繞過自動化過濾器的努力。一旦攻擊者和防禦者都可以被模擬,博弈論就可以確定他們在這種競爭中的最佳策略。

資料投毒

施虐者不必只改變自己的行為——透過用不同的字元替換字母或以編碼方式使用單詞或符號。他們還可以改變機器學習系統本身。

因為演算法是根據人類生成的資料進行訓練的,所以如果足夠多的人以特定的方式改變他們的行為,系統將學到與其建立者意圖不同的教訓。例如,在 2016 年,微軟推出了“Tay”,這是一個 Twitter 機器人,旨在與其他 Twitter 使用者進行有意義的對話。相反,網路噴子用仇恨和辱罵性訊息淹沒了該機器人。當機器人分析該文字時,它開始以同樣的方式回覆——並很快被關閉。

很難確定何時人類生成的資料會導致 AI 表現不佳。如果可能,最好的防禦方法是讓人類向系統新增約束,例如刪除被認為是性別歧視的語言模式。還可以透過測量在單獨的、精選的資料集上的準確性來檢測資料投毒:如果新模型在受信任的資料上表現不佳,那麼這可能意味著新的訓練資料是壞的。最後,透過刪除異常值(與其餘訓練資料非常不同的資料點)可以降低投毒的有效性。

當然,沒有機器學習系統是完美的。與人類一樣,計算機應被用作打擊濫用行為的更大努力的一部分。即使是電子郵件垃圾郵件,作為機器學習的一個重大成功,也不僅僅依賴於好的演算法:新的網際網路通訊標準使垃圾郵件傳送者在傳送訊息時更難隱藏其身份。此外,聯邦法律,例如 2003 年的 CAN-SPAM 法案,為商業電子郵件設定了標準,包括對違規行為的處罰。同樣,解決網路欺凌可能需要新的標準和政策,而不僅僅是更智慧的人工智慧。

本文最初發表於 The Conversation。閱讀原文

© .