無論大小型社交平臺都在努力保護其社群免受仇恨言論、極端主義內容、騷擾和虛假資訊的侵害。最近,極右翼煽動者公開張貼了襲擊美國國會大廈的計劃,並在1月6日付諸行動。一種可能的解決方案是人工智慧:開發演算法來檢測和提醒我們注意 токсичное 和煽動性評論,並標記它們以供刪除。但是,此類系統面臨著巨大的挑戰。
近年來,網路 ненавистный 或冒犯性語言的普遍性迅速增長,問題已變得十分猖獗。在某些情況下,網路 токсичное 評論甚至導致了現實生活中的暴力事件,從緬甸的宗教民族主義到美國的新納粹宣傳。社交媒體平臺依賴成千上萬的人工稽核員,難以稽核不斷增加的有害內容量。據2019年報道,Facebook 稽核員因反覆接觸此類令人痛苦的內容而面臨患上 PTSD 的風險。將這項工作外包給機器學習可以幫助管理不斷增長的有害內容量,同時限制人類接觸有害內容。實際上,許多科技巨頭多年來一直在將演算法納入其內容稽核中。
谷歌的 Jigsaw 就是這樣一個例子,這是一家專注於使網際網路更安全的公司。2017年,它幫助建立了Conversation AI,這是一個旨在檢測網路 токсичное 評論的合作研究專案。然而,該專案產生的一個工具Perspective卻面臨著大量的批評。一個常見的抱怨是,它建立了一個通用的“毒性評分”,不夠靈活,無法滿足不同平臺的不同需求。例如,一些網站可能需要檢測威脅,但不需要檢測褻瀆性語言,而另一些網站可能恰恰相反。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
另一個問題是,該演算法學會將 токсичное 評論與包含與性別、性取向、宗教或殘疾相關的詞語的非 токсичное 評論混淆。例如,一位使用者報告說,簡單的中性句子,如“我是一個同性戀黑人女性”或“我是一個聾啞女性”導致了高 токсичное 評分,而“我是一個男人”則導致了低評分。
在這些擔憂之後,Conversation AI 團隊邀請開發人員訓練他們自己的 токсичное 檢測演算法,並將它們提交到 Kaggle(谷歌子公司,以其機器學習從業者社群、公共資料集和挑戰而聞名)舉辦的三個競賽(每年一次)中。為了幫助訓練 AI 模型,Conversation AI 釋出了兩個公共資料集,其中包含來自維基百科和名為 Civil Comments 的服務的超過一百萬條 токсичное 和非 токсичное 評論。這些評論由註釋者對毒性進行評分,“非常 токсичное ”標籤表示“非常 ненавистный、 агрессивный 或不尊重的評論,很可能會讓您離開討論或放棄分享您的觀點”,而“токсичное ”標籤表示“粗魯、不尊重或不合理的評論,可能會讓您離開討論或放棄分享您的觀點”。由於用於強制評估者準確性的抽樣和策略,一些評論被超過 10 位註釋者(最多達數千位)看到。
第一次 Jigsaw 挑戰賽的目標是構建一個多標籤 токсичное 評論分類模型,標籤包括“токсичное ”、“嚴重 токсичное ”、“威脅”、“侮辱”、“猥褻”和“身份 ненавистный ”。第二次和第三次挑戰賽的重點是其 API 的更具體的侷限性:最大限度地減少對預定義的身份群體的無意偏見,以及在僅限英語的資料上訓練多語言模型。
儘管這些挑戰促成了改進 токсичное 語言模型的一些巧妙方法,但我們在內容稽核 AI 公司 Unitary 的團隊發現,沒有一個訓練好的模型被公開發布。
因此,我們決定從最佳 Kaggle 解決方案中汲取靈感,並訓練我們自己的演算法,並明確打算公開發布它們。為此,我們依賴於現有的用於自然語言處理的“transformer”模型,例如谷歌的 BERT。許多此類模型都可以在開源的 transformers 庫中訪問。
這就是我們的團隊構建 Detoxify 的方式,這是一個開源的、使用者友好的評論檢測庫,用於識別線上不當或有害文字。其預期用途是幫助研究人員和從業人員識別潛在的 токсичное 評論。作為該庫的一部分,我們釋出了與三個 Jigsaw 挑戰賽中的每一個相對應的三個不同模型。雖然每個挑戰賽的頂級 Kaggle 解決方案都使用模型整合,即平均多個訓練模型的評分,但我們僅使用每個挑戰賽一個模型就獲得了類似的效能。每個模型都可以透過一行程式碼輕鬆訪問,並且所有模型和訓練程式碼都在 GitHub 上公開可用。您也可以在 Google Colab 中嘗試演示。
雖然這些模型在很多情況下表現良好,但同樣重要的是要注意它們的侷限性。首先,這些模型在與它們訓練的資料相似的示例上效果良好。但是,如果面對不熟悉的 токсичное 語言示例,它們可能會失敗。我們鼓勵開發人員根據代表其用例的資料集微調這些模型。
此外,我們注意到,在文字評論中包含侮辱或褻瀆性語言幾乎總是會導致高 токсичное 評分,而與作者的意圖或語氣無關。例如,句子“我厭倦了寫這篇愚蠢的文章”將給出 99.7% 的 токсичное 評分,而刪除“愚蠢”一詞會將評分更改為 0.05%。
最後,儘管釋出的模型之一經過專門訓練以限制無意偏見,但所有三個模型仍然可能表現出一些偏見,當直接用於稽核內容時,這可能會引發道德問題。
儘管在自動檢測 токсичное 言論方面取得了相當大的進展,但在模型能夠捕捉我們語言背後的真實、細微的含義(而不僅僅是記憶特定的單詞或短語)之前,我們還有很長的路要走。當然,投資於更好、更具代表性的資料集將產生漸進的改進,但我們必須更進一步,開始在上下文中解釋資料,這是理解線上行為的關鍵部分。如果只看文字,那麼社交媒體上看似無害的文字帖子,如果附帶有種族主義象徵意義的影像或影片,很容易被忽略。我們知道,缺乏上下文通常是我們自己的人為誤判的原因。如果人工智慧要大規模取代人工,那麼至關重要的是,我們必須給我們的模型提供全面的圖景。
