不要怪人工智慧。剽竊正在將數字新聞變成垃圾

一篇拙劣的訃告突顯了人工智慧和數字剽竊工廠對新聞業的威脅,它們可能會用虛假資訊汙染新聞

Robotic hand pressing a keyboard on a laptop in dark blue background 3D rendering

很少有編輯會在標題中使用“廢物”來稱呼某人。更少的人會在訃告中這樣做。然而,當一位前 NBA 籃球運動員本週倒地去世時,MSN 網站上赫然寫著:“布蘭登·亨特 42 歲去世,毫無價值。”

那些繼續閱讀的人很快意識到這篇文章有些嚴重問題;撰寫這篇文章的匿名編輯似乎幾乎但不完全不熟悉英語的運作方式。“亨特的專業知識使他成為選擇,因為第 56 位總會在 2003 年 NBA 選秀中決定,”訃告解釋道。“在他的 NBA 職業生涯中,他參加了兩個賽季的 67 場比賽,並在 2004 年對陣密爾沃基雄鹿隊的比賽中獲得了職業生涯最高的 17 分。”

精明的讀者意識到編輯很可能是一臺機器。“人工智慧不應該撰寫訃告,”一位憤怒的體育迷在 X/Twitter 上寫道。“付錢給你們的作家,@MSN。” 儘管第一批現場記者推測訃告“似乎是人工智慧生成的”,但真相卻更加平淡無奇。事實上,讓 MSN 感到尷尬的演算法的粗糙性恰恰表明了現代媒體機構為何如此容易受到人工智慧虛假資訊的影響。


關於支援科學新聞業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保未來能夠持續報道關於塑造我們當今世界的發現和思想的具有影響力的故事。


生成布蘭登·亨特訃告的計算機程式可能是一種遺留物,而不是尖端人工智慧(透過一位發言人,MSN 拒絕回答問題)。十多年來,不擇手段的網站設計師一直在使用名為“文章潤色器”的軟體,從竊取的文字中建立看似新穎的內容。在最簡單的情況下,這些程式透過自由使用同義詞詞典來掩蓋剽竊;用同義詞替換足夠多的單詞,希望沒有人會找到原始來源。

布蘭登·亨特的訃告過度使用了羅熱詞典,但仍然可以找到原始訃告“布蘭登·亨特 42 歲去世”,該訃告發布在一個小型專業網站 TalkBasket.net 上(反過來,它與 TMZ 的這篇報道非常相似)。文章寫道:“亨特的天賦使他入選 2003 年 NBA 選秀大會的第 56 順位。” “在他的 NBA 職業生涯中,他參加了兩個賽季的 67 場比賽,並在 2004 年對陣密爾沃基雄鹿隊的比賽中獲得了職業生涯最高的 17 分。” 將其與 MSN 版本進行比較,很明顯可以看出潤色器演算法是多麼笨拙和簡單。

儘管任何人類編輯都會立即將此類文章扔進數字垃圾箱,但在過去一週,MSN 釋出了數十篇此類剽竊和同義詞化的文章,內容涉及體育(“[曼聯球員傑登]桑喬在 10 月份開始的五個月期間因傷病而受到影響,當時他沒有為曼聯效力。”)、汽車購買建議(“然而,假設資金只允許購買一輛,我們可以首先排除前兩代,因為它們現在已經很老了,所以要找到一輛好的意味著非常仔細地購買。”)和商業(“通用汽車週四向美國汽車工人聯合會提出的第一份工資和福利方案遠未達到工會的初步要求。”)直到“廢物”標題引發眾怒,MSN 似乎沒有人意識到他們的新聞頁面上充斥著胡言亂語。(所有這些文章和許多其他文章此後已被刪除。)

襲擊 MSN 的文章潤色器僅僅是幾十年前的計算機技術,而不是現代機器學習。相比之下,現代人工智慧(如 ChatGPT)在語法和句法方面非常出色,以至於它可以比許多人類編輯更快、更好地寫作。這些人工智慧演算法參與的抄襲行為非常微妙,以至於超過了普通意義上的抄襲:它採用其他人的作品,並以通常無法追蹤的方式綜合來源。

儘管如此,人工智慧無法產生新穎的見解,也無法生成尚未輸入其電子大腦的新資訊。但是,它可以製作出極具說服力的假新聞。

例如,當我要求 ChatGPT 為亨特撰寫訃告時,文字在語法上很乾淨。甚至可以說是枯燥乏味。沒有任何新資訊,而且充滿了陳詞濫調,以至於它永遠不會冒犯任何人,即使是意外冒犯。“他的才華、堅韌和富有魅力的個性在比賽和那些有幸觀看他比賽的人身上留下了不可磨滅的印記……”該演算法吐露道。“他成立了布蘭登·亨特基金會,這是一個旨在透過體育和教育為貧困青年提供機會的慈善組織。”

劇透一下,根本沒有這樣的基金會。這比使用同義詞詞典的文章潤色器要複雜得多的欺詐行為。但從本質上講,人工智慧的威脅與文章潤色器的威脅相同——未來虛假資訊將淹沒現實。兩者都生成它們所輸入資訊的近乎無限的變化,吐出成千上萬看似新穎的文字,但其中沒有任何新內容。兩者都可以滿足任何新聞媒體以及廣告商的願望,用看似新鮮的內容填滿我們的眼球。兩者都可以生成足夠多的“新聞”來填滿地球上最大的新聞漏洞數百萬次。而且兩者基本上都是免費的。對於任何尋求將受眾注意力轉化為美元的網站來說,這都是非常誘人的。這就是現代媒體網站如此脆弱的原因。

甚至在複雜的機器學習演算法出現之前,新聞媒體就已經嘗試釋出機器生成作品。然而,所有這些計算機生成的新聞,即使是最新的人工智慧創造的新聞,也並非真正的新聞,而更多的是對人類收集的資訊的重新混合——而人類通常都有要求為其工作獲得報酬的膽量。更糟糕的是,人類,儘管價格昂貴,卻是唯一能夠區分真假資訊的方法。

現在很容易且廉價地用模模擬實新聞的無資訊內容充斥網際網路。這意味著內容策展對於篩選掉無稽之談變得越來越重要。但隨著偽造品變得越來越複雜,這個角色也變得越來越困難。所有這些都使媒體機構容易以病毒般的速度傳播虛假資訊。換句話說,MSN 面臨著與 Facebook 和前 Twitter 相同困境:一旦您嘗試在沒有能夠處理如此大容量的良好(人工)策展系統的情況下聚合大量資訊,您就會開始成為垃圾的傳播媒介。

新聞媒體似乎在一場註定失敗且代價高昂的戰鬥中,可能會受到誘惑,為了節省一些資金,完全放棄,選擇普遍聚合而不是精心策展。幾年前,MSN 開始使用演算法而不是記者來策劃其主頁。但演算法,甚至是尖端人工智慧,也無法拯救局面。當然,ChatGPT 非常複雜,但它無法找到偽造品;需要一位優秀的策展人才能檢測到布蘭登·亨特基金會根本不存在。人們可以檢視 IRS 出版物 78,或查詢 Form-990 備案、州慈善機構註冊或公司組織章程——但那裡什麼也沒有。很可能是假的。

然而,有一個關於這個基金會的線上參考資料可能會讓任何事實核查員猶豫。它來自 Kanwasinews9 網站上布蘭登·亨特的訃告,該網站似乎是一個新聞網站:“他的慈善體育事業超越了籃球場。他成立了布蘭登·亨特基金會,這是一個致力於透過體育、教育和培訓專案改善貧困兒童生活的非營利性僱主,”它說。“透過他的基金會,他透過為許多孩子提供成功的機會和他們應得的方向,從而改變了他們的生活。”

廢物。

這是一篇觀點和分析文章,作者或作者表達的觀點不一定代表《大眾科學》的觀點。

© .