根據皮尤研究中心2016年的一項民意調查,百分之六十二的美國人從社交媒體獲取新聞。這個資料有助於解釋假新聞的普遍存在:當資訊透過社交網路傳播時,常規的編輯過濾器沒有機會將高質量的推文與糟粕區分開來。開發工具以幫助阻止謊言和虛假謠言的傳播,將需要計算機科學家、語言學家、心理學家和社會學家的合作。一項新的研究,將於本月在計算機協會的會議上展示,分析了數百萬條推文,揭示了哪些詞語和短語被認為是最可信的。
佐治亞理工學院的計算機科學家兼該研究的主要作者塔努什裡·米特拉說,她在2011年奧薩馬·本·拉登被擊斃時開始對這個問題感興趣。當時流傳著關於他是否以及如何真正死亡的訊息,許多人首先在推特上聽說了這起擊斃事件。“這種突發新聞和猜測發生在社交媒體上,”米特拉說,“而且很多時候它發生在新聞到達傳統新聞媒體之前。”她和她在佐治亞理工學院的合作者希望開發自動化系統,以純粹基於人們談論事件的方式來評估事件是否真的發生。這些工具可能有助於在虛假謠言傳播太遠之前就檢測到它們。
研究人員構建了一個包含1377個事件的資料庫,這些事件發生在2014年10月至2015年2月之間,以及與這些事件相關的推文。為了給每個事件分配一個“可信度”評分,參與者看到了關於該事件的推文,並根據他們的知識或其他線上研究,對該事件的“準確性”進行了評分。根據認為事件“肯定準確”的人的百分比,他們被分為四個類別——完美可信度、高可信度、中等可信度和低可信度。低可信度事件包括一名足球運動員在一次猛烈撞擊後死亡以及警察向人群噴灑辣椒水。(然而,準確性評級並非完美;所涉人群確實被噴灑了辣椒水。)
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。
然後,研究人員對與這些事件相關的6600萬條推文進行了統計分析,尋找可信度評分與諸如表達不確定性或情感的詞語等若干特徵之間的相關性。在他們尚未發表的研究中,他們列出了幾個有用的線索:“可信”事件更可能在推特上用諸如appeared(似乎)、depending(取決於)和guessed(猜測)等緩和語來描述,而“不可信”事件則帶有其他緩和語,例如indicates(表明)、certain level(一定程度)和dubious(可疑的)。一些最好的晴雨表是帶有主觀意見的詞語:vibrant(充滿活力的)、unique(獨特的)和intricate(錯綜複雜的)預示著高可信度,而pry(窺探)、awfulness(糟糕透頂)和lacking(缺乏)則預示著低可信度。(奇怪的是,darn與高可信度相關聯,而damn則與低可信度相關聯。)儘管諸如without doubt(毫無疑問)和undeniable(不可否認的)等助推詞在原始推文中預示著低可信度,但它們在轉發推文中卻預示著高可信度。
除了特定的詞語之外,轉發推文中的長引用表明可信度較低——可能是因為轉發者不願對該宣告承擔責任。轉發次數多也與可信度低有關。(這些都是相關性;研究人員不知道,比如說,轉發次數是否影響了人類的評分,或者轉發和人類評分是否各自獨立地遵循了假定事件的特徵。)
研究人員還測試了他們的計算機模型透過結合上述指標來預測事件可信度的效果。如果演算法隨機猜測,則正確率將為25%;如果它總是猜測高可信度——事件最多的類別——則正確率將為32%。但它的表現明顯優於此,達到了43%的準確率。如果對於差一個類別的情況給予一半的學分(例如,對於高可信度事件猜測為完美可信度),則演算法的準確率為65%。研究人員希望透過將語言線索與諸如推文作者或引用的連結等因素相結合來提高其效能。米特拉已經完成初步工作,表明源自單個人的故事往往是低可信度的。
他們還將可能產生的任何工具視為僅僅是第一道防線,目的是引起記者或事實核查人員對他們應該考慮報道或揭穿的賬戶的注意。華盛頓大學的研究員羅伯特·梅森說,這樣的工具也可能幫助急救人員在災難期間決定信任哪些資訊,他研究了推特上關於波士頓馬拉松爆炸案的謠言,但沒有參與目前的研究。梅森說,另一種可能性是在推特或臉書上建立警報系統,以檢測人們何時即將傳遞潛在的虛假故事,並詢問他們是否確定要這樣做——“只是減緩我們傳播資訊的便捷性”。
即使有了人工智慧,阻止假新聞的傳播也將是困難的。梅森指出了一句諺語,謊言傳遍半個世界時,真相才剛剛穿上靴子。通常,虛假資訊比真實資訊更引人入勝。記者們也急於快速報道新聞。無論如何,人們經常忽略訊息來源的權威性。“在社交媒體和資訊快速流動的時代,”梅森說,“什麼是權威來源?我們不再有沃爾特·克朗凱特或愛德華·R·默羅來說,‘事情就是這樣。’我們現在有多種聲音說事情就是這樣。所以我們必須做出選擇。”