就像性一樣,金錢是大多數人避免公開討論的話題。然而,即使在 Twitter 的 140 個字元限制內表達自己,我們也會 регулярно 留下經濟地位的數字痕跡。
在一項對線上社交媒體網路超過 5,000 名使用者釋出的約 1080 萬條推文的分析中,發現這些簡潔的訊息提供了足夠的資訊來揭示使用者的收入階層。賓夕法尼亞大學自然語言處理博士後研究員丹尼爾·普雷奧蒂烏克-彼得羅和他的同事依靠自我認同的職業將 90% 的樣本分類到相應的收入群體中。然後,他們使用了一種機器學習模型,該模型可以從資料中學習並根據資料進行預測,以識別每個群體特有的特徵。當他們對剩餘 10% 的受試者測試這個精明的模型時,它成功預測了這些使用者的經濟狀況。
正如研究人員今年秋天在《PLOS ONE》雜誌上描述的那樣,收入較高的人傾向於討論商業、政治和非營利工作。收入較低的人主要關注個人話題,例如美容秘訣和經歷。“高收入人群將 Twitter 用作傳播資訊的手段;低收入人群更多地將其用於社交交流,”普雷奧蒂烏克-彼得羅說。分析還顯示,收入較高的人釋出的推文更可能表達恐懼或憤怒。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
在之前的機器學習研究中,普雷奧蒂烏克-彼得羅和他的同事能夠預測 Twitter 使用者的性別、年齡和政治傾向。他們甚至可以檢測到推文中的產後抑鬱症和創傷後應激障礙的跡象。該團隊繼續開發其模型,但最終“機器學習的力量僅取決於我們可以訪問的資料,”普雷奧蒂烏克-彼得羅說。“人們應該意識到他們在不知不覺中洩露了多少關於自己的資訊。”