隨著阿片類藥物濫用在美國愈演愈烈,一個醫學研究團隊正在梳理社交媒體,以尋找線索來更好地瞭解這個主要的公共衛生問題。研究人員使用他們開發的用於分析推文和相關地理資訊的人工智慧軟體,發現推特是確定情況最嚴重地區的一個特別可靠的資料來源。由於每天有大約 5 億條訊息釋出到這個微博網站上,這種方法可以幫助提醒當地衛生官員,以便他們可以籌集資金或其他資源來解決這個問題。
根據美國疾病控制和預防中心(pdf),2016 年美國有超過 64,000 人死於藥物過量(其中大多數涉及非法海洛因和處方阿片類藥物),比上一年增加了 21%。歸因於芬太尼濫用(去年導致流行歌星 Prince 過量死亡的止痛藥)的死亡人數從 2015 年到 2016 年翻了一番,在衛生組織有時間收集資料後,預計會有更令人警醒的資料出現。收集資訊的滯後時間是使阿片類藥物濫用特別難以解決的主要因素之一。
研究人員想知道,分析推文文字是否可以像已建立的流行病學研究(例如國家藥物使用與健康調查(NSDUH))一樣,在更短的時間內準確估計處方阿片類藥物濫用的位置和相對流行程度。像 NSDUH 這樣的傳統醫學研究可能需要數年才能完成和釋出。但研究小組認為,推特訊息可能提供早期預警系統,從而促使採取更立即的行動,例如地方公共衛生運動。“我們發現我們的估計值與 [NSDUH] 資料一致,這表明社交媒體可以成為關於藥物使用的可靠的流行病學資料補充來源,”紐約長老會/皇后醫院急診醫學住院醫師邁克爾·查裡說。“我們可以分析社交媒體來調查更廣泛的普通人群,並有可能產生及時的見解。”查裡的研究團隊由紐約市、新澤西州和猶他州楊百翰大學的醫學專業人士以及楊百翰大學的一位計算機科學家組成。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保關於塑造當今世界發現和想法的有影響力的故事的未來。
根據最近發表在《醫學毒理學雜誌》上的研究(pdf)顯示,公開可搜尋的推特尤其為數字流行病學(健康威脅的發生率、分佈和可能的控制)提供了幾個優勢。推特使用者傾向於就各種各樣的主題撰寫頻繁的、簡短的訊息,並且他們經常標明自己的位置和其他人口統計資訊。“這有一種自白效應,”查裡說。“人們可能會在社交媒體上討論或透露一些當被直接問到時,他們可能不會透露的事情。在那裡可能存在一種在急診室或內科醫生辦公室不存在的坦誠程度。”
研究人員開發了定製軟體來分析推文,以尋找可能提及藥物使用或濫用的資訊。該軟體依靠人工智慧來快速搜尋超過 360 萬條推文,並識別可能指代阿片類藥物消費的詞語和短語,包括“dope”、“percs”、“white”、“TNT”和“Captain Cody”。對推文的進一步檢查揭示了更多細節:例如,芬太尼可以用“dummies”一詞來表達。可待因則翻譯為“syrup”或“Tango and Cash”。
掌握了軟體演算法的這些知識後,研究小組隨後確定了區分專門指代藥物濫用與描述早餐的推文(在“syrup”的情況下)的詞語使用模式。最有可能指代藥物濫用問題的推文被標記出來。研究人員透過將這些訊息中的詞語使用與醫療毒理學家和急診醫生策劃的阿片類藥物相關關鍵詞列表進行比較,驗證了該軟體的區分能力。該研究的發現與 NSDUH 對各州處方阿片類藥物濫用情況的估計相似,尤其是在 18 至 25 歲的人群中。根據皮尤研究中心的資料,這可能是因為 36% 的推特使用者年齡在 18 至 29 歲之間。
按照既定的醫學研究規程,研究人員對他們收集的資料進行了匿名處理,無法識別個別推特使用者。這對於他們的研究目的非常有效,儘管他們承認,如果政府或執法機構想進行類似的研究,將推文追溯到特定的推特使用者個人資料並非難事。
“推特資料量大,內容是短格式的,簡短的陳述比非常長而複雜的陳述更容易分類,”俄勒岡州波特蘭市的流行病學家和社會媒體研究員邁克爾·吉爾伯特說,他沒有參與查裡的研究。“資料量和資料格式的結合使推特適用於機器學習工具。人們是在談論嗨起來、控制疼痛還是其他潛在的共同行為的動機?人們更有可能與同齡人分享某些型別的資訊,而不是與他們的醫療保健提供者分享。”
查裡和他的團隊並不是唯一使用機器學習技術研究推特的阿片類藥物濫用研究人員。由加州大學聖地亞哥分校全球衛生政策研究所所長蒂姆·麥基領導的一個小組在 2015 年對該社交媒體網站進行了為期五個月的檢查,以識別非法線上銷售處方阿片類藥物的實體。他們的軟體檢測到 1,778 條營銷銷售管制藥物的帖子,其中 90% 的帖子包含指向線上購買網站的超連結。本月初,《美國公共衛生雜誌》發表了他們的研究結果。
儘管推特提供了熟悉感和開放性,或者說正因為如此,這個平臺並不總是一個可靠的資料來源。推特上的對話涵蓋了如此多的主題,以至於識別與特定研究相關的訊息可能具有挑戰性。“這種研究仍處於起步階段,”馬里蘭大學帕克分校高階語言研究中心的助理研究科學家妮基·亞當斯說。“推文很短,這確實影響了機器學習的質量。沒有太多背景資訊。如果你正在研究一個主題,你的資料周圍可能會有很多噪音。”
查裡承認推特作為資料來源的缺點,包括必須分析大量不相關的資料才能獲得任何有意義的資訊,以及該平臺使用者群的人口統計學限制。“這項工作最有用的是捕捉趨勢,”他說。“我們都認為阿片類藥物的使用存在問題。很難以任何規模進行這些聯邦調查,並且需要以能夠說‘在過去三個月裡,這個特定地點的藥物使用正在上升。這裡發生了什麼事?’的頻率進行調查。”線索就在那裡——需要的是找到它們的正確工具。
