智慧機器加入人類行列,追蹤非洲埃博拉疫情

網站吞噬大量與疾病相關的資訊,但仍保留人為干預,以幫助理解海量資料


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。購買訂閱將有助於確保關於塑造當今世界的發現和思想的具有影響力的故事能夠繼續存在。


衛生保健官員和救援人員試圖追蹤埃博拉病毒病疫情的進展,該疫情迄今已奪去2800多人的生命 (pdf),他們已經開始嚴重依賴少數幾個疾病監測網站,這些網站充當資訊處理的關鍵樞紐。不同的網站功能略有不同,但大多數情況下,它們的存在是為了管理由無數新聞文章、社交媒體資訊、醫療報告和電子郵件傳送的現場報告產生的資料洪流
 
這些網站結合使用人工智慧軟體和人類專業知識來跟蹤、報告和繪製與公共衛生危機相關的資訊,其速度通常比政府部門和國際監督機構的反應速度更快。一個名為HealthMap的網站使用這種混合模式,在世界衛生組織(WHO)釋出第一份報告的幾天前,就發現了埃博拉疫情的早期跡象。
 
《大眾科學》深度報道,“埃博拉:你需要知道什麼”
 
自3月14日起,HealthMap的自動文字處理演算法一直在跟蹤埃博拉疫情,當時幾內亞新聞網站Africaguinee.com報道了該國馬森塔省出現的“奇怪發燒”,其特徵是“肛門和鼻出血”。幾天之內,HealthMap就注意到標準數字新聞網站的一份報告,該報告表明“神秘的出血熱”已經奪去了幾十人的生命。幾內亞衛生部負責人表示,正在考慮埃博拉病毒是罪魁禍首,儘管這將是該國首次記錄在案的埃博拉病例。當局很快將病因縮小到埃博拉或一種相關的疾病,即馬爾堡出血熱。到3月22日,奈及利亞的一個新聞網站以一篇將“埃博拉”和“爆發”這兩個詞放在一起的文章引起了HealthMap的注意。
 
繪製幫助 兒童醫院資訊學專案於2006年啟動了HealthMap,旨在利用越來越多的數字資源(網際網路、RSS訂閱和電子郵件列表等)在谷歌地圖上繪製全球新興疾病的資訊。HealthMap標記了當前的埃博拉疫情,原因有很多,特別是它從幾內亞蔓延到賴比瑞亞、獅子山和幾個其他鄰國。
 
HealthMap會自動執行資料採集、過濾和資訊分類,使資訊從源頭流向網頁,而無需任何人工干預。與此同時,該網站的傳染病和公共衛生專家會對這些內容進行審查,以糾正和改進自動分類,兒童醫院資訊學專案的研究軟體開發人員克拉克·弗萊菲爾德說。例如,分析師會確保網站釋出的感染和死亡人數的執行統計資料儘可能準確,這是軟體難以做到的,因為不同的資訊來源在不同的時間範圍內報告的數字不同。“我們擁有使[釋出資訊]更容易的技術框架,”他補充說,“但我們的方法始終是人機協作模式。”
 
儘管這並不是HealthMap報道的第一次重大健康危機——2009年H1N1流感大流行是其最大規模的努力之一——但埃博拉疫情已將該網站推向了新的方向,以努力為包括世衛組織、聯合國和美國疾病控制與預防中心在內的各種機構提供資訊。HealthMap現在每小時可以處理來自15種不同語言的數萬個網頁的資料。週一,HealthMap首次嘗試預測疾病傳播,釋出了未來幾個月埃博拉疫情可能的發展趨勢預測
 
前瞻性
HealthMap的短期疫情預測建模工具可以按國家/地區過濾資料,並考慮不同的控制方案。該工具本身基於多倫多醫療和公共衛生研究人員團隊開發的模型構建,該模型預測,到10月26日,幾內亞、賴比瑞亞和獅子山的埃博拉病例最壞情況為14,176例,HealthMap可能會在未來嘗試其他方法,HealthMap聯合創始人、哈佛醫學院兒科副教授約翰·布朗斯坦說。
 
多倫多模型是一種數學方法,用於跟蹤疫情的擴張和收縮(稱為發生率衰減和指數調整(IDEA)),它考慮了可能減緩疫情增長的因素。這些因素可能包括對埃博拉受害者進行更充分的隔離或國際援助的到來。研究人員表示,IDEA非常適合對疫情增長和公共衛生干預措施進行快速評估。“這更像是一種時間序列方法,我們正在應用建模來推匯出未來病例的估計值,”布朗斯坦說。
 
HealthMap用於跟蹤疫情進展的機器學習演算法將檢索到的資料分配到五個類別之一:突發新聞、關於可能爆發疫情的警告、過去疫情的參考資料、研究和其他背景資訊,以及與任何疫情無關的事件。弗萊菲爾德說,這些過濾器是“系統的關鍵組成部分,尤其是在我們看到圍繞高度可見的疫情的大量資料時非常有用”。
 
疾病維基
該網站擅長自然語言處理,新興疾病監測計劃(ProMED)的創始人兼編輯拉里·馬多夫說,ProMED是一個全球電子郵件列表,用於接收和總結有關疾病爆發的報告,也是HealthMap的第一個資料來源之一。“他們[能夠]吸收我們的報告,並以合理的準確度將它們放在地圖上,”他說,並補充說,HealthMap幫助自動化了ProMED自1994年以來一直在做的事情。
 
HealthMap的演算法主要根據相同材料在多個來源中出現的頻率來衡量資訊的重要性,儘管它不會根據來源本身(無論是《紐約時報》的文章還是當地衛生部的公告)對資訊進行評級。弗萊菲爾德說,該網站不就其來源的可信度“站隊”。相反,他補充說,它遵循的邏輯是,重大事件往往會收到來自多個來源的多份報告。
 
幾個月前,當埃博拉疫情明顯惡化且不會很快得到控制時,HealthMap團隊開發了一個時間線介面,以更好地組織和視覺化其報告。“我們不確定有多少人會預測到情況會如此糟糕,”布朗斯坦說。自7月中旬上線以來,2014年埃博拉疫情時間線包括130多個條目,瀏覽量超過100萬次。在2010年3月發表於ScientificAmerican.com的文章中,布朗斯坦將HealthMap描述為“幾乎像是新興傳染病的維基百科”。馬多夫說,HealthMap之所以奏效,是因為“它是一個以人為驅動但基於網際網路的系統”,並補充說,“它一部分是社交網路,一部分是新聞服務。”
 
HealthMap並不是唯一的傳染病監測網站。除了谷歌流感趨勢等較新的網站外,還有一些更成熟的網站,如ProMED和全球公共衛生情報網路(GPHIN),GPHIN最初是由加拿大衛生部與世衛組織於1997年合作開發的。根據WebMD的Medscape網站的說法,GPHIN軟體每15分鐘從新聞源聚合器Al BawabaFactiva檢索相關文章,具體基於該網站定期更新的特定搜尋查詢。除了軟體選擇的文章外,GPHIN資料庫還由人工分析師提交的內容填充,他們會梳理開放訪問的網站以搜尋相關的公共衛生資訊。
 
馬多夫說,這些和其他疾病監測網站提供了一個至關重要的早期預警系統,可以在資訊可用時立即將其呈現給公眾。回顧上世紀80年代人們開始意識到艾滋病的時候,這種疾病的起源可以追溯到20或30年前,當時它傳播到美國並引起了全世界的關注,他說,並補充說,“現在很難相信會發生這種情況。”

© .