2021年2月,據報道,七名俄羅斯家禽農場工人感染了H5N8型禽流感。這種亞型的禽流感以前從未被認為會感染人類,病毒的基因序列很快被上傳到基因資料儲存庫GISAID。對於華盛頓特區喬治城大學的生物學家科林·卡爾森來說,這是一個機會。“我立刻想到,‘我想用FluLeap執行一下’,”他說。
FluLeap是一種機器學習演算法,它使用序列資料將流感病毒分類為禽類或人類。該模型已經用大量的流感病毒基因組(包括H5N8的例子)進行訓練,以學習感染人類的病毒和感染鳥類的病毒之間的差異。但是,該模型從未見過被歸類為人類的H5N8病毒,卡爾森很想看看它對這種新型亞型的看法。
令人有些驚訝的是,該模型以99.7%的置信度將其識別為人類病毒。該模型似乎並沒有簡單地重複其訓練資料中的模式,例如H5N8病毒通常不感染人類這一事實,而是推斷出一些與人類相容的生物學特徵。“該模型有效,這令人震驚,”卡爾森說。“但這只是一個數據點;如果我能再做一千次,那就更令人震驚了。”
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將有助於確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
病毒從野生動物傳播到人類的動物源性過程是大多數大流行的原因。隨著氣候變化和人類對動物棲息地的侵佔增加了這些事件的頻率,瞭解人畜共患病對於預防大流行,或至少更好地做好準備至關重要。
研究人員估計,地球上大約1%的哺乳動物病毒已被識別1,因此一些科學家試圖透過對野生動物進行取樣來擴大我們對這種全球病毒組的瞭解。這是一項艱鉅的任務,但在過去十年左右,一門新的學科已經興起——研究人員在其中使用統計模型和機器學習來預測疾病出現的各個方面,例如全球熱點地區、可能的動物宿主或特定病毒感染人類的能力。這種“人畜共患病風險預測”技術的倡導者認為,它將使我們能夠更好地將監測目標對準正確的區域和情況,並指導最有可能需要的疫苗和療法的開發。
然而,一些研究人員對預測技術應對病毒組的規模和不斷變化的性質的能力持懷疑態度。改進模型及其依賴的資料的努力正在進行中,但如果要減輕未來大流行的影響,這些工具需要成為更廣泛努力的一部分。
病毒搜尋
一些研究人員長期以來認為,擴大我們對病毒多樣性的瞭解將有助於管理大流行威脅。PREDICT是美國國際開發署(USAID)資助的一個2億美元的專案,花了大約十年時間尋找動物病毒。到2020年結束時,它已在34個國家/地區的野生動物、牲畜和人類樣本中發現了949種新病毒。
事後看來,PREDICT的一些發現可能顯得很有先見之明。2017年的一項研究2 估計,蝙蝠體記憶體在數千種未被發現的冠狀病毒(被廣泛認為是SARS-CoV-2病毒的來源),並預測東南亞將是SARS-CoV-2所屬科中病毒數量最多的地區。它還將涉及高度人與野生動物接觸的活動(如野生動物市場)與冠狀病毒的較高流行率聯絡起來。
另一項2017年的研究3 收集了關於哪些病毒感染哪些哺乳動物的資料,建立了一個病毒-宿主關聯資料庫。“我們的目標是瞭解哪些病毒能夠感染人類,我們最常從哪些動物身上獲得新病毒,以及驅動這些模式的潛在因素,”紐約市生態健康聯盟的生態學家和研究負責人凱文·奧利瓦爾說,該聯盟是一個專注於生物監測和保護的非營利機構。該團隊的分析表明,給定宿主物種中可以感染人類的病毒比例受到人類與該物種的親緣關係,以及影響人與野生動物接觸的因素(如人類人口密度和該物種地理範圍內的城市化程度)的影響。該團隊使用統計建模來預測可能攜帶大量未被發現病毒的動物群體和區域——蝙蝠與齧齒動物和靈長類動物一起在南美洲、非洲和東南亞等地區中突出顯示。研究人員還發現了與病毒是人畜共患病相關的特徵,例如它可以感染的物種範圍。
該團隊表示,這些資訊可以幫助指導監測工作。“它可以讓我們預測風險最高的地區,”加州大學戴維斯分校的流行病學家、PREDICT主任喬納·馬澤特說。識別具體威脅還可以讓當地研究人員和醫護人員調整緩解和應對能力。“它可以讓社群說‘我們有這個、這個和這個,我們可以透過這些方式降低風險’,”馬澤特說。
PREDICT原本只是一個試點專案。“它生成了大量資料,但這只是滄海一粟,”奧利瓦爾說。“我們需要更大的專案。”因此,研究人員在2016年提出了全球病毒組專案(GVP),該專案被視為政府機構、非政府組織和研究人員的全球合作伙伴關係,旨在發現哺乳動物和鳥類(大多數人畜共患病毒來自這些動物)中的大多數病毒。然而,面對一些研究人員的批評,該專案從未獲得資助。馬澤特說,它今天作為一個非營利組織存在,旨在為各國提供開展自身病毒調查所需的知識。美國國際開發署於2021年10月啟動了一個規模較小、成本低得多的專案,名為“新出現病原體的發現和探索——病毒性人畜共患病”(DEEP VZ)。
對GVP的一項批評是,任務規模簡直是無法管理的。PREDICT研究人員估計4 哺乳動物和鳥類中存在167萬種未知病毒,儘管這個數字存在爭議,但毫無疑問,病毒組是巨大的。它也在不斷變化,因此一次性的發現努力是不夠的。“RNA病毒的進化速度很快,”澳大利亞悉尼大學的病毒學家愛德華·霍姆斯說。“所以你必須不斷地做下去。”
也有人懷疑該專案是否能識別出潛在的大流行病。“在理解病毒進化和生態學方面,我對它沒有異議,”霍姆斯說。“但作為理解接下來會發生什麼的一種預測工具,它根本行不通。”一個問題是一些宿主物種和病毒科已經被深入研究,但另一些則幾乎沒有被觸及。現有資料也偏向於已經溢位的病毒5。紐西蘭奧塔哥大學的病毒學家傑瑪·喬根根說,因此,到目前為止,大多數預測都是基於“完全有偏見的資料”。此外,即使發現了一種病毒並對其基因組進行了測序,許多可能影響其引發大流行潛力的因素,例如其感染人類和在人與人之間傳播的能力,仍然不清楚。“然後你必須做所有這些實驗,這將花費數年時間和鉅額資金,”霍姆斯說。
這就是機器學習可能提供捷徑的地方。模型可以用來標記高優先順序的目標以供進一步研究,而不是試圖完全表徵每一種新病毒。“我們需要的是下游的分類系統,這樣我們就知道哪些病毒需要進行深入的病毒學研究來表徵,”科羅拉多大學博爾德分校的病毒學家薩拉·索耶說。
蝙蝠攜帶許多未知的冠狀病毒。圖片來源:AttilaBarsan/Getty Images
模型內部
當發現一種病毒時,通常除了其基因序列外,對其知之甚少。因此,僅使用基因組就可以對病毒進行分類的模型將特別有用。英國格拉斯哥大學的計算病毒學家納杜斯·莫倫策和他的同事開發了一種這樣的模型,該模型部分透過衡量病毒與人類基因組部分的遺傳相似性來評估病毒6。病毒的進化壓力可能導致產生類似於宿主基因組的遺傳片段——要麼是為了逃避免疫系統,要麼是為了幫助複製。在對861種已知病毒的文庫進行測試時,該演算法可以以70%的準確率將它們分類為人畜共患病或非人畜共患病。
莫倫策後來加入了病毒出現研究倡議(Verena),這是一個尋求開發和改進人畜共患病預測模型的科學家聯盟。莫倫策與Verena的研究人員合作,將他的演算法與利用病毒感染哪些宿主的知識的技術相結合,包括推斷未知宿主-病毒關聯的方法。這種組合方法將效能提高了大約十個百分點7。未來,病毒在分子水平上如何與宿主相互作用的知識可以被納入其中。“這將完全是關於蛋白質和生物化學的,”Verena的主任卡爾森說。“這是這個領域的未來。”
一個重要的目標是瞭解哪些模型效果良好,以及原因。有些模型只是根據資料中的模式進行分類,有些模型則推斷這些模式的原因,但很難區分它們。“現在的問題是:我們只是在教機器重複它們已經知道的東西,還是它們正在學習適用於新空間的原則?”卡爾森說。
為了取得進展,驗證模型的過程將至關重要。例如,一些研究試圖預測哪些物種是人畜共患病毒的宿主,結果好壞參半,但幾乎沒有系統的比較,這使得很難知道哪些方法有效。為了解決這個問題,在2020年初,Verena的研究人員使用了對哪些蝙蝠物種可能攜帶β冠狀病毒的預測作為一個案例研究8。他們建立了八個統計模型,並使用它們生成了一份疑似宿主名單。在接下來的16個月裡,發現了47個新的蝙蝠宿主。當研究人員將這些宿主與他們的預測進行比較時,他們發現一半的模型表現明顯優於偶然情況。這些模型包括物種的壽命或體型等特徵。其他四個模型沒有考慮這些特徵,表現不佳。
資料發展
任何人工智慧(AI)演算法從根本上都受到其輸入資料的限制。“當演算法在大量高質量資料上進行訓練時,人工智慧才能發揮作用,”索耶說。“但每年只發生少量溢位事件,而且病毒資料往往是髒的,有很多資訊缺失。”大多數研究人員都認為,目前的資料不足。“我們沒有足夠的高質量資料來做好預測工作,”馬澤特說。
在某種程度上,建模依賴於科學家收集新的資料,但到目前為止,病毒發現工作的動機是風險最高的地方和情況等考慮因素。卡爾森說,建模人員真正需要的是旨在提高地理和分類覆蓋率的抽樣。為模型提供更多此類資料會改變可以提出的問題的範圍。“有了100萬個資料點,你可以展示森林砍伐如何增加蝙蝠的病毒流行率,”卡爾森說。“有了萬億個資料點,你就可以像天氣一樣預測溢位。”
要接近這個目標,就需要全球合作,以開放資料共享為常態,並制定每個人都遵守的資料標準。實現這一目標的障礙更多的是政治、文化和倫理方面的,而不是科學方面的。例如,圍繞出版物的學術激勵機制是快速資料共享的障礙。保證共享基因資料的國家從中受益也至關重要。“這是關鍵問題,解決這個問題需要建立信任,”奧利瓦爾說。“確保你給予回報,不僅是疫苗,還有培訓、能力建設和論文的共同署名。”
《名古屋議定書》是一項於2014年生效的國際條約,它確立了各國對自然資源(包括生物樣本)的主權,並允許它們要求以利益分享協議作為回報,以獲取此類樣本。然而,一些實驗室現在可以僅使用基因測序資料合成病原體或開始開發疫苗。“我們沒有在國際法中建立任何處理序列資料的東西,”卡爾森說。“《名古屋議定書》不是為那個世界制定的。”類似的問題可能有一天會適用於人畜共患病風險預測。“我們正在使用全球南方研究人員收集的資料,”卡爾森說。“關於獲取這些資料並開發一項技術意味著什麼,存在合理的問題。”
預測和準備
為了使建模產生現實世界的影響,它必須產生公開可用的工具,以提供可操作的、與當地相關的資訊。建模還需要更好地與實驗工作相結合,以探究病原體的特徵。正如模型可以標記候選病毒以供進一步研究一樣,這些研究也可能產生可用於驗證和改進模型的資訊。然而,跨學科交流目前受到限制。“這些社群彼此之間不怎麼交談,甚至不怎麼閱讀彼此的論文,”索耶說。
建模人員還需要清楚地傳達其工作中固有的不確定性,以及他們所說的預測的含義,這樣他們就不會過分誇大其好處。“沒有人說我們將準確預測下一次大流行發生的時間、地點和物種,”奧利瓦爾說。研究人員正在處理機率問題,意想不到的事情可能會發生,而且確實會發生。
即使在最佳狀態下,預測工具也無法完全阻止疫情爆發。“我絕對不認為我們應該將世界的安全寄託在這些模型上,”卡爾森說。但是,除了改進的全球監測系統、有針對性的疫苗開發和在全球範圍內建設醫療保健能力的努力之外,它們的價值是顯而易見的。“它們讓我們做兩件事:瞭解我們周圍發生的事情並確定優先事項,”卡爾森說。最終,這可能有助於降低大流行的頻率。“我們可以更好地預防其中一些大流行,”卡爾森說。“但這需要我們更好地做好我們正在做的事情。”
本文是Nature Outlook: Pandemic Preparedness的一部分,這是一份編輯上獨立的增刊,由第三方資助製作。關於此內容。
參考文獻
Carlson, C. J. et al. Phil. Trans. R. Soc. Lond. B 376, 20200358 (2021).
Anthony, S. J. et al. Virus Evol. 3, vex012 (2017).
Olival, K. et al. Nature 546, 646–650 (2017).
Carroll, D. et al. Science 359, 872–874 (2018).
Wille, M., Geoghegan, J. L. & Holmes, E. C. PLoS Biol. 19, e3001135 (2021).
Mollentze, N., Babayan, S. A. & Streicker, D. G. PLoS Biol. 19, e3001390 (2021).
Poisot, T. et al. Preprint at https://arxiv.org/abs/2105.14973 (2022).
Becker, D. J. Lancet Microbe 3, E625–E637 (2022).
