儘管出現至今還不到三年,但引發 COVID 的病毒 SARS-CoV-2 可能是歷史上研究最多且基因測序最多的病原體。世界各地的疾病監測團隊已將數百萬個病毒序列上傳到公共資料庫,研究人員可以透過這些資料庫追蹤病毒的傳播方式。
一項新的計算模型挖掘了前所未有的大量資料——超過 640 萬個 SARS-CoV-2 序列——以尋找有助於新病毒株在世界各地傳播的突變模式。該模型名為 PyR0,分析了不同病毒譜系在 2019 年 12 月至 2022 年 1 月期間的出現和傳播方式。根據這些資料,它學會了如何識別突變的組合以及諸如 Delta 或 Omicron 等變異株成為優勢株所需的時間。研究人員在 5 月份的《科學》雜誌上描述了該模型,它可以讓公共衛生專案提前瞭解哪些譜系可能具有危險性,並讓官員們提前計劃。
PyR0 使用了截至 2021 年 12 月中旬的資料,正確預測了 奧密克戎 BA.2 亞變異株(當時在世界大部分地區都很罕見)將很快迅速傳播。到 2022 年 3 月,BA.2 已成為全球主要毒株。如果該模型在 2020 年 11 月執行,它也會正確預測 Alpha 變異株將很快成為優勢株:世界衛生組織直到當年 12 月才將 Alpha 確定為需要關注的變異株。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將幫助確保有關當今世界重大發現和思想的有影響力的報道能夠持續下去。
大多數 COVID 疫苗都以病毒的刺突蛋白為靶點,病毒利用刺突蛋白進入細胞。這種蛋白質的突變似乎使某些變異株能夠逃避人體對疫苗接種或先前感染產生的免疫反應。PyR0 模型發現,僅僅擁有大量刺突蛋白突變並不一定使毒株在進化上更具適應性。但 2021 年末的一些特定刺突突變幫助奧密克戎亞變異株 BA.1 和 BA.2 逃避了免疫系統。
PyR0 還發現,BA.2 基因組中一組影響病毒複製的非刺突突變可能促成了其快速傳播。研究人員表示,該模型快速分析整個基因組的能力可能有助於科學家瞭解病毒基因組的哪些區域需要研究,以便開發未來的療法。
《大眾科學》採訪了研究合著者雅各布·萊米厄,他是馬薩諸塞州理工學院博德研究所和哈佛大學的傳染病研究員,也是波士頓馬薩諸塞州總醫院的醫生,探討了從大型資料集中“學習”的演算法如何預測疫情的未來。
[以下是採訪的編輯稿。]
PyR0 能告訴我們關於下一個主要變異株的什麼資訊?
我們不一定能說出接下來會發生什麼突變。我們能說的是,就頻率而言,哪些譜系最有可能增加。
換句話說,如果一輛汽車以每小時 70 英里的速度行駛,而另一輛汽車以每小時 35 英里的速度行駛,我們可以預測在一定時間內,每小時 70 英里的汽車將會趕上並超過另一輛汽車。但這些預測只在不久的將來有效,因為疫情的運作方式是,突然之間,一輛每小時 210 英里的汽車橫空出世,徹底改變了動態。
令人驚訝的是,這種情況一次又一次地發生。首先是 D614G 變異株,然後是 Alpha,然後是 Delta,然後是 Omicron;現在是 Omicron BA.2 及其近親 BA.4 和 BA.5。因此,這種動態似乎是疫情的一個普遍特徵。
但是,讓汽車跑得快的東西——賦予這種適應性優勢的特性——似乎隨著時間的推移而發生了變化。Omicron 尤其似乎具有很強的免疫逃逸能力,特別是透過逃避人體抗體反應。這種特性對病毒來說變得越來越重要,這是有道理的,因為很多人要麼感染過 COVID,要麼接種過疫苗,或者兩者都接種過。
似乎這種不斷增強的免疫逃逸一直在整個疫情期間醞釀,現在它已經真正達到了充分體現。這不是第一項表明這一點的研究,但它系統地證明了這一點。而且,這種免疫逃逸很可能將繼續成為譜系增長的一部分。在本研究的背景下,我們無法預測未來會產生哪些突變並賦予額外的免疫逃逸能力。
您的模型如何幫助預測和追蹤新的變異株?
我們正在建模的是不同譜系中不同突變組合如何影響病毒變異株在人群中的增長率。[編者注:譜系是具有共同祖先的一組變異株。] 因為每個新的譜系都有一系列突變——其中一些我們以前在其他譜系中見過——我們可以開始問“哪些突變正在驅動這種情況?”這個問題。
我們正在世界各地的許多不同地區對這個問題進行建模,然後基本上將資訊彙總到一個模型中。我們能夠做到這一點的原因是,來自世界各地的人們都在對病毒進行測序,並且他們正在用採集的日期和地區標記序列。因此,我們知道,在不同的地區,哪些譜系的頻率相對於其他譜系正在增加。這些資訊非常寶貴——沒有這種資訊,我們將無法建立我們的模型。
實際實施該模型並將其擬合到資料是一個真正的計算挑戰。主要研究作者弗裡茨·奧伯邁耶來自 Uber AI,Uber AI 的研究人員開發了一種程式語言和一個軟體框架,該框架使用機器學習來對機率進行建模並將其應用於大型資料集。能夠將這些方法應用於我們以前從未有過的規模的資料,真是太棒了。
我們正在努力改進模型,並且我們有一個新版本。我們實際上認為成功的譜系是由少數突變驅動的,而其他突變只是順便搭車。一個相關的挑戰是試圖研究突變之間的遺傳或統計相互作用。也許突變 1 使病毒更具適應性;也許突變 2 使其更具適應性。但也許 1 和 2 的組合實際上使其適應性降低。這些型別的相互作用真的很難處理,因為它們的數量增長得太快了。
這個模型如何幫助我們規劃應對疫情的措施?
我們正在學習的一件事是,新出現病毒的基因組測序是疫情應對的一部分。例如,我們看到目前正在爆發的猴痘疫情進行了大量基因組測序。
資料太多了,我們不能讓人類僅僅篩選所有資料。我們需要系統的、統計的機器學習程式來輔助人類檢測新的變異株。作為一種疾病監測支援工具,這種方法可能非常有用。我們正在嘗試自動化該模型,以便我們可以定期執行它,看看我們是否可以標記出我們應該擔心的事情。
我們發現,透過對突變而不是僅僅對譜系進行建模,該模型更智慧,並且學習速度更快。您瞭解譜系屬性的速度越快,您就越瞭解應該有多擔心。
我不認為這個模型可以取代完善的疾病監測計劃——例如政府和國際組織執行的計劃。它是一種支援工具,可供此類計劃系統地篩選和排列正在上升的譜系。我認為,隨著流感和其他病毒的資料積累,這種方法在未來將是可行的。
