大規模谷歌資助的 COVID 資料庫將追蹤變異和免疫

開放儲存庫將免費提供超過 1.6 億個資料點,其中包含關於個體感染的詳細資訊

A nurse checks the temperature of a woman at the airport.

2020 年 7 月 3 日,在哈瓦那何塞·馬蒂國際機場,一名護士在 COVID-19 大流行期間為一名婦女檢查體溫。

今天啟動的一個龐大的國際資料庫將幫助流行病學家解答有關 SARS-CoV-2 冠狀病毒的迫切問題,例如新變異在人群中傳播的速度、疫苗是否能預防這些變異以及對 COVID-19 的免疫力能持續多久。

與約翰·霍普金斯大學在馬里蘭州巴爾的摩市維護的 全球 COVID-19 儀表板 以及其他流行的追蹤器(列出 COVID-19 感染和死亡總數)不同,名為 Global.health 的資料科學倡議的新儲存庫在一個地方收集了關於個體病例的前所未有的匿名資訊。對於每個人,資料庫包含多達 40 個相關變數,例如他們首次出現 COVID-19 症狀的日期、他們收到陽性檢測結果的日期以及他們的旅行史。

約翰·霍普金斯大學的流行病學家 Caitlin Rivers 是該專案的一部分,她說,像這樣的個體層面資料為流行病學家提供了確定疾病如何傳播的線索。“當我們瞭解疫情的嚴重性時,往往為時已晚,”她說。“資料可以閉環,使過程更快。”

研究人員希望該資料庫將幫助他們在未來幾個月監測冠狀病毒變異和疫苗,併為未來流行病中即時資料追蹤提供模板。

該儲存庫由美國和歐洲 7 所學術機構的 21 位研究人員建立,並獲得了谷歌和洛克菲勒基金會的技術和資金支援。到目前為止,該團隊已收集了來自約 150 個國家/地區的 2400 萬個病例的資訊。

Rivers 補充說,像這樣的資料庫在 SARS-CoV-2 爆發早期會很有用。流行病學家可能已經能夠證實,即使在世界衛生組織去年 1 月 23 日確認之前,冠狀病毒在中國也經常在人與人之間傳播——這可能有助於更快地遏制疫情。

幾位科學家表示,一個全面的、國際化的、公開可用的儲存庫的出現將為多個領域的研究提供動力。“這真的很好,而且需要做,”路易斯安那州新奧爾良杜蘭大學的病毒學家 Robert Garry 說。“因為太難做了,所以沒有類似的東西存在。”

集體努力

每當疫情爆發時,流行病學家都會從報紙文章和衛生機構收集和整理資訊片段到自制的電子表格中。關於一個人的症狀、年齡、他們可能如何被感染等等的詳細資訊,可以幫助研究人員確定疾病的原因、傳染性和死亡率。

到 2020 年 1 月中旬,流行病學家正在對 SARS-CoV-2 做這件事——但尚未就他們的發現達成共識。 東北大學波士頓分校新興流行病實驗室主任、流行病學家 Sam Scarpino 發推文說證據 並未證實持續的人際傳播。 他記得 Rivers 在一條私信中回覆他:“她說,‘夥計,我認為你錯了。’”

資料仍然模糊不清。但牛津大學的另一位流行病學家 Moritz Kraemer 建立並與社群分享了他自己的 Google 電子表格。 Scarpino 分析了這些數字, 並承認  Rivers 是對的。

很快,數十位流行病學家開始將來自世界各地病例的資訊新增到該電子表格中。與此同時,他們和其他人正在 分析 。 例如,倫敦衛生與熱帶醫學院的流行病學家 Adam Kucharski 和他的同事使用這些資料來估計,根據部分出國旅行並確診感染的人數,1 月份中國武漢出現 COVID-19 症狀的人數約為衛生官員確認人數的十倍。

在超過約 100,000 個病例後,原始電子表格過載。 4 月,該團隊獲得了谷歌和這家矽谷公司的慈善機構 Google.org 的工程師和產品開發人員的幫助。 他們一起編寫了計算機程式碼,可以自動從大約 60 個政府以標準化格式上傳每日冠狀病毒資料,這些程式碼可以刪除重複條目,並使用演算法將來自世界各地的資訊合併到單個基於雲的儲存庫中。

優先考慮隱私

任何人都可以註冊訪問最新版本 Global.health 資料庫上多達 8 GB 的匿名資料。 Scarpino 說,在收集的 2400 萬個病例中,一半病例的資料包含十幾個變數,約 10% 的病例資料更多。 目前,該網站的資料視覺化僅限於顯示團隊收集的資料的地圖。 Scarpino 指出,資訊圖表並非重點,因為他們優先考慮標準化資料收集和解決隱私問題,以便世界各地的人們可以向資料庫新增資料。 該專案的架構師諮詢了法律和倫理專家,瞭解如何安全地處理和共享有關個人的匿名資料,他說,這些資料通常受到政府機構、大學和醫院的嚴密保護。

瑞士伯爾尼大學的流行病學家 Julien Riou 期待探索該資料庫。 到目前為止,他的大部分 COVID-19 工作都基於來自瑞士佇列的資料,但他表示,一個深入的國際資料集可以為基本問題提供更好的答案,例如世界各國真實的感染率。“更多的資料意味著我們可以更接近真相,”他說。 其他研究人員也同意,並補充說,關於一個人的疫苗接種狀況或他們是否感染了冠狀病毒變異的資訊可能有助於在未來幾個月回答有關免疫力的緊迫科學問題。

Kucharski 歡迎為該專案提供資金。“許多資料庫都是眾包的,但如果你只依賴志願者,通常是不可持續的,”他說。

Scarpino 希望最終將 COVID-19 資料庫擴充套件到一個適應性平臺,以調查其他疾病——尤其是下一次突發流行病。 但他說,這樣做需要一家公司、非營利組織或其他場所來推進該專案——這是他從以前使用過的軟體中學到的教訓,該軟體最初追蹤敘利亞的健康資料,但在出售給一家資料公司後,現在已在十多個國家/地區使用。 他說,“這不能曇花一現。”

本文經許可轉載,並於 2021 年 2 月 24 日首次釋出

© .