在 COVID-19 模型中突出未知因素

在高度不確定時期,我們應該超越資料

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映作者的觀點,不一定代表《大眾科學》的觀點


隨著美國在 COVID-19 病例和增長率方面位居榜首,媒體中普遍存在後悔的情緒。未能及時採取更嚴格的疏遠措施讓許多領導人和公民感到不安。作為一名不確定性視覺化研究人員,我擔心我們對 COVID-19 的反應會帶來另一種遺憾。

許多視覺化圖表,包括廣為傳播的“拉平曲線”圖表的各種變體,都代表了模型產生的估計值。這些模型模擬了在不同條件下會被感染、需要住院或死亡的人數。“拉平曲線”改編了 CDC 在 2007 年首次提出的視覺化圖表,以比較在不同程度和持續時間的社交疏離下的估計值。作者添加了一條虛線,表示他對該國可用病床數量的估計。

人們很容易將模擬產生的病例和死亡預測視為基於我們所知資訊的完整描述。一方面,這些模型吸收了多種來源的可用資料:關於 COVID-19 病例、死亡和住院率;關於 COVID-19 在世界其他地區不同條件下傳播的速度;以及關於相關病毒過去如何傳播,僅舉幾例。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今世界正在形成的發現和想法的有影響力的故事的未來。


模型結果非常強大,因為我們可以從中計算風險。例如,在疏遠措施下,我們的死亡率達到義大利那樣 10% 的可能性有多大?病毒在兩到三週內達到峰值的可能性有多大?透過量化未知因素,風險評估可以清楚地表明,將會發生的事情並非完全確定,但它仍然可以使我們能夠做出決策並權衡利弊。

作為一名不確定性推理專家,我擔心的是一種更困難的不確定性:即由 COVID-19 資料和模型背後的許多未知因素引起的不確定性。我們無法輕易量化這種不確定性,而且它很容易被忽視,因為它沒有透過模型估計值來傳達。

一種無法量化的不確定性源於我們對輸入到這些模型中的資料的準確性估計能力有限。關於 COVID-19 病例數的可用資料可能不可靠,這是因為不同地點的檢測規模差異很大,加上單個地點的檢測應用方式不一致。這導致病例數比較是蘋果與橙子的比較。一個地方的病例數較多,甚至人均病例率較高,並不一定意味著風險較高。更可能的是,這意味著醫療服務提供者在該地點進行更廣泛的檢測。在我們實施更全面、非選擇性的檢測之前,我們無法準確量化這些資料的偏倚風險。

關於 COVID-19 死亡的資料可能更可靠,但可能仍然遠非完美。例如,可能很難追蹤老年人的死亡是 COVID-19 還是其他先前存在的疾病造成的。社群決策者也可能會為了避免傳播恐慌或損害當地經濟而選擇低報死亡人數。

第二種無法量化的不確定性源於這樣一個事實,即模型通常是對現實情況的粗略簡化。許多用於預測我們在 COVID-19 下未來的模型都做出了強有力的假設,而這些假設似乎與我們在現實中期望的情況相矛盾。模型在其對疾病傳播背後機制的假設方面有所不同。一些方法側重於將曲線擬合到可用資料,而不是假設考慮諸如潛伏期和感染後免疫等現實情況的機制。

其他模型考慮了這些動態,但對人們在危機面前行為的可預測性做出了強有力的假設。有時被稱為模糊性,像模型作為現實的替代品這種無法量化的不精確性等非數值不確定性意味著我們的預測可能存在偏差,偏差大小取決於模型假設的缺陷程度。“所有模型都是錯誤的,但有些模型是有用的

”統計學家喬治·博克斯說,提醒我們理解模型作為思考工具和期望模型成為預言之間的緊張關係。不幸的是,對模型假設的仔細批判,就像其他坦率地呈現不確定性的方式, 一樣,很少出現在用於呈現結果的面向公眾的文章或視覺化圖中。

模型的預測似乎很全面,因此特別容易忽略模型所做的假設的強度。模型通常會產生一組預測結果,而不是像計數這樣的單個數字。“拉平曲線”,例如,顯示了兩個區域,表示一段時間內的病例數:如果我們採取保護措施,以及如果我們不採取保護措施。在第一個確診病例後,每天都會顯示預測的感染人數。

即使沒有顯示與模型預測相關的可量化不確定性——在這種情況下,我們看不到在模型假設下,每天預測的病例數可能採用的其他值——像“拉平曲線”這樣的視覺化圖表可以透過它們產生的一系列預測來暗示完整性。對於許多人來說,看到在一段時間或空間內可能性的分佈的圖形表示似乎是科學謹慎的縮影。然而,在看似精確的視覺效果背後,存在許多近似值。

不確定性的存在是否意味著許多州正在實施的極端社交疏遠措施是反應過度?不一定。在缺乏良好的風險評估的情況下,防範最壞情況的結果是理性的。在我們獲得更好的資料之前,這是我們能做的最好的事情。

危險的是,如果我們未能認識到,現在基於有限資訊和強假設做出的模型預測,與隨著病毒蔓延而逐漸出現的更可靠的資料之間的區別。如果早期的模型預測最終高估了 COVID-19 的死亡人數或對我們醫療系統的風險,或者大大低估了它,那麼許多人可能會責怪科學家犯了錯誤。他們將來可能會更不信任資料驅動的估計。

清晰地呈現不確定性可能會使模型估計值顯得不那麼令人放心,但可以防止人們在模型出錯時責怪預測者或科學事業本身,這是我們應該預料到的。為了在短期內感覺更安心而犧牲公眾對科學的信任是不值得的,無論我們多麼想消除不確定性。  

© .