本文發表於《大眾科學》的前部落格網路,僅反映作者的觀點,不一定反映《大眾科學》的觀點
作為生物化學系統建模者,我的職業生涯中一直面臨著一個永恆的挑戰,那就是需要在準確性和可靠性之間取得平衡。這個悖論並不像看起來那麼奇怪。通常,當你構建一個模型時,你會包含許多近似值,目的是使建模過程更容易;理想情況下,你希望模型儘可能簡單,並且包含儘可能少的引數。但是這種策略並非總是奏效,因為有時你會發現,在追求簡化的過程中,你遺漏了一個關鍵因素。所以現在你包含了這個關鍵因素,卻發現模型中的不確定性急劇增加。在這種不幸的情況下,發生的事情是,在包含來自先前排除的因素的訊號的同時,你也必然包含大量的噪聲。這種噪聲通常可能來源於對該因素的不完全瞭解,無論是來自計算還是來自測量。因此,各種型別的建模者都必須在儘可能多地包含現實情況與使模型足夠準確以進行定量解釋和預測之間取得微妙的平衡。
似乎這正是氣候變化模型開始困擾的問題。《自然》雜誌最近一期發表了一篇非常有趣的文章,探討了氣候科學中使用模型的一個看似完全矛盾的特徵;隨著模型變得越來越現實,由於不確定性的增加,它們也變得越來越不準確和不可預測。我只能想象這對氣候建模者來說是一個非常痛苦的事實,他們似乎正面臨著他們領域中相當於海森堡不確定性原理的情況。現在是處理這些問題尤其令人擔憂的時期,因為建模者需要將他們的預測納入今年即將釋出的下一份 IPCC 氣候變化報告中。
更仔細地觀察這些模型就會發現,這種行為並不像聽起來那麼矛盾,儘管目前還不清楚如何解決這個問題。這篇文章尤其引起了我的共鳴,因為正如我之前提到的,類似的問題經常困擾著化學和生物學研究中使用的模型。就氣候變化而言,事實是早期的模型非常粗糙,沒有考慮到許多現在正在納入的細粒度因素(例如冰穿過雲層的速度)。原則上甚至在實踐中,存在著數量驚人的此類因素(部分地由頂部的圖片例證)。幸運的是,模型的粗糙性也阻止了與這些因素相關的不確定性被納入建模中。不確定性仍然隱藏著。現在,隨著更多現實世界的因素被納入,這些因素中固有的不確定性顯現出來並被新增到模型中。因此,你面臨著一個具有諷刺意味的權衡;當你的模型努力更好地反映現實世界時,它們也變得更加不確定。這就像在流沙中游泳;你越努力掙脫出來,就陷得越深。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
這種困境在計算化學和生物學領域並非聞所未聞。例如,我們目前用於預測蛋白質-藥物相互作用的許多模型都非常簡單,但仍然足夠準確以至於有用。幾個原因解釋了這種出乎意料的準確性;其中包括誤差抵消(費米原理)、訓練集與測試集的相似性,有時僅僅是運氣。訓練集和測試集的相似性尤其意味著你的模型在解釋方面可能相當出色,但在預測甚至稍微不同的系統時可能會崩潰。此外,誤差分析不幸地不是大多數這些研究的優先事項,因為重點是發表正確的結果。除非這種文化改變,否則我們實現準確預測的道路將異常緩慢。
這裡有一個來自我自身領域的例子,說明“更多可能會更糟”。在過去的幾個月中,我一直在使用一個非常簡單的模型來嘗試預測類藥物分子穿過細胞膜的擴散。這是藥物開發中的一個重要問題,因為即使你最出色的試管候選藥物,在進入細胞之前也將毫無價值。細胞膜是疏水的(憎水的),而周圍的水是親水的(喜水的)。潛在藥物從周圍的水轉移到膜中的容易程度取決於其溶劑化能等因素,即藥物能夠多容易地擺脫水分子;溶劑化能越小,藥物就越容易穿過。
我使用的模型中的基本假設之一是分子在水和膜中都只存在一種構象。分子的構象就像人類的瑜伽姿勢;具有許多可旋轉鍵的典型有機分子通常具有數千種可能的構象。單一構象的假設從根本上是錯誤的,因為在現實中,分子是高度靈活的生物,它們在水和細胞膜內部的幾種構象之間相互轉化。為了克服這種假設,一篇最近的論文明確計算了分子在水中的構象,並將這一因素納入擴散預測中。這當然更現實。令作者驚訝的是,他們發現使計算更現實反而使預測變得更糟。雖然造成這種失敗的確切因素組合可能很難理清,但可能發生的情況是,更現實的因素也帶來了更多的噪聲和不確定性。這種不確定性會累積,以前可能抵消的誤差不再抵消,整個預測變得更加模糊和不太有用。
我認為這部分是氣候模型中正在發生的事情。在模型中包含更多現實生活中的因素並不意味著所有這些因素都得到很好的理解或精確的測量。你不可避免地引入了一些已知的未知因素。理解不足的因素會引入更多的不確定性。理解良好的因素會引入較少的不確定性。最終,模型的準確性將取決於這兩種因素之間的相互作用,而目前看來,新因素的納入速度高於準確計算或測量這些因素的速度。
文章接著指出,儘管存在這種日益增長的不確定性,但氣候模型的基本預測在總體上是一致的。然而,文章也承認難以向公眾解釋日益增長的不確定性,自 2007 年(上次 IPCC 報告發布時)以來,公眾對氣候變化的懷疑態度有所增加。作為一名化學建模者,我可以同情氣候建模者。
但是,從這種困境中吸取的教訓是,粗糙的模型有時比更現實的模型效果更好。我最喜歡的關於模型的名言來自統計學家喬治·博克斯,他說“所有模型都是錯誤的,但有些模型是有用的”。努力使模型更現實是一項值得稱讚的事業,但使其有用更為重要。
注:作為一個順便的想法,值得指出的是,一些常見問題可能會嚴重限制任何型別模型的用途,無論是用於預測股票市場、全球氣候還是藥物、蛋白質和基因的行為
1. 過擬合:你使模型非常完美地擬合現有資料,以至於模型成為自身成功的受害者。它在解釋已知事物方面非常出色,但它過度依賴於每個資料點,以至於略微不同的資料分佈完全壓倒了其預測能力。
2. 異常值:另一方面,如果你只擬合少量資料點而忽略異常值,那麼當面對“富含”異常值的資料集時,你的模型再次面臨失敗的風險。
3. 普遍性與特殊性:如果你構建一個預測平均行為的模型,那麼它可能在預測特定情況下會發生什麼時幾乎沒有用處。如果你願意,可以稱之為統計學本身的禍根,但這確實使預測變得更加困難。
4. 近似值:這可能是每個模型固有的一個侷限性,因為每個模型都基於近似值,沒有這些近似值,模型就會過於複雜而無法使用。訣竅在於知道應該採用哪些近似值,應該忽略哪些近似值,並進行足夠的測試以確保忽略的近似值仍然允許模型解釋大部分資料。近似值也常常是由權宜之計決定的,因為即使模型在理論上可以包含每個引數,但在計算機時間或成本方面也可能變得過高。有很多充分的理由進行近似,只要你始終記住你已經這樣做了。
這是對The Curious Wavefunction部落格上一篇帖子的更新和修訂版本。