科學家利用軟體成功建模活細胞

透過建立首個完整單細胞生物體的計算機模型,生物學家們正在打造一種強大的新型工具,以闡明生命是如何運作的

關鍵的頓悟發生在我悠閒地騎腳踏車下班回家的路上。那是2008年的情人節。當我沿路巡航時,我的思緒一直在思考一個困擾我和我所在領域其他人十多年的問題。是否有可能在軟體中模擬生命——包括所有奇妙、神秘且令人惱火的複雜生物化學,使其能夠運作?

一個可用的活細胞計算機模型,即使它有些粗略且不太準確,也將是一個非常有用的工具。研究生物學家可以在實驗室實際進行實驗之前,先嚐試實驗的想法,從而節省時間和金錢。例如,藥物開發人員可以透過鎖定最能破壞細菌的分子來加速尋找新型抗生素。像我這樣的生物工程師可以移植和重組虛擬微生物的基因,以設計具有特殊性狀的改良菌株——例如,在感染特定病毒時發出熒光的能力,或者可能從石油中提取氫氣的能力——而無需改變真實微生物所涉及的風險。最終,如果我們能夠學會製造足夠複雜的模型來模擬人類細胞,這些工具可以透過為研究人員提供一種進行目前不切實際的研究的方法來改變醫學研究,因為許多型別的人類細胞無法培養。

但是,如果沒有一種實用的方法來解開使活細胞運轉的相互關聯的化學反應和物理連線網路,這一切似乎都是白日夢。我和斯坦福大學實驗室以及其他人的許多先前嘗試都遇到了障礙;有些甚至徹底失敗了。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。


但是,當我在那個冬日傍晚慢慢騎車穿過校園時,我想到了我最近一直在做的記錄單個活細胞影像和影片的工作。就在那時,我靈光一閃——一種製作逼真、功能性模擬器的方法:選擇最簡單的單細胞微生物之一,一種叫做生殖支原體 (Mycoplasma genitalium) 的細菌,並構建單個細菌的模型。將模擬限制為僅一個細胞將大大簡化問題,原則上,我們可以包含已知發生在該細胞中的所有生物學知識——其扭曲的 DNA 梯子的每一階梯的解旋,DNA 中每條資訊轉錄成 RNA 副本,由這些 RNA 指令製成的每種酶和其他蛋白質的製造,以及所有這些參與者和許多其他參與者之間的相互作用,所有這些都構建起來,使細胞生長並最終分裂成兩個“子細胞”。該模擬將幾乎從第一原理生成單細胞生命的整個過程。

先前的嘗試總是試圖模擬整個細胞群落,因為我們擁有的關於細胞行為的幾乎所有資料都是這樣收集的:來自種群,而不是個體。然而,生物技術和計算領域的進步已經開始使單細胞研究變得容易得多。現在,我意識到,手頭已經有了嘗試不同方法的工具。

各種想法在我腦海中盤旋。我一到家,就開始勾勒模擬器的計劃。第二天早上,我開始為生活微生物中發生的許多不同過程中的幾個編寫軟體程式碼。一週之內,我已經完成了幾個原型模組,每個模組都是特定細胞過程的軟體表示。這些模組產生的輸出看起來相當逼真。

我向少數其他生物學家展示了這項工作。他們中的大多數人認為我瘋了。但我感覺我有所發現,兩位傑出而大膽的博士生喬納森·R·卡爾 (Jonathan R. Karr) 和賈約迪塔·C·桑維 (Jayodita C. Sanghvi) 在這種方法中看到了足夠的潛力,他們同意與我一起參與這個專案。

完成這個模型意味著建立數十個這樣的模組,梳理近 1,000 篇科學文章以獲取生化資料,然後使用這些值來約束和調整數千個引數,例如酶與其目標分子的結合程度以及讀取 DNA 的蛋白質相互碰撞雙螺旋的頻率。我懷疑,即使有合作者和研究生的勤奮幫助,該專案也需要數年時間——但我也預感到,最終它會奏效。除了嘗試之外,沒有辦法確定。

[分隔符]

一項宏偉的挑戰
當我們將目光投向攀登這座高峰時,我們從最早夢想模擬生命的研究人員那裡獲得了靈感。1984 年,時任耶魯大學的哈羅德·莫羅維茨 (Harold Morowitz) 概述了總體路線。他當時觀察到,生物學家能夠培養的最簡單的細菌,支原體,是一個合乎邏輯的起點。除了非常小且相對簡單之外,兩種支原體還會引起人類疾病:性傳播的寄生性細菌生殖支原體 (M. genitalium),它在陰道和尿道中繁殖,以及肺炎支原體 (M. pneumoniae),它會導致行走性肺炎。任何一種物種的模型都可能在醫學上非常有用,並且可以深入瞭解基礎生物學。

莫羅維茨提出,第一步應該是對選定微生物的基因組進行測序。J·克雷格·文特爾 (J. Craig Venter) 和他在基因組研究所 (TIGR) 的同事於 1995 年完成了生殖支原體 (M. genitalium) 的這項任務;它只有 525 個基因。(相比之下,人類細胞有 20,000 多個。)

四年後,當我在聖地亞哥讀研究生時,TIGR 團隊得出結論,只有大約 400 個基因對於維持生命是必不可少的(只要微生物在豐富的培養基中生長)。文特爾和他的同事繼續創立了塞雷拉公司 (Celera),並與聯邦政府競爭對人類基因組進行測序。他們合成了支原體 (Mycoplasma) 物種的必需基因,並證明它們在細胞中發揮作用。

對於 20 世紀 90 年代末的我和其他年輕生物學家來說,這個團隊就像齊柏林飛艇樂隊 (Led Zeppelin):不落俗套、個性張揚,演奏著我們從未聽過的音樂。文特爾樂隊的生物學家之一克萊德·哈欽森 (Clyde Hutchinson) 表示,我們對簡單細胞理解的最終考驗將是有人在計算機中建模一個細胞。您可以在實驗室中透過組合各個部分來構建功能性細胞,而無需瞭解它們如何組合在一起的每個細節。軟體並非如此。

莫羅維茨也呼籲基於支原體 (Mycoplasma) 的基因組資料構建細胞模擬器。他認為,“可以在實驗室中進行的每項實驗也可以在計算機上進行。這些[實驗和模擬結果]的匹配程度衡量了分子生物學正規化的完整性”——我們關於細胞中的 DNA 和其他生物分子如何相互作用以產生我們所知的生命的有效理論。換句話說,當我們把拼圖拼在一起時,我們的理論遺漏了哪些部分以及哪些相互作用就變得更加明顯。

儘管高通量測序儀和機器人實驗室裝置大大加快了尋找缺失部分的步伐,但它們產生的 DNA 序列和基因活動模式的洪流並沒有解釋所有部分如何組合在一起。先驅遺傳學家悉尼·布倫納 (Sydney Brenner) 將此類工作稱為“低投入、高通量、無產出”生物學,因為實驗往往不是由假設驅動的,並且對使生命發揮作用或發生故障的更大系統產生的見解令人失望地少之又少。

這種情況部分解釋了為什麼,儘管頭條新聞經常宣稱發現了與癌症、肥胖症或糖尿病相關的新基因,但這些疾病的治療方法仍然令人沮喪地難以捉摸。似乎只有當我們解開數十甚至數百個有時以違反直覺的方式相互作用以導致這些疾病的因素時,治療方法才會出現。

細胞建模的先驅們明白,包含所有細胞成分及其相互作用網路的整個細胞模擬將成為理解此類雜亂、零碎資料的強大工具。就其本質而言,整個細胞模擬器會將關於細胞內部發生的情況的一整套假設提煉成嚴格的數學演算法。在期刊文章中經常看到的卡通式草圖,顯示因子 X 以某種方式調節基因 Y……對於軟體來說,遠不夠精確。程式設計師將這些過程表示為方程式——一個更簡單的例子是 Y = aX + b——即使他們必須對諸如 a 和 b 等變數的值進行有根據的猜測。這種對精確性的要求最終揭示了必須進行哪些實驗室實驗來填補對反應速率和其他數量的知識空白。

與此同時,很明顯,一旦模型被驗證為準確,它們將取代某些實驗,從而節省昂貴的“溼”實驗工作,以解決僅靠模擬無法回答的問題。模擬實驗產生令人驚訝的結果將有助於研究人員確定研究的優先順序並加快科學發現的步伐。事實上,模型為解開因果關係提供瞭如此誘人的工具,以至於 2001 年,日本慶應大學的富田勝 (Masaru Tomita) 稱整個細胞模擬為“21 世紀的宏偉挑戰”。

當我還是一名研究生時,當時領先的細胞建模者的早期成果給我留下了深刻的印象 [見方框],我開始痴迷於這項宏偉的挑戰。即使當我建立了自己的實驗室並專注於開發單細胞成像技術時,這項挑戰仍然縈繞在我的腦海中。然後,在那次二月的腳踏車回家路上,我看到了應對它的方法。

兩個關鍵的見解
很明顯,在我們能夠準確模擬微生物物種的生命週期,以模擬其複雜的行為並在生物學上取得新發現之前,我們必須解決三個問題。首先,我們需要將所有重要的功能——從能量、營養物質和反應產物在細胞中的流動(即其新陳代謝),到 DNA、RNA 和蛋白質的合成和衰變,再到無數酶的活性——編碼為數學公式和軟體演算法。其次,我們必須提出一個總體框架來整合所有這些功能。最終的問題在許多方面是最困難的:為模型中 1,700 多個引數中的每一個設定上限和下限,以便它們取生物學上準確的值——或至少在正確的範圍內。

我明白,無論我們多麼詳盡地審查關於生殖支原體 (M. genitalium) 及其近親的文獻以獲取這些引數(卡爾、桑維和我最終花費了兩年時間從大約 900 篇論文中收集資料),我們都必須在某些情況下透過進行有根據的猜測或使用來自非常不同種類的細菌(例如大腸桿菌 (Escherichia coli))的實驗結果來獲得某些數字,例如 RNA 轉錄本在細胞中平均停留多長時間,然後酶將其撕裂以回收其碎片。如果沒有一種約束和檢查這些猜測的方法,我們就沒有成功的希望。

在 2008 年的頓悟時刻,我意識到模擬單個細胞——而不是像幾乎所有先前的研究那樣模擬一群細胞——可以為我們提供我們需要的約束。考慮生長和繁殖。大量的細胞群落會逐漸增長;單個細胞的出生或死亡不會改變太多。但對於單個細胞來說,分裂是一個非常戲劇性的事件。在它分裂成兩個之前,生物體必須使其質量增加一倍——而不僅僅是其總體質量。生存所需的 DNA、細胞膜和每種蛋白質的量都必須增加一倍。如果模型的範圍僅限於單個細胞,計算機實際上可以計數和跟蹤整個生命週期中每個分子的數量。它可以檢查當一個細胞變成兩個細胞時,所有數字是否平衡。

此外,單個細胞基本上以設定的速度繁殖。例如,生殖支原體 (M. genitalium) 通常在正常的實驗室環境中每 9 到 10 小時分裂一次。它很少少於 6 小時或多於 15 小時。細胞必須在這個嚴格的時間表上覆制其所有內容的要求將使我們能夠為許多變數選擇合理的範圍,否則這些變數將是不確定的,例如那些控制 DNA 複製何時開始的變數。

我組建了一個由物理學家、生物學家、建模師甚至一位前谷歌軟體工程師組成的團隊,我們討論了使用哪些數學方法。康奈爾大學的生物醫學工程師邁克爾·舒勒 (Michael Shuler) 是細胞模擬領域的先驅,他使用常微分方程構建了令人印象深刻的模型。我在聖地亞哥學習的伯恩哈德·帕爾森 (Bernhard Palsson) 開發了一種強大的技術,稱為通量平衡分析,該技術在模擬新陳代謝方面效果良好。但其他人已經表明,隨機機會是基因轉錄中的一個重要因素,而細胞分裂顯然涉及細胞膜幾何形狀的變化;這些其他方法無法解決這些方面。即使作為一名研究生,我也意識到沒有一種技術可以模擬細胞的所有功能;事實上,我的論文已經證明了一種將兩種不同的數學方法連結到一個模擬器中的方法。

因此,我們決定將整個細胞模型建立為 28 個不同模組的集合,每個模組都使用最適合生物過程和我們對其瞭解程度的演算法 [見方框]。然而,這種策略導致了數學程式的拼湊集合。我們需要以某種方式將它們縫合在一起,形成一個有凝聚力的整體。

我想起了我本科時上過的一門化學工廠設計課程。在最後的課程專案中,我們使用了一個名為 HYSYS 的強大模擬器軟體包來勾勒出一個大型煉油廠。HYSYS 讓我們將每個主要反應設計為在單獨的容器中發生。然後,管道將一個容器的輸出連線到其他容器的輸入。這個框架將許多不同種類的化學操作連線成一個有序、可預測的系統。

我突然想到,如果我願意做一個重要的簡化假設:即使所有這些生物過程同時發生在活細胞中,它們的作用在不到一秒的時間內實際上是獨立的,那麼這種方法(經過一些修改)可能適用於我們的細胞模擬器。如果這個假設是合理的,我們可以將細胞的生命週期劃分為一秒的時鐘滴答,並按順序執行 28 個模組中的每一個,持續一個滴答,然後再更新細胞變數池。該模型將捕捉生物化學的所有相互關聯性——例如,基因轉錄和 DNA 合成對新陳代謝產生的能量和核苷酸的依賴性——但僅在大於一秒的時間尺度上。

我們沒有理論證明這會奏效。這是一個信仰的飛躍。

在構建我們的虛擬細胞時,我們在軟體中安裝了感測器來測量細胞內部發生的情況。模擬器的每次執行,涵蓋單個細胞的整個生命週期,都會產生 500 兆位元組的資料。數值輸出流入一種儀表板——一系列數十張圖表和視覺化效果,打印出來後,完全填滿了一個活頁夾。

最初的結果令人沮喪。幾個月來,當我們除錯程式碼、改進數學模型併為引數新增更多更好的實驗室衍生約束時,細胞拒絕分裂或行為異常。有一段時間,它產生大量的氨基酸丙氨酸,而幾乎沒有其他物質。

然後,有一天,我們的控制論細菌達到了其細胞週期的末尾併成功分裂。更令人興奮的是,倍增時間約為 9 小時,就像活著的生殖支原體 (M. genitalium) 一樣。許多其他讀數仍然相差甚遠,但那時我們感覺成功指日可待。

幾個月後,我在馬里蘭州貝塞斯達參加為期兩天的會議,會議期間我被叫到酒店前臺。

“科弗特博士?這是您的包裹。”

回到我的房間,我開啟盒子,拉出一個活頁夾。當我花接下來的幾個小時翻閱數百頁的圖表和複雜的視覺化效果時,我的心開始狂跳。絕大多數資料看起來都像人們期望從實際生長的細胞中看到的那樣。其餘的資料也很有趣——出乎意料,但在生物學上是合理的。那時我知道我們已經登上了多年前就顯得如此高聳的山峰。首個完整活生物體的計算機模型已經啟動並執行。它會教會我們什麼?

洞悉細胞生命的視窗
在使用我們的新工具大約一年後,每次當我們窺視虛擬微生物的工作原理時,我們仍然會看到令人著迷的事情,因為它處理了生活和繁殖中涉及的數百萬個細節。我們驚奇地發現,蛋白質敲掉彼此 DNA 的頻率令人震驚地高——在每個九小時的生命週期中大約發生 30,000 次。我們還發現,微生物非常穩定的倍增週期實際上是一種湧現特性,它源於複製的兩個不同階段之間複雜的相互作用,每個階段的持續時間都獨立地變化很大。細胞行為的逐秒記錄使我們能夠解釋為什麼當某些基因被停用時細胞會立即停止分裂,但當其他必需基因被關閉時,細胞會再繁殖 10 次才死亡。只要細胞儲存的由基因產生的蛋白質副本多於其在一個生命週期中所需的副本,額外的副本就會傳遞給其後代,後代只有在最後耗盡儲存時才會死亡。這些初步結果令人興奮,但我們可能需要數年時間才能理解這些模擬正在告訴我們關於這些微生物以及一般細胞如何運作的一切資訊。

我們對生殖支原體 (M. genitalium) 的研究只是模擬基因和分子水平的人類細胞或組織的第一步。我們今天擁有的模型遠非完美,而且支原體是自我維持生命形式中最簡單的。我們已將所有模擬、原始碼、知識庫、視覺化程式碼和實驗資料在網上免費提供,我們和其他研究人員已經在努力改進模擬器並將其擴充套件到各種生物體,例如大腸桿菌 (E. coli) 和酵母 (Saccharomyces cerevisiae),這兩種生物體在學術界和工業實驗室中都很常見。

在這些物種中,基因的調控要複雜得多,並且事件發生的細胞內位置也重要得多。當這些問題得到解決後,我預計下一個目標將是小鼠或人類細胞:最有可能的是一種細胞,例如巨噬細胞(免疫系統中的攻擊細胞),可以很容易地培養並用作調整和驗證模型的測量來源。

我無法猜測我們今天離這種技術有多遠。與細菌相比,人類細胞具有更多的區室,並且表現出更大的遺傳控制,其中大部分仍然是神秘的。此外,作為多細胞組織內的團隊成員,人類細胞比細菌更密切地與其他細胞型別相互作用。

在 2008 年 2 月 13 日,我會說我們離模擬最簡單細胞的目標至少還有十年,我甚至不會考慮嘗試模擬更復雜的東西。現在我們至少可以設想嘗試模擬人類細胞——即使只是為了看看軟體如何失敗,這將闡明我們仍然需要了解的關於我們自己細胞的許多事情。即使這樣也將是一個非常大的進步。

更多探索

虛擬細胞生物學的黎明。 彼得·L·弗雷多利諾 (Peter L. Freddolino) 和薩伊德·塔瓦佐伊 (Saeed Tavazoie) 發表於《細胞》(Cell) 雜誌,第 150 卷,第 2 期,第 248–250 頁;2012 年 7 月 20 日。

全細胞計算模型從基因型預測表型。 喬納森·R·卡爾 (Jonathan R. Karr) 等人發表於《細胞》(Cell) 雜誌,第 150 卷,第 2 期,第 389–401 頁;2012 年 7 月 20 日。

橋接層級:邁向訊號轉導、調控和代謝整合到數學模型中。 伊曼紐爾·貢薩爾維斯 (Emanuel Gonçalves) 等人發表於《分子生物系統》(Molecular Biosystems) 雜誌,第 9 卷,第 7 期,第 1576–1583 頁;2013 年 7 月。

來自我們的檔案

控制論細胞。 W·韋特·吉布斯 (W. Wayt Gibbs);2001 年 8 月。

大眾科學雜誌第 310 卷第 1 期本文最初以“模擬活細胞”為標題發表在 《大眾科學雜誌》第 310 卷第 1 期(),第 44 頁
doi:10.1038/scientificamerican0114-44
© .