利用人工智慧設計自然界前所未見的蛋白質,以解決進化未能解決的生物醫學和工業難題

生物工程師正在利用快速發展的機器學習工具、龐大的資料庫以及名為AlphaFold2的程式的強大功能,來追求更復雜的從頭蛋白質設計

FAM151A predicted tertiary structure

名為AlphaFold2的程式可以預測蛋白質的三維結構。

機器學習(ML)和其他基於人工智慧的計算工具已證明其在預測真實世界蛋白質結構方面的能力。AlphaFold 2,是由DeepMind的科學家開發的演算法,可以僅根據氨基酸序列自信地預測蛋白質結構,自2021年7月推出以來,幾乎已成為家喻戶曉的名字。如今,AlphaFold 2已被許多結構生物學家常規使用,預測的結構已超過2億個。

這個機器學習工具箱似乎也能夠生成定製蛋白質,包括那些在自然界中不存在功能的蛋白質。這是一個很有吸引力的前景,因為儘管天然蛋白質具有巨大的分子多樣性,但進化從未被迫解決許多生物醫學和工業問題。

科學家們現在正迅速邁向一個未來,在這個未來中,他們可以應用仔細的計算分析來推斷控制真實世界蛋白質結構和功能的潛在原理,並將這些原理應用於構建具有使用者設計功能的定製蛋白質。Cyrus Biotechnology的執行長兼聯合創始人Lucas Nivon認為,這種計算機設計的蛋白質的最終影響將是巨大的,並將該領域比作20世紀80年代新興的生物技術產業。“我認為在30年後,30%、40%或50%的藥物將是計算機設計的蛋白質,”他說。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


迄今為止,在蛋白質設計領域運營的公司主要側重於改造現有蛋白質以執行新任務或增強特定屬性,而不是真正的從頭設計。例如,Generate Biomedicines的科學家們利用關於SARS-CoV-2刺突蛋白及其與受體蛋白ACE2相互作用的現有知識,設計出一種合成蛋白質,該蛋白質可以持續阻斷多種變異體的病毒進入。“在我們內部測試中,這種分子對我們迄今為止看到的所有變異體都具有相當的抵抗力,”聯合創始人兼首席技術官Gevorg Grigoryan說,並補充說Generate的目標是在今年第二季度向FDA申請批准進行臨床試驗。更雄心勃勃的計劃正在醞釀之中,儘管從頭設計(即完全從零開始構建新蛋白質)的飛躍何時到來仍有待觀察。

人工智慧輔助蛋白質設計領域正在蓬勃發展,但該領域的根源可以追溯到二十多年前,由像David Baker這樣的學術研究人員以及華盛頓大學蛋白質設計研究所的同事們開展的工作。從20世紀90年代末開始,Baker(他共同創立了包括Cyrus、Monod和Arzeda在內的多家公司)負責監督Rosetta的開發,Rosetta是一個用於預測和操縱蛋白質結構的基礎軟體套件。

從那時起,Baker和其他研究人員開發了許多其他強大的蛋白質設計工具,這些工具得益於機器學習演算法的快速進步,特別是深度學習這種機器學習子技術的進步。例如,今年9月,Baker的團隊釋出了他們的深度學習ProteinMPNN平臺,該平臺允許他們輸入想要的結構,並讓演算法輸出可能產生該從頭結構的氨基酸序列,成功率超過50%。

深度學習領域最令人興奮的事情之一是生成模型,它可以創造全新的、自然界前所未見的蛋白質。這些建模工具與用於在Stable Diffusion或DALL-E 2等程式中生成怪異而引人注目的AI生成藝術作品以及在chatGPT等程式中生成文字的演算法屬於同一類別。在這些情況下,該軟體在大量帶註釋的影像資料上進行訓練,然後利用這些見解生成新的圖片以響應使用者查詢。蛋白質序列和結構也可以實現同樣的壯舉,演算法利用豐富的真實世界生物資訊庫,根據在自然界中觀察到的模式和原理來構想新的蛋白質。然而,為了做到這一點,研究人員還需要為計算機提供關於生物化學和物理約束的指導,這些約束會影響蛋白質設計,否則,結果輸出將只提供藝術價值。

理解蛋白質序列和結構的一種有效策略是將它們視為“文字”,使用遵循生物“語法”和“句法”規則的語言建模演算法。“為了生成流暢的句子或文件,演算法需要學習不同型別單詞之間的關係,但它還需要學習關於世界的知識,以使文件具有凝聚力並有意義,”前Salesforce Research的計算機科學家Ali Madani說,他最近創立了Profluent。

在最近發表的一篇文章中,Madani和同事描述了一種語言建模演算法,該演算法可以產生新型計算機設計的蛋白質,這些蛋白質可以在實驗室中成功生產,其催化活性與天然酶相當。Arzeda的聯合創始人兼執行長Alexandre Zanghellini表示,語言建模也是Arzeda工具箱的關鍵組成部分。在一個專案中,該公司使用了多輪演算法設計和最佳化,以工程化一種具有改進的抗降解穩定性的酶。“在三輪迭代中,我們能夠將蛋白質在四周後完全消失的情況轉變為有效保留95%的活性,”他說。

Generate研究人員最近釋出的一篇預印本描述了一種新的基於生成建模的設計算法,名為Chroma,其中包括幾個提高其效能和成功率的功能。這些功能包括擴散模型,這是一種在許多影像生成AI工具中使用的方法,可以更輕鬆地處理複雜的多維資料。Chroma還採用演算法技術來評估蛋白質氨基酸鏈(稱為骨架)上相距遙遠但可能對正確摺疊和功能至關重要的殘基之間的長程相互作用。在一系列初步演示中,Generate團隊表明,他們可以獲得預測會摺疊成各種天然存在和任意選擇的結構和亞結構域(包括字母表的字母形狀)的序列,儘管有多少序列將在實驗室中形成這些摺疊仍有待觀察。

除了新演算法的強大功能外,生物學家捕獲的大量結構資料也使蛋白質設計領域得以騰飛。蛋白質資料庫是蛋白質設計人員的關鍵資源,現在包含超過20萬個實驗解析的結構。AlphaFold 2演算法也被證明是這裡的遊戲規則改變者,因為它為設計算法提供了訓練材料和指導。“它們是模型,所以你必須有所保留地看待它們,但現在你擁有了如此龐大的預測結構,你可以以此為基礎進行構建,”Zanghellini說,他表示該工具是Arzeda計算設計工作流程的核心組成部分。

對於人工智慧引導的設計,更多的訓練資料總是更好。但是,現有的基因和蛋白質資料庫受到物種範圍有限以及對人類和常用模式生物的嚴重偏見的限制。Basecamp Research正在構建一個超多樣化的生物資訊庫,這些資訊來自在17個國家的生物群落中採集的樣本,範圍從南極洲到雨林再到海底熱液噴口。首席技術官Philipp Lorenz表示,一旦對這些標本的基因組資料進行分析和註釋,他們就可以組裝一個知識圖譜,該圖譜可以揭示不同蛋白質和途徑之間的功能關係,而這些關係僅基於基於序列的分析是不明顯的。“這不僅僅是生成一種新蛋白質,”Lorenz說。“我們正在原核生物中發現蛋白質家族,而這些蛋白質家族以前被認為只存在於真核生物中。”[原核生物,如細菌等單細胞生物,缺乏真核生物中更復雜的內部細胞結構,真核生物能夠成為多細胞生物。]

這意味著人工智慧引導的蛋白質設計工作有更多的起點,Lorenz表示,他團隊自己的設計實驗在生產功能性蛋白質方面取得了80%的成功率。

但是蛋白質並非在真空中發揮作用。Hummingbird Ventures的投資人Tess van Stekelenburg指出,Basecamp是該公司資助的公司之一,它捕獲了其識別的蛋白質的所有型別的環境和生物化學背景。伴隨每個蛋白質序列的“元資料”可以幫助指導蛋白質的工程設計,使蛋白質在特定條件下最佳表達和發揮功能。“如果你計劃研究pH值、溫度或壓力等因素,它會讓你有更多的能力進行約束,”她說。

一些公司也在尋求用自己的資料來擴充公共結構生物學資源。Generate正在建設一個多儀器冷凍電子顯微鏡設施,這將使他們能夠以相對較高的通量生成接近原子解析度的結構。與來自公共可用資源的資料相比,這種內部生成的結構資料更可能包含關於單個蛋白質的相關元資料。

內部溼實驗室設施是設計過程的另一個關鍵組成部分,因為實驗結果反過來又用於訓練演算法,以便在未來的輪次中取得更好的結果。Grigoryan指出,儘管Generate喜歡突出其演算法工具箱,但其大部分員工由實驗人員組成。

洛桑聯邦理工學院的計算生物學家Bruno Correia表示,蛋白質設計工作的成功取決於演算法專家和經驗豐富的溼實驗室從業人員之間的密切協商。“蛋白質分子的結構以及它們在實驗中的行為方式構建了很多約束條件,”Correia說。“我認為將生物實體僅僅作為資料來處理是一個錯誤。”

van Stekelenburg表示,生物學驗證是該領域投資者極其重要的考慮因素。“如果你正在進行從頭設計,真正的黃金標準不是你使用的架構,而是你設計的蛋白質中有多少百分比具有最終期望的屬性,”她說。“如果你不能證明這一點,那就沒有意義。”因此,大多數從事計算設計的公司仍然專注於調整蛋白質功能,而不是徹底改造它,從而縮短預測和效能之間的差距。

Nivon說,Cyrus通常與在特定引數方面不足的現有藥物和蛋白質合作。“這可能是一種需要更好療效、更低免疫原性或更好毒性特徵的藥物,”他說。對於Cradle來說,主要目標是透過最佳化穩定性等特性來改善蛋白質療法。“我們已經根據經驗研究對我們的模型進行了基準測試,以便人們可以瞭解這在實驗環境中可能有多好,”創始人兼執行長Stef van Grieken說。

Arzeda的重點是用於工業應用的酶工程。他們已經成功創造出具有新型催化功能的蛋白質,用於農業、材料和食品科學。這些專案通常從自然界中催化的相對成熟的核心反應開始。但是,為了使這些反應適應不同的底物,“你需要大幅改造活性位點,”Zanghellini說。該公司的一些專案包括一種可以分解廣泛使用的除草劑的植物酶,以及可以將相對低價值的植物副產品轉化為有用的天然甜味劑的酶。

Generate的第一代工程專案側重於最佳化。在一項已發表的研究中,該公司科學家表明,他們可以“重塑”來自大腸桿菌的氨基酸代謝酶l-天冬醯胺酶的表面,改變其外部的氨基酸組成,以大大降低其免疫原性。但是,Grigoryan表示,藉助新的Chroma演算法,Generate已準備好開始更雄心勃勃的專案,在該專案中,演算法可以開始構建具有使用者指定的結構和功能特徵的真正從頭設計。當然,Chroma的設計方案隨後必須透過實驗測試進行驗證,儘管Grigoryan說“我們對我們所看到的感到非常鼓舞。”

Zanghellini認為該領域即將迎來拐點。“我們開始看到真正創造一個複雜的活性位點,然後在它周圍構建蛋白質的可能性,”他說。但他補充說,還有更多的挑戰在等待著我們。例如,具有優異催化特性的蛋白質可能非常難以大規模生產,或者作為藥物表現出較差的特性。然而,在未來,下一代演算法應該能夠生成從頭設計的蛋白質,這些蛋白質經過最佳化,可以滿足科學家願望清單上的許多要求,而不僅僅是一個。

本文經許可轉載,並於2023年2月23日首次發表

© .