DeepMind 的 AI 在解決蛋白質結構方面取得巨大飛躍

科學家表示,谷歌用於確定蛋白質 3D 形狀的深度學習程式有望改變生物學

解決蛋白質的 3D 結構,例如 SARS-CoV-2 刺突蛋白的結構,長期以來一直是生物學的目標。

谷歌 AI 分支 DeepMind 開發的人工智慧 (AI) 網路在解決生物學最宏大的挑戰之一——從蛋白質的氨基酸序列確定其 3D 形狀方面取得了巨大的飛躍。

DeepMind 的程式 AlphaFold 在一項名為 CASP(蛋白質結構預測關鍵評估的縮寫)的兩年一度的蛋白質結構預測挑戰賽中,擊敗了大約 100 個其他團隊。結果於 11 月 30 日在會議開始時宣佈——今年的會議以虛擬方式舉行——評估了這項工作。

“這是一件大事,”馬里蘭大學帕克分校的計算生物學家 John Moult 說,他於 1994 年共同創立了 CASP,旨在改進用於準確預測蛋白質結構的計算方法。“在某種意義上,問題已經解決了。”


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


從氨基酸序列準確預測蛋白質結構的能力將對生命科學和醫學產生巨大的推動作用。它將極大地加速瞭解細胞構建模組的工作,並實現更快、更先進的藥物發現。

AlphaFold 在上屆 CASP(2018 年,倫敦 DeepMind 首次參與)中名列榜首。但是,今年,該公司的深度學習網路遙遙領先於其他團隊,科學家們表示,其表現令人難以置信地出色,可能預示著生物學領域的一場革命。

“這是一個遊戲規則改變者,”德國蒂賓根馬克斯·普朗克發育生物學研究所的進化生物學家 Andrei Lupas 說,他評估了 CASP 中不同團隊的表現。AlphaFold 已經幫助他找到了困擾他的實驗室十年的蛋白質結構,他預計這將改變他的工作方式和他要解決的問題。“這將改變醫學。它將改變研究。它將改變生物工程。它將改變一切,”Lupas 補充道。

在某些情況下,AlphaFold 的結構預測與使用“金標準”實驗方法(如 X 射線晶體學)以及近年來 冷凍電子顯微鏡 (cryo-EM) 確定的結構無法區分。科學家們表示,AlphaFold 可能還不能取代對這些費力且昂貴的方法的需求,但 AI 將使以新的方式研究生物成為可能。

結構問題

蛋白質是生命的基石,負責細胞內部發生的大部分活動。蛋白質的工作方式和功能取決於其 3D 形狀——“結構即功能”是分子生物學的一條公理。蛋白質傾向於在沒有幫助的情況下形成其形狀,僅受物理定律的指導。

幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要方法。從 1950 年代開始,蛋白質的第一個完整結構是透過一種技術確定的,該技術將 X 射線束照射到結晶蛋白質上,並將衍射光轉換為蛋白質的原子座標。X 射線晶體學產生了大部分蛋白質結構。但是,在過去的十年中,冷凍電鏡已成為許多結構生物學實驗室的首選工具。

科學家們長期以來一直想知道蛋白質的組成部分——一串不同的氨基酸——如何描繪出其最終形狀的許多曲折和摺疊。研究人員表示,在 1980 年代和 1990 年代,早期嘗試使用計算機預測蛋白質結構的效果很差。已發表論文中對方法的崇高宣告往往會在其他科學家將其應用於其他蛋白質時瓦解。

Moult 發起了 CASP,旨在為這些努力帶來更多的嚴謹性。該活動挑戰團隊預測已使用實驗方法解決但尚未公開結構的蛋白質結構。Moult 認為這項實驗——他沒有稱之為競賽——透過對過度炒作的說法進行及時制止,極大地改善了該領域。“你真的在找出哪些看起來有希望,哪些有效,以及你應該放棄哪些,”他說。

DeepMind 在 2018 年 CASP13 上的表現讓該領域的許多科學家感到震驚,該領域長期以來一直是小型學術團體的堡壘。但伊利諾伊大學芝加哥分校的計算生物學家 Jinbo Xu 說,它的方法與其他應用 AI 的團隊的方法大致相似。

AlphaFold 的第一個迭代版本將稱為深度學習的 AI 方法應用於結構和遺傳資料,以預測蛋白質中氨基酸對之間的距離。DeepMind 的 John Jumper 說,在不呼叫 AI 的第二步中,AlphaFold 使用此資訊來提出蛋白質應該是什麼樣子的“共識”模型,他正在領導該專案。

Jumper 說,該團隊試圖在此方法的基礎上進行構建,但最終遇到了瓶頸。因此,它改變了策略,開發了一個 AI 網路,該網路結合了關於物理和幾何約束的額外資訊,這些約束決定了蛋白質如何摺疊。他們還給它設定了一個更困難的任務:網路不是預測氨基酸之間的關係,而是預測目標蛋白質序列的最終結構。“這是一個複雜得多的系統,”Jumper 說。

驚人的準確性

CASP 持續數月。目標蛋白質或稱為結構域的蛋白質部分(總共約 100 個)定期釋出,團隊有幾周的時間提交其結構預測。然後,一個由獨立科學家組成的團隊使用衡量預測蛋白質與實驗確定的結構有多相似的指標來評估預測。評估人員不知道是誰在進行預測。

Lupas 說,AlphaFold 的預測以“group 427”的名義到達,但其許多條目的驚人準確性使其脫穎而出。“我猜是 AlphaFold。大多數人都是,”他說。

有些預測比其他預測更好,但近三分之二的預測質量可與實驗結構相媲美。Moult 說,在某些情況下,尚不清楚 AlphaFold 的預測與實驗結果之間的差異是預測錯誤還是實驗的人為因素。

Moult 說,AlphaFold 的預測與透過稱為核磁共振波譜的技術確定的實驗結構不太匹配,但這可能是由於原始資料如何轉換為模型造成的。該網路也很難對蛋白質複合物或基團中的單個結構進行建模,在這些複合物或基團中,與其他蛋白質的相互作用會扭曲它們的形狀。

Moult 說,總的來說,與上屆 CASP 相比,今年團隊預測的結構更準確,但大部分進展可歸功於 AlphaFold。Moult 說,在被認為中等難度的蛋白質靶標上,其他團隊的最佳表現通常在 100 分制的預測準確度量表上得分為 75 分,而 AlphaFold 在相同的靶標上得分約為 90 分。

Moult 說,大約一半的團隊在總結他們方法的摘要中提到了“深度學習”,這表明 AI 正在對該領域產生廣泛的影響。其中大多數來自學術團隊,但微軟和中國科技公司騰訊也參加了 CASP14。

哥倫比亞大學在紐約市的計算生物學家兼 CASP 參與者 Mohammed AlQuraishi 渴望深入瞭解 AlphaFold 在比賽中的表現細節,並瞭解 DeepMind 團隊於 12 月 1 日展示其方法時系統的工作原理。他說,有可能——但不太可能——比平時更容易的一批蛋白質靶標促成了這一表現。AlQuraishi 強烈預感 AlphaFold 將具有變革意義。

“我認為可以公平地說,這將對蛋白質結構預測領域產生很大的顛覆性影響。我懷疑很多人會離開這個領域,因為核心問題可以說已經解決了,”他說。“這是一項一流的突破,當然是我一生中最重大的科學成果之一。”

更快的結構

AlphaFold 的預測幫助確定了 Lupas 實驗室多年來一直試圖破解的一種細菌蛋白質的結構。Lupas 的團隊之前收集了原始 X 射線衍射資料,但將這些類似羅夏墨跡的圖案轉化為結構需要一些關於蛋白質形狀的資訊。獲取此資訊的技巧以及其他預測工具均已失敗。“來自 group 427 的模型在半小時內為我們提供了結構,而此前我們已經花費了十年時間嘗試一切方法,”Lupas 說。

DeepMind 的聯合創始人兼執行長 Demis Hassabis 表示,該公司計劃使 AlphaFold 發揮作用,以便其他科學家可以使用它。(該公司此前釋出了關於 AlphaFold 第一個版本的足夠細節,供其他科學家複製該方法。)AlphaFold 可能需要幾天時間才能提出預測結構,其中包括對蛋白質不同區域可靠性的估計。“我們才剛剛開始瞭解生物學家想要什麼,”Hassabis 補充道,他認為藥物發現和蛋白質設計是潛在的應用。

2020 年初,該公司釋出了少量尚未透過實驗確定的 SARS-CoV-2 蛋白質結構的預測。加州大學伯克利分校的分子神經生物學家 Stephen Brohawn 說,DeepMind 對一種名為 Orf3a 的蛋白質的預測最終與後來透過冷凍電鏡確定的結構非常相似,他的團隊於 6 月釋出了該結構。“他們所做的事情非常令人印象深刻,”他補充道。

現實世界的影響

AlphaFold 不太可能關閉像 Brohawn 的實驗室這樣使用實驗方法來解決蛋白質結構的實驗室。但這可能意味著,獲得良好的結構只需要質量較低且更容易收集的實驗資料。蛋白質進化分析等一些應用有望蓬勃發展,因為現在可用的海量基因組資料可能被可靠地轉化為結構。“這將使新一代分子生物學家能夠提出更高階的問題,”Lupas 說。“這將需要更多的思考和更少的移液。”

“這是一個我開始認為在我有生之年都無法解決的問題,”英國欣克斯頓歐洲分子生物學實驗室-歐洲生物資訊學研究所的結構生物學家兼前 CASP 評估員 Janet Thornton 說。她希望這種方法能夠幫助闡明人類基因組中數千種未解決蛋白質的功能,並理解人與人之間不同的致病基因變異。

AlphaFold 的表現也標誌著 DeepMind 的一個轉折點。該公司最出名的是利用 AI 掌握圍棋等遊戲,但其長期目標是開發能夠實現廣泛的、類似人類智慧的程式。Hassabis 說,解決蛋白質結構預測等宏大的科學挑戰是其 AI 可以實現的最重要的應用之一。“我確實認為這是我們所做的最重要的事情,就現實世界的影響而言。”

本文經許可轉載,並於 2020 年 11 月 30 日首次發表

© .