生物學中有一句古老的格言:結構決定功能。為了理解在健康身體中執行重要工作或在患病身體中功能失調的無數蛋白質的功能,科學家們必須首先確定這些蛋白質的分子結構。但這絕非易事:蛋白質分子由長而彎曲的鏈組成,這些鏈最多可達數千個氨基酸,這些化合物可以以多種方式相互作用,從而呈現出大量的可能三維形狀。弄清楚單個蛋白質的結構,或解決“蛋白質摺疊問題”,可能需要數年精細的實驗。
但去年,Alphabet 旗下的 DeepMind 公司開發的人工智慧程式 AlphaFold 預測了 幾乎每個已知蛋白質(總共約 2 億個)的 3-D 結構。DeepMind 執行長 Demis Hassabis 和高階 staff 研究科學家 John Jumper 因這項成就共同獲得了今年的 300 萬美元 生命科學突破獎,這為從擴充套件我們對基本分子生物學的理解到加速藥物開發等應用打開了大門。
DeepMind 在其 AlphaGo AI 在 2016 年因擊敗世界圍棋冠軍李世石而成為頭條新聞後不久開發了 AlphaFold。但 Hassabis 說,目標始終是開發能夠解決科學領域重要問題的人工智慧。DeepMind 已將其幾乎所有氨基酸序列已知的物種的蛋白質結構免費釋出在公共資料庫中。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
大眾科學 與 Hassabis 談論了 AlphaFold 的開發、其一些最令人興奮的潛在應用以及高度複雜人工智慧的倫理考量。
[以下是採訪的編輯稿。]
您為什麼決定建立 Alpha-Fold,以及您是如何達到現在它可以摺疊幾乎所有已知蛋白質的地步的?
我們幾乎是在從首爾的 AlphaGo 比賽回來後的第二天開始這個專案的,在那場比賽中,我們擊敗了世界 [圍棋] 冠軍李世石。我當時正在和 AlphaGo 的專案負責人 Dave Silver 討論“DeepMind 接下來應該做的重大專案是什麼?” 我覺得是時候解決科學領域真正困難的事情了,因為我們剛剛或多或少地解決了遊戲人工智慧的巔峰。我最終想將人工智慧應用於現實世界的領域。這始終是 DeepMind 的使命:開發可以應用於許多、許多問題的通用演算法。我們從遊戲開始,因為在遊戲中開發人工智慧和測試各種事物效率更高,原因有很多。但最終,這從來都不是最終目標。最終目標是開發像 AlphaFold 這樣的東西。
這是一個龐大的專案——在 CASP14 [第 14 屆蛋白質結構預測關鍵評估競賽] 之前大約有五六年時間的工作。我們在 CASP13 競賽中推出了早期版本,那是 AlphaFold 1。那是最先進的技術,你知道,比以前任何人做得都好得多,我認為這是機器學習首次被用作系統核心元件來嘗試解決這個問題。這給了我們信心,可以進一步推進它。我們不得不為 AlphaFold 2 重新設計,並在其中加入大量新想法,還將一些更專業的專家——生物學家、化學家和生物物理學家,他們從事蛋白質摺疊工作——納入團隊,並將他們與我們的工程和機器學習團隊結合起來。
我一生都在研究和思考通用人工智慧,甚至可以追溯到大學時代。我傾向於記下我認為有一天可以適用於我們構建的演算法型別的科學問題,而蛋白質摺疊對我來說一直位居前列,自 20 世紀 90 年代以來一直如此。我有很多生物學家朋友,他們過去總是對我滔滔不絕地談論這件事。
您對 AlphaFold 如此成功感到驚訝嗎?
是的,實際上,這令人驚訝。這絕對是我們做過的最困難的事情,而且我還要說這是我們構建過的最複雜的系統。《自然》雜誌上描述所有方法的論文,連同補充資訊和技術細節,長達 60 頁。有 32 種不同的元件演算法,每一種都是必需的。這是一個非常複雜的架構,需要大量的創新。這就是為什麼它花了這麼長時間。重要的是要從不同的背景和學科獲得所有這些不同的輸入。我認為我們在 DeepMind 做得非常出色的一件事是將它們混合在一起——不僅僅是機器學習和工程。
但是在 AlphaFold 1 之後,有一段困難時期。我們首先嚐試將 AlphaFold 1 推向極限。在 CASP13 之後大約六個月,我們意識到它不會達到我們想要的原子精度,從而真正解決問題並對實驗學家和生物學家有用。所以我做出了決定,我們需要回到繪圖板,並利用我們獲得的知識,包括它在哪裡起作用以及在哪裡不起作用,然後看看我們是否可以帶著這種經驗和知識回到幾乎是頭腦風暴的階段,並提出一大堆新想法和新架構。我們這樣做了,最終奏效了。
但在那次重置後的大約六個月到一年裡,情況變得更糟,而不是更好。早期的 AlphaFold 2 系統比 AlphaFold 1 差得多。在您似乎在準確性方面倒退的時期,這可能非常可怕。幸運的是,這就是我們在遊戲和我們之前構建的所有其他人工智慧系統中的經驗發揮作用的地方。我見過我們經歷死亡之谷,然後走出另一邊。
您能否用非常簡單的語言解釋一下 AlphaFold 的工作原理?
這是一件非常複雜的事情。而且我們有很多事情都不確定。很明顯,AlphaFold 2 正在學習一些關於化學和物理結構的隱含知識。它有點知道哪些事情可能是合理的。它是透過檢視我們已知的真實蛋白質結構來學習的。但我們擁有的創新之一是做一種叫做自蒸餾的東西,即讓早期版本的 AlphaFold 2 預測大量結構——並預測這些預測的置信水平。
我們內建的功能之一是對化學鍵角以及進化歷史的理解,使用一種稱為多序列比對的過程。這些帶來了一些約束,有助於縮小可能的蛋白質結構的搜尋空間。搜尋空間太大了,無法透過蠻力解決。但顯然現實世界的物理學以某種方式解決了這個問題,因為蛋白質在納秒或毫秒內摺疊起來。實際上,我們正在嘗試透過從輸出示例中學習來逆向工程該過程。我認為 AlphaFold 已經捕捉到了一些關於分子物理學和化學的非常深刻的東西。
人工智慧最令人著迷的地方在於它有點像一個黑匣子。但最終,它似乎正在學習關於自然世界的實際規則。
是的,它幾乎是在直覺意義上學習它。我認為我們將有越來越多的研究人員關注 AlphaFold 不擅長預測的蛋白質區域,並詢問:“當蛋白質沒有清晰的形狀,當它不與任何東西相互作用時,它們在生物學中實際上是否是無序的?” 據認為,[來自具有細胞核的生物的] 蛋白質中約有 30% 是無序的。許多此類蛋白質與疾病有關,例如神經退行性疾病,因為它們可能會纏結。你可以看到它們是如何做到這一點的,因為它們只是有點像軟塌塌的繩子,而不是形成結構。
我們使用 AlphaFold 2 做的另一件極其重要的事情是,我們沒有在機器學習系統中使用置信度度量來輸出每個氨基酸,因為我們希望生物學家能夠知道他們可以依賴預測的哪些部分,而無需瞭解任何關於機器學習的知識。
AlphaFold 最令人興奮的應用有哪些?
我們有很多來自合作伙伴(早期採用者)的優秀案例研究,他們有一年的時間與 AlphaFold 合作。他們正在做非常多樣化的事情,從解決抗生素耐藥性到透過設計食用塑膠的酶來解決塑膠汙染問題。我一直在與 [CRISPR 基因編輯先驅] Jennifer Doudna 討論苜蓿作物可持續性——她的團隊正在嘗試改造作物,使其在面對氣候變化時更具可持續性。
還有很多非常酷的基礎研究正在使用它進行。《科學》雜誌有一個完整的特刊,介紹科學家如何解決核孔複合體的結構。真核細胞核中這種跨膜蛋白群是體內最大的蛋白質之一。有幾個小組同時從冷凍電鏡 [低溫電子顯微鏡] 資料中解決了這個問題——但他們都需要 AlphaFold 預測來在某些地方增強這些資料。因此,實驗結構資料與 AlphaFold 的結合被證明是結構生物學家的福音,這是我們不一定預測到的。
然後在實際應用方面,我們交談過的幾乎每家制藥公司都在使用 AlphaFold。我們可能永遠不會知道全部影響是什麼,因為顯然他們對此保密。但我認為我們已經幫助將藥物開發和疾病治癒加速了幾年。
圍繞人工智慧及其可以做的一切,尤其是在科學和醫學領域,已經有很多炒作。但 AlphaFold 似乎具有明顯的優勢。
我的意思是,這由您來決定。但我想說,很多人告訴我,這是人工智慧在科學領域做事的最具體、最有用的案例。我喜歡我們正在兌現人工智慧的承諾這一事實。我的意思是,你可以說“炒作”,但我們儘量讓我們的工作為自己說話。
我記得當我們在 2010 年開始時,沒有人從事人工智慧研究。12 年後,似乎每個人都在談論它。在大多數情況下,正如我相信您必須一直篩選的那樣,就像他們有時甚至不知道人工智慧是什麼,或者他們濫用這個術語,或者正在發生的事情並沒有那麼令人印象深刻。但我認為 AlphaFold 是一個非常好的概念驗證或榜樣,說明可能會發生什麼。我認為在未來十年中,我們將看到更多這樣的情況——人工智慧幫助真正加速一些科學突破——我們希望成為其中更多的一部分。我們認為這僅僅是開始。
最近,人工智慧經常出現在新聞中,無論是關於生成智慧語言還是創作數字藝術。隨著人工智慧在我們生活中變得越來越重要,我們應該如何思考它的後果?
我們在 DeepMind 擁有我們自己的大型語言模型和文字到影像系統的內部版本,我們可能會在 [2023 年] 的某個時候釋出其中一些。看到發展的爆發式增長真的很有趣。顯然,AlphaFold 在科學界非常重要。但是,對於語言和影像人工智慧,它開始突破到主流。當然,每個人都瞭解語言並可以欣賞影像——您不必具備任何科學專業知識。
但我認為我們應該始終考慮倫理問題,這也是我們尚未釋出我們基於語言的人工智慧的原因之一。我們正在努力負責任地真正檢查這些模型可以做什麼——它們如何失控,如果它們有毒會發生什麼,所有這些當前最重要的事情。我們認為,其中一些系統尚未準備好向公眾釋出,至少不是不受限制地釋出。但在某個時候,這種情況會發生。我們在 DeepMind 有一個短語“負責任地開拓”。對我來說,這是關於應用科學方法來分析和構建這些系統。我認為通常,尤其是在矽谷,存在一種駭客心態,即“我們將破解它並將其釋出出去,然後看看會發生什麼。” 我認為對於像人工智慧這樣具有影響力和潛在強大功能的技術來說,這絕對是錯誤的方法。
我一生都在研究人工智慧,因為我認為它將成為人類有史以來最有益的事情,例如治癒疾病、幫助應對氣候變化以及所有這些事情。但它是一種雙重用途技術:這取決於我們作為一個社會如何決定部署它——以及我們將其用於什麼。
我認為我們正在社交媒體上看到它的後果。
人工智慧如何在社交媒體中被使用——或被濫用?
這不是真正的人工智慧;它更像是統計算法。但我們已經看到了對民主的意外後果。可能建立社交媒體平臺的人們在開始時並沒有惡意;只是有點失控了。但我們希望確保我們儘早考慮這些連鎖反應,而不是在“哦,糟糕,這發生了”之後,才試圖在馬走後關上穀倉的門。我們不應該對強大的技術這樣做。我們可以從 CRISPR 和其他技術中獲得一些啟發和建議。我認為我們可以從其他科學界已經解決這些問題的經驗中學習一些東西。
