在前往加利福尼亞州聖巴巴拉卡弗裡理論物理研究所的機場班車上,克里斯·威金斯聽取了一位同事的建議,打開了一個微軟Excel電子表格。這與他受邀進行的關於生物聚合物物理學的演講無關。相反,映入他眼簾的成列成行的數字指的是出芽酵母的基因活動。具體來說,這些數字代表了酵母全部6200個基因在其繁殖週期過程中表達的信使RNA(mRNA)的量。“這是我第一次看到這樣的東西,”威金斯回憶起2002年春天的那個日子。“你如何開始理解所有這些資料呢?”
哥倫比亞大學這位36歲的應用數學家和物理學家沒有迴避這個問題,而是欣然接受了它——六年後的今天,他認為自己找到了答案。透過涉足自身領域之外的領域,威金斯從人工智慧的一個分支——機器學習中挖掘出工具,以根據真實世界的生物資料來模擬基因的集體蛋白質製造活動。工程師最初在20世紀50年代後期設計這些工具是為了根據輸入預測輸出。威金斯和他的同事現在已將機器學習引入自然科學,並對其進行了調整,使其不僅可以講述關於輸入和輸出的故事,還可以講述基因調控模型(兩者之間的黑匣子)內部發生的事情。
這項工作的動力始於20世紀90年代末,當時高通量技術產生了比以往任何時候都更多的mRNA表達譜和DNA序列,“開闢了一種完全不同的生物現象思維方式,”威金斯說。這些技術中的關鍵是DNA微陣列,這是一種晶片,可以同時且在多種條件下,全景式地觀察任何細胞型別中基因的活動及其表達水平。儘管資料嘈雜且不完整,但生物學家現在可以查詢哪些基因在不同細胞中開啟或關閉,並確定產生細胞特徵(健康或患病)的蛋白質集合。
支援科學新聞事業
如果您喜歡這篇文章,請考慮訂閱以支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您將幫助確保未來能夠繼續講述關於發現和塑造我們當今世界的理念的具有影響力的故事。
然而,預測這種基因活動需要揭示控制它的基本規則。“隨著時間的推移,這些規則已被細胞鎖定,”理論物理學家哈門·布塞梅克說,他現在是哥倫比亞大學的生物學副教授。“進化保留了好的東西。”
為了找到這些規則,科學家需要統計資料來推斷基因與調節它們的蛋白質之間的相互作用,然後用數學方法描述這個網路的底層結構——基因和蛋白質活動隨時間變化的動態模式。但是,不研究粒子(或行星)的物理學家認為統計學簡直是令人厭惡的東西。英國物理學家歐內斯特·盧瑟福曾說過:“如果你的實驗需要統計學,那你應該做一個更好的實驗。”
但是,在處理微陣列時,“實驗是在你不知情的情況下完成的,”威金斯解釋說。“生物學不會給你一個模型來理解資料。”更具挑戰性的是,構成DNA、RNA和蛋白質的構建塊以無數種方式組裝;此外,細微不同的相互作用規則支配著它們的活動,使得將它們的相互作用模式簡化為基本定律變得困難,即使不是不可能。有些基因和蛋白質甚至還不為人所知。普林斯頓大學的生物物理學家威廉·比亞萊克說:“你試圖在對自然世界知之甚少的情況下找到一些引人注目的東西。”“你被迫持不可知論。”
威金斯認為,許多機器學習演算法在這些條件下表現良好。他說:“當處理如此多未知變數時,機器學習讓資料決定什麼值得關注。”
在卡弗裡研究所,威金斯開始構建酵母基因調控網路的模型——基因和調控因子共同協調DNA轉錄成mRNA的強度的規則集。當他使用不同的演算法時,他開始參加由克里斯蒂娜·萊斯利領導的關於基因調控的討論,萊斯利當時在哥倫比亞大學負責計算生物學小組。萊斯利建議使用一種特定的機器學習工具,稱為分類器。假設演算法必須區分包含腳踏車的圖片和不包含腳踏車的圖片。分類器篩選標記的示例,並測量它可以獲得的關於它們的一切資訊,逐步學習支配分組的決策規則。演算法從這些規則生成一個模型,可以確定新圖片是否包含腳踏車。在基因調控網路中,學習任務變成了預測基因是增加還是減少其蛋白質製造活動的問題。
威金斯和萊斯利於2002年秋季開始構建的演算法,是在酵母在各種條件下(如寒冷、炎熱、飢餓等)表達的調控因子的DNA序列和mRNA水平上進行訓練的。具體來說,該演算法——MEDUSA(使用序列聚集的基序元素判別)——掃描一組DNA啟動子序列(稱為基序)和調控因子之間的每種可能的配對。然後,就像孩子可能會透過在兩者之間畫一條線將單詞列表與其定義匹配一樣,MEDUSA找到最能改善模型與其試圖模擬的資料之間擬合度的配對。(威金斯將這些配對稱為邊。)每次MEDUSA找到一個配對,它都會透過新增新規則來更新模型,以指導其搜尋下一個配對。然後,它根據規則對現有模型的改程序度來確定每個配對的強度。數字的層次結構使威金斯和他的同事能夠確定哪些配對比其他配對更重要,以及它們如何共同影響酵母6200個基因中每個基因的活動。透過一次新增一個配對,MEDUSA可以預測哪些基因會提高其RNA產量或降低產量,並揭示協調生物體轉錄邏輯的集體機制。
威金斯和他的同事現在可以比酵母走得更遠。最近,他們已經表明,MEDUSA可以準確地構建高等生物(如蠕蟲)以及包括人類淋巴細胞在內的幾種細胞系中基因調控網路的預測模型。在癌細胞系中,該團隊可以確定哪些基因在其應該降低活動時反而增加了活動,反之亦然。然而,最終目標是瞭解它們的協調活動,並使用統計資料推斷哪些相互作用導致了患病細胞。
儘管MEDUSA對測試資料做出了準確的預測,但仍然無法知道它是否忠實地再現了真實的生物網路。要做到這一點,每個連線都必須經過實驗測試。微陣列資料在多大程度上測量表達水平也不清楚,因此準確的預測可能不一定反映真相。此外,機器學習迫使研究人員提出可能對其結果有偏差的臨時假設,“因此資料中的任何相關性都可能是僥倖,”聖地亞哥大學的約阿夫·弗羅因德評論道,他建立了MEDUSA的學習演算法。
為了解決這些侷限性,研究人員不僅必須繼續跨學科研究,還必須願意採用他們的工具。杜克大學的機器學習專家亞歷克斯·哈特明克評論說:“我想說,機器學習在物理學界還沒有像野火一樣蔓延開來。”“但克里斯似乎最樂於接觸和學習其他地方的技術。我認為我們需要有人去做這件事——涉足森林,尋找新的資源,並將它們帶回部落,說,‘嘿,夥計們,看看這個——這真是太棒了。’”