實驗室失敗在尋找新材料的過程中化為金礦

來自失敗實驗的資料與機器學習相結合,以預測成功的化學反應並形成新的假設 

Fiona Goodall/Getty Images

“從錯誤中學習。”這是一句熟悉的格言,但人們仍然傾向於強調他們的成功,並將他們的失敗掃到地毯下,正如普林斯頓大學的一位教授上週在他釋出了他的“失敗簡歷”(pdf)時指出的那樣,該簡歷此後在網上瘋傳。現在,在本週發表在《自然》雜誌上的一項研究中,賓夕法尼亞州哈弗福德學院的一組研究人員將這個想法提升到了一個新的水平——將其應用於科學界。(《大眾科學》是施普林格·自然的組成部分。)

儘管大多數實驗都失敗了,但只有成功才會在科學文獻中報道並在專家之間討論。絕大多數資料被丟棄,留在被遺忘的實驗室筆記本中積灰,或者根本沒有記錄下來,從而有效地無法用於進一步的研究。“科學文獻對失敗存在偏見,”該研究的主要作者之一,實驗化學家亞歷山大·諾奎斯特說。“我們想做的是從通常未被報道的大量失敗反應中提取儘可能多的資訊。”為了實現這一目標,哈弗福德的研究人員使用了一系列這些失敗或“黑暗”反應來建立一個機器學習模型,該模型能夠比人類更準確地預測新的化學反應的成功率。

他們首先彙編了一個包含近4000個化學反應的資料庫(其中許多反應失敗,因此尚未數字化),這些反應是過去十年在諾奎斯特實驗室進行的。這些資訊側重於新材料的合成——在本例中是稱為模板釩亞硒酸鹽的固體,它由釩、硒、氧和有機成分組成。然後,他們建立了一種機器學習演算法,從這些資料中推匯出模式,並確定是什麼導致了一些實驗成功而另一些實驗失敗。通常,像諾奎斯特這樣的科學家會在多年內建立起一種直覺,瞭解條件(溫度、反應物的數量和比例、酸度以及許多其他因素)的組合,這些組合可能會導致晶體的成功形成。“但我們的直覺總是不完整的,”諾奎斯特說。“反應物之間差異的微妙之處和細微差別並不容易顯現。”


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。


因此,該團隊轉向了機器學習:他們為每個反應分配了近300個屬性,然後使用支援向量機(可以分析高維度資料)來預測新反應物組合所需的條件,然後在實驗室中對這些組合進行了測試。該演算法預測了這些案例中89%的晶體成功形成的條件——相比之下,研究人員的預測成功率為78%。

由於考慮到正在考慮的大量資料,演算法決策的原因並不總是清楚,因此研究人員隨後回到模型本身,生成了一個決策樹,這是一個流程圖式的結構,顯示了一系列選擇的潛在結果。使用這種更易於解釋的方法,他們能夠獲得新的見解並形成假設。例如,他們發現極化率(衡量電場存在下電荷分佈如何扭曲的指標)以一種他們根據自己的實驗室經驗未曾預料到的方式很重要。事實上,他們最終得到了關於不同反應物子集的三個假設。一類含有某些有機成分的反應需要特定氧化態的釩的存在。與此同時,當這些成分具有低極化率時,研究人員意識到他們必須將注意力轉向其他反應物的行為,即鈉。最後,對於特別大的有機成分,電荷密度起著至關重要的作用。“真正的創新之處在於端到端管道,”計算機科學家索雷勒·弗裡德勒說,她是該研究的另一位主要作者。“從以前被認為是失敗的、不重要的反應中提取資訊,並使用其中包含的資訊與機器學習管道連線,然後嘗試檢查機器學習管道的結果以生成這些新假設的想法。”

這些發現正值材料研究變得越來越重要之際。例如,白宮於2011年啟動了材料基因組計劃,以加快新材料的發現和上市速度。現在,哈弗福德團隊的機器學習方法可能有助於科學家們更有針對性地進行這項搜尋——既可以透過最佳化已知的合成工藝,也可以透過創造新型固體。“材料是我們能想到的每一項技術進步的核心,”加州大學聖巴巴拉分校的材料研究員拉姆·塞沙德里說,他沒有參與這項研究。“我現在正在使用的手機——它的鋰電池充滿了先進材料,這些材料正是透過本文中描述的那種化學合成方法制造的,”他指出。

手機並非此類材料的唯一潛在應用。這項研究可以 направлена на все,從製造更好的洗髮水和防曬霜到製造新的藥物和建造更好的太陽能電池板。此外,研究人員希望在化學領域內外其他領域推廣他們的機器學習方法。該團隊已將其反應資料庫線上釋出,以便其他科學家可以貢獻自己的資料。“我們真的非常興奮,”弗裡德勒說。“我們希望這篇論文能激勵其他實驗室想要與我們合作。”獲得此類資料,特別是失敗的資料,將使他們能夠做出新的發現並改進他們的演算法。“現在是資料世紀,”哈佛大學化學與化學生物學教授阿蘭·阿斯普魯-古茲克說,他沒有參與這項研究。“這篇論文表明,我們可以從失敗的實驗中學到很多東西。”

“通常,科學不是資料驅動的,而是因果驅動的。這項工作承認,有時你必須超越因果關係,使用資料驅動的方法,”塞沙德里補充道。“但奇妙的是,資料驅動的方法本身會導致對因果關係更好的理解。因此,[哈弗福德團隊]採取的方法不可避免地將成為我們很多人未來會越來越多地採用的方法。”

© .