這絕對是一段極客範兒十足的影片:一部智慧手機的特寫鏡頭,螢幕上佈滿了成行成列向下滾動的數字和符號。但當訪客來到尼古拉·馬爾扎裡的辦公室,從那裡可以俯瞰日內瓦湖時,他迫不及待地想展示這段影片。“這是2010年的,”他說,“這是我的手機在即時計算矽的電子結構!”
馬爾扎裡解釋說,即使在當時,他那部現在看來很古老的手機也僅用了40秒就完成了量子力學計算,而這種計算曾經在超級計算機上需要花費數小時——這一壯舉不僅展示了過去十年左右計算方法取得了多大的進步,也證明了它們在未來改變材料科學研究方式方面的潛力。
馬爾扎裡和志同道合的研究人員沒有繼續以老式的方式開發新材料——靠運氣偶然發現,然後在實驗室裡費力地測量它們的特性——而是使用計算機建模和機器學習技術來生成數以萬計的候選材料庫。即使是來自失敗實驗的資料也能提供有用的輸入。這些候選材料中有很多是完全假設性的,但工程師們已經開始透過搜尋其預測的特性來篩選出值得合成和測試用於特定應用的材料——例如,它們作為導體或絕緣體的效能如何,它們是否會充當磁體,以及它們能承受多少熱量和壓力。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的有影響力的故事擁有未來。
加州大學伯克利分校的材料科學家、該領域的先驅塞德爾說,希望這種方法將大大提高材料發現的速度和效率。“我們可能只瞭解現有材料特性的1%左右,”他說,並以磷酸鐵鋰為例:這是一種最早在1930年代合成的化合物,但直到1996年才被認為是目前鋰離子電池的有前景的替代材料。“以前沒有人費心去測量它的電壓,”塞德爾說。
NIK Spencer/《自然》雜誌
《自然》新聞,2016年5月4日 doi:10.1038/533022a
世界上至少已經存在三個主要的材料資料庫,每個資料庫都包含數萬甚至數十萬種化合物。馬爾扎裡位於洛桑的材料雲專案計劃於今年晚些時候啟動。更廣泛的社群也開始注意到這一點。“我們現在看到實驗學家想要的東西和理論家可以交付的東西真正融合在一起,”帝國理工學院材料科學家、研究副院長尼爾·阿爾福德說,但他與任何資料庫專案都沒有隸屬關係。
然而,正如即使是支持者也很快指出的那樣,從計算機預測到現實世界技術的道路並非易事。現有的資料庫遠未包含所有已知的材料,更不用說所有可能的材料了。資料驅動的發現對於某些材料效果很好,但對於其他材料則不然。即使在計算機上挑選出一種有趣的材料後,在實驗室中合成它仍然需要數年時間。“我們通常更清楚我們應該製造什麼,而不是如何製造它,”塞德爾說。
儘管如此,該領域的研究人員仍然相信,存在著大量有待發現的化合物,這些化合物可能會推動電子、能源、機器人、醫療保健和交通運輸領域的創新。“我們的社群正在將拼圖的許多不同部分組合在一起,”伊利諾伊州芝加哥大學的計算材料科學家朱莉婭·加利說。“當它們都拼合到位時,材料預測將成為現實。”
遺傳學的啟發
這種高通量、資料驅動的材料發現方法的想法在2000年代初浮現在塞德爾的腦海中,當時他在馬薩諸塞州劍橋市的麻省理工學院(MIT),並受到即將完成的人類基因組計劃的啟發。“人類基因組本身並不是新療法的秘訣,”他說,“但它為醫學提供了驚人的大量基本定量資訊,可以從中開始。”他想,材料科學家是否可以從遺傳學家那裡吸取一些教訓?他們能否識別出“材料基因組”——塞德爾的說法——它以生物資訊編碼在DNA鹼基對中的方式編碼各種化合物的特性?
如果可以,他推斷,這種編碼一定存在於構成給定材料的原子和電子中,以及它們的晶體結構中:它們在空間中的排列方式。2003年,塞德爾和他的團隊首次展示了量子力學計算資料庫如何幫助預測金屬合金最可能的晶體結構——這對於任何從事新材料發明的人來說都是關鍵的一步。
過去,即使對於超級計算機來說,這些計算也既漫長又困難。機器必須經過大量的反覆試驗才能找到“基態”:能量最小且所有力都處於平衡狀態的晶體結構和電子構型。但在他們2003年的論文中,塞德爾的團隊描述了一種捷徑。研究人員計算了少量二元合金(兩種不同金屬的混合物)的常見晶體結構的能量,然後設計了一種機器學習演算法,該演算法可以從庫中提取模式並猜測新合金最可能的基態。該演算法效果良好,大大縮短了計算所需的計算機時間(參見“智慧搜尋”)。
“那篇論文介紹了公共材料特性庫的想法,以及使用資料探勘來填補缺失部分的想法,”斯蒂法諾·庫塔羅洛說,他在同一年離開了塞德爾的團隊,在北卡羅來納州達勒姆市的杜克大學創辦了自己的實驗室。這個想法隨後催生了兩個獨立的專案。2006年,塞德爾在麻省理工學院啟動了材料基因組計劃,使用改進的演算法來預測用於電動汽車電池的鋰基材料。到2010年,該專案已發展到包括約20,000種預測化合物。“我們從現有材料開始,修改它們的晶體結構——在這裡或那裡改變一種元素,並計算會發生什麼,”克里斯汀·珀森說,她是塞德爾團隊的前成員,在2008年搬到加利福尼亞州勞倫斯伯克利國家實驗室後,繼續參與該專案合作。
與此同時,在杜克大學,庫塔羅洛成立了材料基因組學中心,該中心專注於金屬合金的研究。他與猶他州普羅沃市的楊百翰大學和以色列內蓋夫核研究中心的研究人員合作,逐步將2003年的演算法和庫擴充套件到AFLOW,這是一個可以對已知晶體結構進行計算並自動預測新晶體結構的系統。
原始小組以外的研究人員也開始對高通量計算感興趣。其中一位研究人員是化學工程師延斯·諾爾斯科夫,他在丹麥靈比的丹麥技術大學開始使用高通量計算來研究將水分解為氫氣和氧氣的催化劑,後來在斯坦福大學SUNCAT計算催化研究中心擔任主任期間,擴大了這項工作。另一位是馬爾扎裡,他是一個大型團隊的成員,該團隊正在開發Quantum Espresso:一個於2009年推出的量子力學計算程式。這就是影片中在他的手機上執行的程式碼。
材料基因組學
儘管如此,計算材料科學直到2011年6月才成為主流,當時白宮宣佈了耗資數百萬美元的材料基因組計劃(MGI)。“當白宮的人們熟悉塞德爾的工作後,他們非常興奮,”美國國家標準與技術研究所的材料科學家、MGI的執行秘書詹姆斯·沃倫說。“人們普遍意識到,計算機模擬已經發展到可以對創新和製造產生真正影響的程度,”他說——更不用說“基因組學”這個名字,“它讓人聯想到一些宏大的事物。”
自2011年以來,該計劃已投資超過2.5億美元用於軟體工具、收集和報告實驗資料的標準化方法、主要大學的計算材料科學中心以及大學與商業部門之間就特定應用進行研究的夥伴關係。但目前尚不清楚這種慷慨的資助實際上在多大程度上推動了科學進步。“該計劃帶來了很多好東西,但也帶來了一些品牌重塑,”塞德爾說。“一些團體開始稱他們的研究為基因組學這個和基因組學那個,儘管它與基因組學幾乎無關。”
然而,MGI肯定做成的一件事是幫助塞德爾和其他人實現了他們對線上材料特性資料庫的願景。2011年末,塞德爾和珀森重新啟動了他們的材料基因組專案,將其更名為材料專案——應白宮的要求放棄“基因組”標籤,以避免與國家努力混淆。第二年,庫塔羅洛釋出了他自己的資料庫,名為AFLOWlib,該資料庫基於他在杜克大學開發的軟體。2013年,伊利諾伊州埃文斯頓市西北大學的材料研究員克里斯·沃爾弗頓啟動了開放量子材料資料庫(OQMD)。“我們從材料專案和AFLOWlib那裡借鑑了一般思路,”沃爾弗頓說,“但我們的軟體和資料是本土開發的。”
這三個資料庫都共享一個核心,即來自廣泛使用的實驗庫——無機晶體結構資料庫的約50,000種已知材料。這些是在實驗室中至少建立過一次並在論文中描述過的固體,但其電子或磁特性可能從未經過全面測試;它們是可以從中衍生出新材料的起點。
這三個資料庫的不同之處在於它們包含的假設材料。材料專案相對較少,從塞德爾和珀森的鋰電池研究中衍生出的大約15,000個計算結構開始。“只有當我們確信計算準確,並且有合理的可能性可以製造它們時,我們才會將它們包含在資料庫中,”珀森說。另外大約130,000個條目是明尼蘇達大學明尼阿波利斯分校的奈米多孔材料基因組中心預測的結構。後者專注於沸石和金屬有機框架:海綿狀材料,其晶體結構中具有規則重複的孔洞,可以捕獲氣體分子,可用於儲存甲烷或二氧化碳。
AFLOWlib是最大的資料庫,包含超過一百萬種不同的材料和約一億個計算特性。這是因為它還包括數十萬種假設材料,其中許多材料在現實世界中只會存在不到一秒鐘,庫塔羅洛說。“但是當你想預測材料實際上是如何製造出來的時,它會得到回報,”他說。例如,他正在使用來自AFLOWlib的資料來研究為什麼某些合金可以形成金屬玻璃——金屬玻璃是一種特殊的金屬形式,具有無序的微觀結構,賦予其特殊的電學和磁學特性。事實證明,良好的玻璃形成劑和不良的玻璃形成劑之間的差異取決於在合金冷卻時與基態“競爭”的不穩定晶體結構的數目和能量。
沃爾弗頓的OQMD包含約400,000種假設材料,這些材料是透過獲取自然界中常見的晶體結構列表,並用幾乎來自元素週期表每個部分的元素“裝飾”它們來計算的。它對鈣鈦礦——通常表現出超導性等吸引人的特性,並且正在開發用於太陽能電池和微電子學的晶體——具有特別廣泛的覆蓋範圍。顧名思義,該專案是這三個專案中最開放的:使用者可以將整個資料庫(而不僅僅是單獨的搜尋結果)下載到他們的計算機上。
所有這些資料庫都是正在進行的工作,它們的管理者仍然花費大量時間新增更多化合物並改進計算——他們承認,這些計算遠非完美。這些程式碼往往非常擅長預測晶體是否穩定,但在預測它如何吸收光或導電方面不太好——有時甚至會使半導體看起來像金屬。馬爾扎裡指出,即使對於電池材料,計算材料科學在這方面取得了最大的成功,標準計算的平均誤差仍然有半伏,這在效能方面會產生很大差異。“事實是,有些錯誤是理論本身帶來的:我們可能永遠無法糾正它們,”庫塔羅洛說。
每個小組都在開發自己的技術來調整計算並彌補這些系統誤差。但與此同時,他們已經在使用這些資料進行科學研究——其他小組的使用者也是如此。材料專案已經確定了幾種有希望的正極材料,它們可能比現有鋰電池中的正極材料效能更好,以及可以提高太陽能電池捕獲陽光並將其轉化為能量的效率的金屬氧化物。今年早些時候,都柏林聖三一學院的研究人員使用AFLOWlib資料庫預測了20種赫斯勒合金,這是一類可用於感測器或計算機儲存器的磁體,並設法合成了其中兩種,證實它們的磁效能與預測非常接近(參見go.nature.com/v7djio)。
歐洲的擴張
材料基因組學也已傳播到歐洲——儘管通常使用其他名稱。例如,瑞士建立了MARVEL,這是一個計算材料科學研究所網路,以瑞士聯邦理工學院(EPFL)為領導,馬爾扎裡為主任。他使用一個新的計算平臺,正在建立一個名為材料雲的資料庫,他正在使用該資料庫搜尋“二維”材料,例如石墨烯,這些材料僅由單層原子或分子製成。此類材料可用於從奈米級電子產品到生物醫學裝置等各種應用。為了找到好的候選材料,馬爾扎里正在對超過150,000種已知材料進行他所謂的“計算剝離”:計算從普通晶體表面分離單層所需的能量。到今年晚些時候資料庫準備好公開發布時,他預計初步執行將產生約1,500個潛在的二維結構,然後可以在實驗中進行測試。
在幾公里外的錫永,位於瑞士阿爾卑斯山脈的高處,計算化學家貝倫德·斯密特建立了另一個EPFL中心,該中心開發演算法來預測數十萬種奈米多孔沸石和金屬有機框架。其他演算法——包括一種使用源自面部識別軟體的技術掃描特定孔隙形狀的演算法——然後尋找從化石燃料發電廠的煙道中吸收二氧化碳的最佳候選材料。
斯密特的工作也表明,材料基因組學可能會帶來壞訊息。許多研究人員曾希望使用奈米多孔材料來製造汽車油箱,以便在更小的空間內儲存更多的甲烷。但在篩選了超過650,000種計算材料後,斯密特的研究小組得出結論,大多數最好的材料都已經制造出來了。新材料只能帶來微小的改進,而美國機構目前設定的能源目標——押注甲烷儲存技術的重大改進——可能是不現實的。
儘管這些例子引人入勝,但在材料基因組學能夠實現其承諾之前,仍有許多障礙需要克服。最大的障礙之一是,計算機模擬仍然很少提供關於如何在實驗室中製造一種有趣的材料的線索——更不用說批次生產了。“我們一直會提出關於新化合物的有趣想法,”塞德爾說。“有時需要兩週才能製造出來。有時六個月後我們仍然無法制造出來,我們也不知道是我們沒有做對,還是根本無法制造出來。”
塞德爾和庫塔羅洛都在嘗試開發機器學習演算法,以從已知的製造過程中提取規則,從而指導化合物的合成。
另一個限制是,材料基因組學迄今為止幾乎完全應用於工程師所謂的功能材料——可以執行任務的化合物,例如在太陽能電池中吸收光線或讓電晶體中的電流透過。但該技術不太適合研究結構材料,例如鋼,鋼是建造飛機機翼、橋樑或發動機等所需的材料。這是因為材料的彈性、硬度等機械效能取決於其加工方式——量子力學程式碼本身無法描述這一點。
即使在功能材料的情況下,當前的計算機程式碼也僅適用於完美的晶體結構——這只是材料領域的一小部分。“未來最有趣的材料可能會在微觀層面以創造性的方式組裝,”加利說。它們可能是奈米顆粒的組裝體、結構中具有戰略性缺陷的晶體,或由不同化合物和相交織而成的異質材料。加利說,為了預測此類材料,“你需要一次計算許多特性,以及系統在時間和特定溫度下將如何演變”。她說,有一些方法可以做到這一點,“但它們仍然過於計算密集,無法用於高通量研究”。
在短期內,與實驗進行更多的資料交換可以為計算提供現實檢驗,並有助於改進計算。為此,塞德爾正在與麻省理工學院的一個小組合作開發軟體,該軟體可以讀取實驗材料科學領域的論文,並自動提取標準格式的晶體結構資訊。“我們計劃在幾個月內開始將這些資料新增到材料專案中,”他說。
從長遠來看,一些幫助將來自摩爾定律:隨著計算能力持續提高,當前計算機仍然無法實現的某些技術可能很快就會變得可行。
“我們已經擺脫了計算材料科學的工匠時代,進入了工業階段,”馬爾扎裡說。“我們現在可以建立模擬裝配鏈,投入使用,並以全新的方式探索問題。”目前還沒有任何計算預測的材料上市。“但讓我們十年後再談,”加利說,“我認為屆時會有很多。”
本文經許可轉載,並於2016年5月4日首次發表。