本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定代表《大眾科學》的觀點。
埃雷茲·利伯曼·艾登是一位健談、風趣的傢伙,他會在任何智力話題上滔滔不絕。只是別問他做什麼的。“這實際上是我經常遇到的最難的問題,”他說。“我真的沒有什麼可以說的。”
很容易理解為什麼。艾登是一名科學家,是的,但當他的大多數同行都待在特定的領域——比如神經科學或遺傳學——時,艾登卻幾乎隨意地跨越了這些領域。他的研究涉及分子生物學、語言學、物理學、工程學和數學。他是去年“文化組學”研究的幕後人物,他透過有史以來出版的所有書籍的 4% 來觀察人類文化的演變。在此之前,他解決了人類基因組的三維結構問題,研究了動詞的數學原理,併發明瞭一種名為 iShoe 的鞋墊,可以診斷老年人的平衡問題。“我想我只是把自己看作一名科學家,”他說。
他的方法與標準的科學職業生涯形成鮮明對比:找到一個感興趣的領域,並對它越來越瞭解。艾登不是從一箇中心專業分支出來,而是對跨越不同學科界限的“跨學科”問題感興趣。他的方法是遊牧式的。他四處走動,尋找能夠激起他的好奇心、拓展他的視野並有望產生重大影響的想法。“我不認為自己是某種特定技能或方法的實踐者,”他告訴我。“我不斷地在尋找我最有可能從事的最有趣的問題。我真的試圖弄清楚為了解決我感興趣的問題,我需要成為什麼樣的科學家。”
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於當今塑造我們世界的發現和想法的具有影響力的故事的未來。
這是一種已經獲得回報的哲學。艾登年僅 31 歲,在麻省理工學院和哈佛大學擁有一間聯合實驗室。2010 年,他贏得了著名的 3 萬美元的麻省理工學院-萊梅爾森獎,該獎項頒發給那些表現出“卓越創新和創造力組合”的人。他有七篇出版物,其中六篇發表在世界頂級的兩家期刊——《自然》和《科學》上。他的朋友兼同事 讓-巴蒂斯特·米歇爾 說,“他真是獨一無二。我只是好奇他會在哪個學科獲得諾貝爾獎!”
當我在哈佛大學見到艾登時,他穿著休閒的運動衫、斜紋棉布褲和運動鞋。他語速很快,但表達流暢,既放鬆又高度專注。他辦公室的門上寫著“艾登實驗室”,開啟後感覺更像一個休息室。這裡沒有長凳和凳子,取而代之的是舒適的沙發、扶手椅、幾臺電腦和一臺大電視。除了成堆的零食外,這個空間非常簡潔。牆上沒有照片。三排架子基本上是空的。桌子上沒有任何負擔。就好像房間,就像他本人一樣,沒有被過去所束縛。
艾登沒有專注於任何一個領域,而是採取了相反的做法。他自然而然地被那些他知之甚少的問題所吸引。“原因在於大多數專案都會失敗,”他說。“如果一個你瞭解很多的專案失敗了,你什麼也沒得到。如果一個你瞭解較少的專案失敗了,你可能會有一堆新的、更好的想法。”艾登習慣於將他的失敗作為成功的跳板。
*****
2005 年,艾登對我們製造抗體的方式著迷。抗體都非常相似,但它們的尖端——識別入侵者的部分——差異極大。這些是透過基因混合匹配產生的——來自三個組的基因,每個組都有許多不同的成員,以 1 億種不同的組合之一結合在一起。這些大量的排列組合提供了我們所需的種類,以應對來自細菌、病毒、寄生蟲、腫瘤細胞等的大量威脅。“免疫系統不斷地動態建立特定於體內出現的事物的基因。這太神奇了,”艾登說。他的目標雄心勃勃但很簡單:對這些基因進行編目並對人類免疫系統進行測序。
他失敗了。“問題在於所有基因都非常非常相似,”他說。對基因進行測序不像從頭到尾閱讀文字。這更像是檢視孤立的句子片段,並試圖將它們連線成原始敘述。如果這些句子都包含大致相同的詞,那麼這項任務就會變得非常困難。“在某個時候,我們只是意識到資料不夠好。那是一場災難——它佔用了我 18 個月 85% 的時間。那是一次史詩般的失敗。”
但這並不是一個浪費的機會。2007 年,艾登對抗體的興趣將他帶到了一場免疫學會議,他在那裡意外地進入了錯誤的演講。在這次計劃外的漫步中,艾登找到了啟發,這將導致他解決人類基因組的三維結構。
演講者艾米·L·肯特正在討論我們基因之間的物理距離。我們每個細胞都有一個令人羨慕的任務,即將兩米長的 DNA 摺疊成一個直徑短約一百萬倍的腔室。他們透過將 DNA 摺疊成複雜的形狀來實現這一點,這是一項摺紙技巧,通常會將遙遠的基因變成近鄰。在艾登走錯的演講中,他了解到這些距離很難計算。人們會花費長達六個月的時間來計算兩個位點之間的距離。“這促使了一種本能的反應,”他說。“我完全相信他們正在做的事情可以做得更好、更快。”
為了加快這一過程,艾登發明了一種名為 Hi-C 的技術,該技術可以同時識別整個基因組中的相鄰位點。首先,他用甲醛對基因組進行防腐處理。這種化學物質會在彼此相鄰的不同 DNA 片段之間建立物理橋樑,從而將基因組凍結在其所有的曲折之中。特殊的酶會切碎 DNA,然後將片段分離、測序並對映到人類基因組的參考副本上(觀看艾登透過舞蹈媒介展示該技術)。結果是一個龐大的相互作用 DNA 庫——一個基因社會網路。然後,艾登可以算出基因組必須如何摺疊才能容納這些相互作用。
他發現了一些奇怪的事情。聚合物——長鏈分子,如 DNA——傾向於以可預測的方式摺疊。它們應該形成稱為“平衡球”的密集包裝和打結的束(影片)——想想一盤煮熟的麵條,或者在口袋裡放太久的耳機。但是 Hi-C 結果與這種形狀不相容;它們表明基因組正在做一些不同的事情。起初,艾登認為他的技術失敗了,結果是如此怪異。他開始如飢似渴地閱讀,吸收他能找到的所有關於聚合物物理學的知識。而且每一個來源都指向相同的結論:他的結果似乎違反了既定的物理原理。
他的突破發生在深夜。他發現了一位名叫亞歷山大·格羅斯伯格的物理學家撰寫的一篇論文,他描述了一種叫做“分形球”的形狀(影片)。它也是一個密集包裝的束,但與平衡球不同,它沒有單個結。這些鏈可能會迴圈和扭曲,但它們永遠不會交叉和纏結。艾登將其比作未煮熟的麵條——你可以拉出一根而不會破壞其餘的麵條。
分形球最早是由一位名叫朱塞佩·皮亞諾的義大利數學家在 1890 年描述的,但這完全是理論上的。格羅斯伯格花了將近一個世紀的時間才(在 1988 年)提出,如果條件合適,真實的聚合物可能會摺疊成分形球。2009 年,艾登證明他是對的。“我讀了[格羅斯伯格的論文],我立刻想:這解決了問題!”分形球作為基因組的形狀是完全合理的。由於沒有纏結,任何 DNA 片段都可以很容易地暴露出來,從而可以轉錄和使用其資訊。“那是我在智力上最激動人心的時刻之一,”艾登說。
據所有人所知,分形球是皮亞諾想象中才存在的假設形狀。艾登表明它存在於每個曾經走過地球的人類體內。他帶著一絲嘲諷的微笑告訴我,“一個人沒有理由期望一個人的資料會恰好與某個古老的已死假設相一致,而這個假設最終會比占主導地位的想法更加美好。這簡直就是天上掉餡餅。”
*****
所有這一切都來自於關於抗體的失敗專案。艾登的剪下室裡堆滿了同樣雄心勃勃的關於中國象形文字演變或人們互相起訴的網路分析的死專案。在大多數情況下,它們只是變得太無聊而無法繼續,但像 3D 基因組這樣的罕見案例確實成功了。“最好的問題型別是那些乍一看比你考慮時更難的問題。如果你有十個這樣的專案,其中一個成功了,那就很好了,因為很多人認為該專案不太可能成功,而且他們不知道你嘗試了十個這樣的專案,”他說。
“失敗自然而然地會帶來新的成功和機會。這就是為什麼在一個新領域獲得一些失敗經歷是很好的。免疫學專案是我真正投入的第一個大型基因組學專案,而我在那次失敗過程中獲得的所有工具,事實證明在 3D 基因組測序中非常有用。”
在許多方面,3D 基因組專案概括了艾登多樣化作品中貫穿的許多主題。他非常相信技術進步的力量。“當代科學的很大一部分實際上是我們應用的技術的長度和陰影,”他說。透過發明 Hi-C 技術,他可以提出以前根本無法回答的關於基因組的問題。“我一直在尋找我認為將開啟全新領域的新方法。”特別是,他喜歡在沒有任何先入為主的觀念的情況下積累大量資料。“對我來說,眼見為實。當我開始檢視資料集時,我很少有任何假設。我只是想看看哪些特徵會跳出來。”
艾登的思維方式是家族式的。他的兒子加布裡埃爾·伽利略才一歲,也和他父親一樣有雄心壯志。“他正在弄清楚挑戰人類的基本問題。花費數十億年的時間來弄清楚如何用雙腳保持平衡,而他就像,‘嗯,那是星期四的事’。”
艾登從小就從他的父親——一位名叫亞倫·利伯曼的科技企業家——那裡學到了保持好奇心和全面發展的重要性。“我花了很多天,甚至暑假都和他一起在他的工廠裡工作,”艾登說。“我父親總是強調,一個人可以透過將想法變成現實來養活自己。他給了我很多自信。這很有幫助,因為當你在工作中突然改變主題時,你所帶走的只有你的頭腦和你對自己解決問題的能力的信心。”
作為一名本科生,他在普林斯頓大學學習了數學、物理和哲學。“我的理由是,我將能夠從第一性原理弄清楚宇宙,並做出所有後續的人生決定,”他笑著說。“這是一種在高中時對你來說有意義的事情。哦,是的,一切都將簡化為量子力學,你可以解決它……無論如何,那是一個災難性的失敗。”再一次,尋求“除錯這個失敗”的努力導致了一些有趣的事情。
“事實證明,你無法從第一性原理弄清楚一切,因為似乎發生了很多事情,而且我在 1980 年出生之前對宇宙一無所知,”他乾巴巴地說。“所以我想我必須去了解那些東西。”為了做到這一點,他在紐約的葉史瓦大學花了一年時間攻讀歷史碩士學位。他上了從現在倒溯到過去的課程,從古代史向前閱讀(他現在可以閱讀亞拉姆語),並在兩條時間線在 17 世紀相遇時停止。
最終,艾登回到了科學領域,在哈佛大學獲得了應用物理碩士學位,並在哈佛大學和麻省理工學院獲得了應用數學和生物工程博士學位。但是,他對人文學科的涉足從未離開他的身邊。他迄今為止最雄心勃勃的專案——文化組學——很大程度上是所謂的“兩種文化”的融合。
*****
再一次,它始於一次談話,這次是史蒂芬·平克。平克提到,雖然只有百分之三的英語動詞是不規則的(例如“be”或“do”),但它們是最常用的動詞。所有十個最常用的動詞都是不規則的。對於長期以來一直在思考如何以數學方式研究文化的艾登來說,這個瑣事是不可抗拒的。他與讓·巴蒂斯特·米歇爾一起繪製了不規則動詞的演變軌跡,從 9 世紀的《貝奧武夫》到 13 世紀的《坎特伯雷故事集》,再到 21 世紀的《哈利波特》。他們專注於 177 個不規則動詞,發現它們隨著時間的推移會“規則化”,而較少見的動詞會更快地符合規則。(在這段早期影片中聽他談論他的專案)。
更令人驚訝的是,這種符合規則的道路可以用一個非常簡單的數學公式來描述。動詞的規則化方式“與頻率的平方根成反比”。如果一個動詞的使用頻率比另一個動詞低一百倍,它就會快十倍地規則化。如果它的使用頻率低一百萬倍,它就會快一千倍地規則化。根據動詞出現的頻率,你可以預測它何時會屈服於規則。“read”不太可能很快變成“readed”,但“burnt”正在迅速被“burned”所取代。
結果令人著迷,但搜尋舊書是一項令人羨慕的任務。“資料收集花了一年半的時間。這非常痛苦,而且是一次孤注一擲的嘗試,因為我們從來不知道它是否會奏效,”艾登說。“最後,我們說,我們再也不能這樣做了。”幸運的是,他們再也不需要這樣做了。當論文即將付印時,艾登回去檢查他的中古英語文字,以核實他的事實,並意識到,與此同時,其他人已經把它們取走了——谷歌。
2004 年,谷歌開始數字化世界上的書籍,這是一項雄心勃勃的專案,此後掃描了來自 40 多所大學圖書館的 1500 多萬本書。這個線上語料庫代表了有史以來出版的所有書籍的 12%,這是人類文化的大量電子記錄。“在某種程度上,這非常令人尷尬,”艾登說。“我們意識到我們的方法已經完全過時了。很明顯,你無法與這個數字化巨頭競爭。”
因此,艾登和米歇爾沒有競爭,而是決定加入他們。他們的想法很簡單:他們會使用谷歌語料庫中的詞語來追蹤文化隨時間變化的路徑,就像古生物學家使用化石來推斷生物的進化一樣。谷歌的研究主管彼得·諾維格從第一次會議就被說服了。
隨著專案的優點變得清晰,公司的承諾(及其資金)也在增加,但仍存在嚴重的障礙。“在專案進行到一半時,谷歌被所有人起訴,”艾登說。“這沒有任何幫助。”資料也存在問題。在某些情況下,掃描不夠清晰,而在另一些情況下,諸如出版日期之類的“元資料”通常不準確。這意味著像“網際網路”這樣的詞語會在這種東西出現之前就出現。
花了整整一年的時間來清理資料,但仍然存在缺陷。最終,艾登和米歇爾將自己限制在語料庫的三分之一——大約 500 萬本六種語言的書籍。他們提取了數十億個單詞和短語(“n 元語法”),並追蹤了它們隨時間變化的頻率,將所有內容編譯成一個任何人都可以下載和探索的大型資料集。
當時,艾登寫道,“這些共同提供了一個巨大的骨骼寶庫,從中可以重建一門新科學的骨架。”他將這門科學命名為“文化組學”——對人類文化進行定量研究。它被設想為人類基因組計劃的文化等價物——一個數據寶庫,供學者或更休閒的使用者透過谷歌流行的n 元語法檢視器進行仔細研究。
米歇爾和艾登於2010 年向世界展示了文化組學,並發表了一篇論文,提供了 n 元語法潛力的品嚐拼盤。它展示了英語詞彙的擴充套件性質及其語法的演變性質。它顯示了“男人”和“女人”在頻率上的趨同,新技術以越來越快的速度滲透到文化中,以及名人攀升到越來越高的名望頂峰,但從這些頂峰跌落的速度也更快。它甚至揭示了壓制和審查的痕跡——在 1989 年之後,“天安門廣場”可疑地從中文文字中消失了,納粹德國時期的猶太藝術家和學者也從德語文字中消失了。
新方法令人大開眼界,但它不可避免地會引發爭議。“人文學科內部存在重要的子群體,他們對此感到憤怒,”艾登說,“因為這篇論文中沒有人文主義者或歷史學家。”這種批評對一個經常從一個領域跳到另一個領域的人來說是令人困惑的。“[資格]我從來沒有覺得它是一個相關的東西,”他說。相比之下,當他發表 3D 基因組論文時,他獲得的最高學位是歷史碩士學位。“在科學界沒有人關心!”
其他批評者則專注於資料的問題,n 元語法檢視器的使用者自己也發現了這些問題。艾登對此感到沮喪。“我們在論文中說過,1800 年到 2000 年範圍之外的資料存在巨大的問題,但這就像如果你得到一臺 TiVo 或 Wii,你不會花時間閱讀說明書。你只是想玩它。我希望那些認真對待這項工作的人最終會認識到該工具的價值。”
當然,有幾個人這樣做了,艾登有很多例子可以證明該專案在他眼中的價值。“[亞歷克西斯·馬德里加爾] 在《大西洋》上,沒有寫一篇關於核時代的專欄文章,而是收集了一堆關於它的 n 元語法。這些東西非常清晰、直觀和透明,人們會了解到這是一種讓公眾瞭解一些歷史的方式。”
也有更實質性的用途。維基百科比較了他們關於科學家的文章的質量與這些科學家透過 n 元語法衡量的知名度。“效果很明顯。更有名的人有更好的維基百科文章。這是一個很好的控制。這表明他們的編輯對什麼重要有很好的認識。”但分析發現了一些更不尋常的事情。它表明,女性科學家的文章系統性地比她們同等著名的男性同行的文章差。“人們談論說,15% 的維基百科編輯是女性,這有可能給維基百科本身帶來如此多的偏見。你可以推測這一點,但現在你可以衡量和檢查它。”
*****
艾登並沒有完成文化組學的研究。他和米歇爾現在是谷歌的客座教授(“我們可以訪問他們幾乎所有的資料,這打開了很多大門”)。他們在哈佛大學成立了一個名為文化觀察站的組織,旨在建立更強大的資料集,例如為文化組學提供支援的資料集。艾登甚至正在研究一個音樂版本,該版本會考察不同時期的樂譜。
再一次,資料質量是一個大問題——樂譜的註釋很差——但再一次,艾登在不相關領域的經驗正在產生意想不到的好處。他在從事失敗的免疫學專案時解決的一個技術難題,結果與註釋樂譜的問題“完全相同”。“我看到這一點是因為我曾在另一個領域工作過,投入了大量的時間並且瞭解它。”這些時刻證明了他遊牧生涯的合理性。“如果我們在一個房間裡,我們在談論 X,X 專家會比我更瞭解 X,但我會更瞭解非 X。每隔一段時間,一些非 X 的東西就會變得非常相關。”
這顯然是有代價的:在一個新領域很難立刻上手,艾登經常發現自己需要趕進度。 但對他來說,更廣闊的視野彌補了這一缺點。“人們對發明家有一種浪漫的幻想,認為他們是躲進山洞,然後拿出完全新穎的驚人事物的人。我認為,大量的發明在於認識到A和B能夠很好地結合在一起,將它們結合起來,從而得到更好的東西。 限制因素是知道A和B的存在。 這也是一個專家的一大劣勢——你會逐漸看不到周圍的事物。 我覺得我只是看到了更多。”
艾登的方法可以追溯到科學的早期時代,那時像萊布尼茨和牛頓這樣的博學家在不同領域都備受尊敬。 這樣的人在當今世界很少見,科學知識的不斷拓展將科學家們推向了狹隘的專業領域。 知識的遊牧民正在被擠壓。
但是艾登感覺到這種平衡正在發生變化,而網際網路的連線力量在其中發揮了重要作用。“三十年前,你不知道另一個領域在發生什麼,而且你也沒有谷歌。 可能需要幾個月才能弄清楚一個想法是好是壞。 現在,你可以在幾分鐘內很好地瞭解這一點,因為資訊更容易獲取。 這真的非常非常重要。 它使得從一個領域轉移到另一個領域變得容易得多。”
資訊的自由流動不僅使得更容易弄清哪些問題是可用的且易於處理的,而且還清楚地表明仍然存在多少問題,足以填滿一個學科跳躍的豐富職業生涯。“我從研究生院畢業時感覺一切都已經被完成了,”艾登說。“現在,我認為,哇,我們什麼都還不知道。”
*****
關於作者:艾德·楊是一位屢獲殊榮的英國科學作家。他撰寫了部落格Not Exactly Rocket Science,他的作品也曾發表在《新科學家》、《泰晤士報》、《WIRED》、《衛報》、《自然》、《每日電訊報》、《經濟學人》等刊物上。他的推特賬號是@edyong209。
所表達的觀點是作者的觀點,不一定是《大眾科學》的觀點。