早在人類發明硬碟驅動器數十億年前,進化就選擇了 DNA 來儲存其最珍貴的資訊:遺傳密碼。隨著時間的推移,DNA 在這項任務中變得如此精通,以至於地球上所有已知的生命形式都使用它。隨著最近的技術突破使我們能夠輕鬆地“讀取”和“寫入” DNA,科學家們現在正在重新利用這種古老的分子來儲存新型資訊——人類在大資料時代正以指數級速度生成的資訊。
重新利用 DNA 來儲存遺傳密碼以外的資訊的概念已被廣泛討論。畢竟,計算機程式碼的 1 和 0 正逼近物理學的極限。最近,曾經是最受歡迎的社交網路 Myspace 宣佈,在伺服器遷移專案中,十年的資料可能已永久丟失,這暴露了安全儲存我們建立的所有資料的挑戰之一。資料的長期保護,例如在一個休眠期後重啟的網站的資料,暴露了現有技術的脆弱性和笨拙之處。而且這不僅僅是一個空間問題:維護資料儲存需要大量的能源。
DNA 的特性有可能解決這些問題。首先,DNA 的雙螺旋結構非常適合資訊儲存,因為知道一條鏈的序列會自動告訴你另一條鏈的序列。DNA 也可在較長時間內保持穩定,這意味著資訊的完整性和準確性可以得到維護。例如,在 2017 年,科學家分析了從 8100 年前的人類遺骸中分離出的 DNA。這些遺骸甚至在整個時間內都沒有在理想的條件下儲存。如果儲存在陰涼乾燥的環境中,DNA 幾乎肯定可以持續數萬年。DNA 也可在較長時間內保持穩定,這意味著資訊的完整性和準確性可以得到維護。
支援科學新聞事業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
然而,雙螺旋結構最引人注目的方面也許是它可以摺疊成非常密集的結構。為了比較,每個人體細胞都包含一個直徑約為 0.00001 米的細胞核。然而,如果將單個細胞核內的 DNA 拉伸開來,它將達到兩米。換句話說,如果將一個人體內的 DNA 串在一起,它將延伸 100 萬億米。2014 年,科學家們計算出,理論上可以將 455 艾位元組的資料儲存在一克 DNA 中。這種資訊儲存密度比硬碟驅動器中的物理儲存密度高約一百萬倍。
儘管 DNA 通常被認為是儲存介質,但在它可能取代傳統硬碟驅動器之前,仍有重大的科學、經濟和倫理障礙需要克服。與此同時,DNA 正日益廣泛地——並且立即地——作為一種更廣泛的資訊科技變得有用。例如,DNA 已被用於記錄老好萊塢電影,將經典影片儲存在遺傳密碼中,而不是脆弱的微縮膠片中。甚至在最近,DNA 已被用作設計更安全的基因療法、加速抗癌藥物開發,甚至生成可能是第一個活生物體的基因“直播”的工具。在這個不斷發展的領域的前沿,人們追求 DNA 不僅僅是為了長期資料儲存,也是為了促進前所未有的資料生成速度。這是因為 DNA 比任何其他分子在兩個方向上都更具可擴充套件性:它使我們能夠大幅擴充套件我們建立的資料量,並縮小儲存它們所需的資源。
加速新型奈米粒子
近年來,科學家們越來越多地使用 DNA 作為分子記錄器,以瞭解和跟蹤他們的實驗結果。在許多情況下,這個過程涉及 DNA 條形碼:為了標記和跟蹤單個實驗的結果,科學家們使用已知的 DNA 序列作為分子標籤。例如,一個實驗結果可能與 DNA 序列 ACTATC 相關聯,而另一個結果可能與 TCTGAT 相關聯,依此類推。
DNA 條形碼技術自 1990 年代初期就已出現,當時斯克裡普斯研究所的理查德·勒納 (Richard Lerner) 和已故的悉尼·布倫納 (Sydney Brenner) 都提出了將其作為跟蹤化學反應的一種方法。他們的概念非常具有創新性,但卻超前於時代:能夠輕鬆且廉價地讀出 DNA 的技術尚未開發出來。其潛力只有在許多科學家為核苷酸化學、微流體和其他方法做出貢獻之後才得以實現,這些方法共同促成了所謂的下一代測序的出現。2005 年,研究人員報告說,在一個四小時的實驗中分析了 2500 萬個 DNA 鹼基,這是一個重大的突破。
下一代測序技術持續快速改進;現在可以輕鬆地同時讀取數百萬個 DNA 序列,這意味著可以同時進行和分析數千個實驗。使用下一代測序技術分析 DNA 條形碼實驗本身就是一種資料管理形式:科學家們可以一次性提出 20,000 個預測並全部進行測試,以檢視哪個是正確的,而不是一次測試一個想法。
生物學家是第一個廣泛利用 DNA 條形碼技術的人。隨著這項技術變得更容易獲得,包括化學工程和材料科學在內的許多不同領域的研究人員正在使用這項技術以全新的規模進行實驗。例如,在我位於佐治亞理工學院的實驗室中,工程師們正在使用 DNA 條形碼來改進奈米粒子的設計和功能,以便它們能夠安全地將藥物輸送到病變細胞。奈米技術主要依賴於物理學和化學工程,似乎與 DNA 完全無關。但是,當您將 DNA 視為跟蹤和儲存任何資料的一種方式時,它作為一種組織工具的效用就變得顯而易見了。
致謝:詹·克里斯蒂安森 (Jen Christiansen);來源:“數百種奈米粒子介導的體外和體核心酸遞送的直接比較揭示了弱相關性”,作者:卡琳娜·帕諾夫斯卡 (Kalina Paunovska) 等人,載於《奈米快報》 Nano Letters,第 18 卷,第 3 期;2018 年 3 月 14 日
奈米技術學家面臨的一個基本問題是,設計實驗來尋找有效的療法仍然比執行實驗和分析結果容易得多。這是因為單個奈米粒子的形狀、大小、電荷、化學成分和許多其他變數都會改變它們將基因藥物輸送到病變細胞的效果。此外,這些因素相互作用,使得研究人員很難預測哪種奈米粒子將以最靶向的方式輸送其藥物。一個顯而易見的解決方案是逐一評估每個奈米粒子。但是,已開發出 RNA 藥物奈米粒子的老牌製藥公司的資料表明,這種型別的測試可能需要數億美元才能完成。
這就是 DNA 的儲存能力可以取得重大進展的地方。為了增加我們能夠測試的奈米粒子的數量,我們可以設計數千種具有不同化學結構的奈米粒子——例如,大的、帶正電荷的球體或小的、不帶電荷的三角形——併為每種奈米粒子分配一個 DNA 條形碼。
奈米粒子一號,具有化學結構一,攜帶 DNA 條形碼一。奈米粒子二號,具有化學結構二,攜帶 DNA 條形碼二。我們多次重複此條形碼編碼過程,從而建立許多不同的奈米粒子,每種奈米粒子都有其獨特的分子 DNA 標籤。然後,我們可以將數百種這些奈米粒子施用於病變細胞。為了識別最成功地遞送藥物的奈米粒子,我們使用 DNA 測序來量化細胞內的條形碼。
這種實驗的規模對於奈米醫學來說是全新的。“傳統”的實驗在我的領域中產生一到五個資料點。到 2019 年底,我的實驗室希望量化 500 種不同的奈米粒子如何將基因療法輸送到 40 種不同的細胞型別。這樣做相當於同時執行 20,000 個實驗。
因此,我們還需要建立一個數據分析管道,該管道能夠監控資料質量,並幫助我們統計性地測試我們的結果。首先,我們測量了一個重複實驗的結果在多大程度上預測了另一個實驗的遞送效果。一旦我們知道大型資料集是可靠的,我們就使用統計學方法來詢問某些奈米粒子特徵(例如它們的大小)是否會影響向靶組織的遞送。我們發現,奈米粒子的化學性質,而不是它的大小,決定了奈米粒子的遞送效果。透過這種方法,我們希望使用更少的資源更快地發現安全的基因療法。我們的目標之一是找到一種可以特異性地遞送基因療法以幫助殺死腫瘤的奈米粒子,從而減少諸如噁心和脫髮等伴隨現有治療方法的副作用。
我們已經取得了一些成功。2018 年,透過使用 DNA 條形碼實驗生成的大型資料集,我們快速識別出將基因療法輸送到內皮細胞(血管內壁細胞)以及幾種免疫細胞(控制我們身體對疾病的反應的細胞)的新型奈米粒子。這一發現可能會改變治療方法,使我們能夠改變免疫細胞中目前“不可成藥”的蛋白質的活性,這意味著這些蛋白質很難用小分子藥物或抗體靶向。由於 2018 年和 2019 年發表在包括美國國家科學院院刊、先進材料和美國化學學會雜誌在內的期刊上的資料,我們收到了來自其他基因治療師的大量興趣,並得以成立 GuideRx,這是一家專注於高效開發安全基因療法的條形碼編碼公司。
DNA 條形碼編碼現在已變得非常普遍,甚至在單個領域內也以不同的方式應用。癌症生物學就是一個例子,它研究基因突變如何導致癌症以及新藥如何治療癌症。耐藥性仍然是該領域的一個主要挑戰:患者通常最初對藥物有反應,但隨著藥物失去殺死腫瘤細胞的能力而復發。
哈佛大學託德·戈盧布 (Todd Golub) 實驗室的科學家們使用 DNA 條形碼編碼來研究這種耐藥性。在 2016 年,他們描述了他們如何使用病毒將 DNA 條形碼永久性地插入癌細胞的基因組中。癌細胞型別 A 接收條形碼序列 A;癌細胞型別 B 接收條形碼 B,依此類推。科學家們將不同的細胞混合在一起,將其鋪在培養皿上,並用抗癌藥物處理它們。
如果藥物殺死了癌細胞或減緩了其生長,那麼細胞就不會分裂。但是,如果細胞對藥物產生耐藥性,那麼它就會迅速分裂。因此,隨著時間的推移,如果細胞型別 A 對藥物產生耐藥性,則條形碼序列 A 的相對量會增加;或者,如果細胞型別 A 被藥物殺死,則條形碼序列 A 的相對量會減少。透過對來自存活細胞的所有條形碼進行測序,該實驗室量化了所有細胞型別同時對藥物的反應程度。
同年晚些時候,斯坦福大學蒙特·溫斯洛 (Monte Winslow) 實驗室使用 DNA 條形碼化的胰腺細胞系來識別阻止癌症擴散或轉移的藥物。該實驗室使用病毒對每個細胞系進行條形碼編碼,然後將每個細胞系鋪在其自身的孔中。然後,用抗癌藥物處理每個孔。透過這種方式,藥物一與條形碼一相關聯。此後不久,科學家們將細胞注射到血液中,然後他們測量了哪些細胞擴散到肺部。透過識別豐富或缺失的條形碼,研究人員分別識別出促進或阻止轉移的藥物。
在第三個例子中,麻省理工學院和哈佛大學布羅德研究所的科學家們使用 DNA 條形碼編碼來研究基因組中的所有基因如何影響單一癌症。研究人員首先培養了大量的細胞,並將它們一起鋪在大型培養皿中。然後,他們使用基因編輯系統逐個滅活或啟用基因組中的所有基因。其表達受到調節的基因的序列充當條形碼。透過用抗癌藥物處理細胞並隨著時間的推移對 DNA 進行測序,科學家們可以瞭解基因組中的每個基因如何影響耐藥性。
在這些方法中,DNA 既充當資料生成分子(因為它需要同時執行所有實驗),又充當資料儲存分子(因為下一代測序技術用於分析 DNA 條形碼)。其意義令人震驚:相同的技術可以應用於自身免疫性疾病、神經系統疾病和心血管功能障礙。透過一個簡單的練習可以理解使用 DNA 條形碼編碼的全部威力。在前面討論的示例中,將“癌症”一詞替換為不同的疾病,或將“耐藥性”一詞替換為任何期望的藥物反應。透過這種方式,DNA 條形碼編碼定位於從根本上簡化早期藥物開發,從而加速有效療法的問世。
讀取與寫入
DNA 條形碼編碼依賴於“讀取”已知的 DNA 序列。然而,直到最近,實際“寫入”DNA 序列還是不可能的。廣義上講,我將寫入 DNA 理解為有目的地將其他形式的資訊(例如圖片、電影或生物學狀態)轉換為可以儲存並在以後讀出的序列。許多這些新的寫入技術是由源自成簇規律間隔的短迴文重複序列 (CRISPR) 的基因編輯系統驅動的。藉助合理設計的 CRISPR 系統,科學家們可以寫入 DNA 序列。
最近的幾項進展利用了 CRISPR 系統自然進化來防禦細菌免受病毒攻擊的方式。更具體地說,病毒透過結合到細菌表面,然後插入其病毒 DNA 或 RNA 來攻擊細菌。為了“記住”病毒以備將來攻擊,細菌進化出了 CRISPR 系統,該系統可以識別病毒 DNA 或 RNA,然後將 DNA 的小片段插入到它們自己的基因組中。換句話說,細菌正在“寫入”或“記錄”攻擊過它們的病毒的歷史,以保護自己。
DNA 的雙螺旋結構使其成為理想的儲存介質。但它還無法取代傳統的硬碟驅動器。致謝:Getty Images
透過利用這種機制,在哈佛大學遺傳學家喬治·丘奇 (George Church) 實驗室工作,現在在加州大學舊金山分校工作的塞思·希普曼 (Seth Shipman) 使用 CRISPR 將人手的影像直接記錄到大腸桿菌的基因組中。為了完成這項任務,希普曼和他的同事首先表達了兩種蛋白質:Cas1 和 Cas2。這兩種蛋白質可以一起獲取 DNA 核苷酸並將其插入基因組中。然後,研究人員將編碼畫素的大腸桿菌 DNA 序列“餵給”大腸桿菌,這些畫素在測序後建立了手的影像。這樣做需要科學家們將資訊的不同方面分配給 DNA。例如,在一種情況下,A、C、G 和 T 各代表一種不同的畫素顏色,而相關的 DNA 條形碼序列編碼了畫素在整個影像中的空間位置。
透過對大腸桿菌的 DNA 進行測序,作者隨後以超過 90% 的準確率重現了原始影像。接下來,他們重複了實驗,但進行了一項重要的改進:他們以不同的時間添加了 DNA,幷包含了一種分析記錄的 DNA 序列相對於彼此的位置的方法。透過測量序列是較早還是較晚新增到大腸桿菌基因組中的,他們能夠建立一系列影像,從而編碼一部電影。研究人員記錄了來自第一部電影的一部分 GIF,該電影由埃德沃德·邁布里奇 (Eadweard Muybridge) 於 1878 年創作,描繪了一匹奔騰的馬。在 2017 年發表的一篇論文中,他們表明他們透過對細菌基因組進行測序重建了邁布里奇著名的電影。
甚至在最近,蘇黎世聯邦理工學院 (ETH Zurich) 蘭德爾·普拉特 (Randall Platt) 實驗室的科學家們做出了一項關鍵發現,透過靶向 mRNA(DNA 的關鍵分子近親),使這些方法更進一步。他們沒有記錄由非天然 DNA 序列編碼的影像,而是使用來自不同細菌物種的 CRISPR 系統來生成細菌中天然 mRNA 基因表達的所謂活體記錄。細胞中所有不同 mRNA 的組合決定了製造哪些蛋白質,從而決定了所有細胞功能。
為了記錄細胞在不同時間點產生的 mRNA,普拉特實驗室的科學家們首先篩選了來自許多不同細菌菌株的 CRISPR-Cas 蛋白。這個過程使他們能夠識別出能夠將天然 mRNA 轉化為 DNA 並將其編碼到基因組中的蛋白質。他們發現來自腐敗梭菌 (Fusicatenibacter saccharivorans) 的 Cas1 和 Cas2 蛋白能夠做到這一點。透過一系列使用特化病毒的優雅研究,該團隊在 2018 年證明,細胞準確地記錄了它們是否曾暴露於氧化應激、酸性條件甚至除草劑。
這些結果非常令人興奮,因為它們證明了細胞在給定時間自然表達的基因可以記錄到基因組中以供日後分析。隨著普拉特實驗室繼續改進這項技術,細胞記錄變得越來越可行。這項發展將使科學家們能夠跟蹤細胞如何癌變、隨著時間的推移對感染做出反應,甚至衰老。
DNA 儲存的普及
隨著 DNA 被用於在越來越多的領域中生成、跟蹤和儲存資訊,最明顯的問題是 DNA 最終是否會與傳統的電子儲存裝置競爭,以維護人類生成的所有數字資料。目前,答案是否定的——即使是最先進的 DNA 系統,硬碟驅動器和快閃記憶體裝置在儲存資訊方面也遠勝於它們。
但是,與所有技術一樣,傳統的電子裝置也存在侷限性。它們佔用物理空間並需要特定的環境條件;即使是最耐用的裝置也不太可能存活超過幾十年。考慮到這些問題,可能很快就難以維護我們今天正在生成的所有資料。
相比之下,如果儲存在陰涼乾燥的條件下,DNA 幾乎肯定可以持續數萬年。在需要非常冷條件的實驗室中,DNA 通常在 −20 甚至 −80 攝氏度的溫度下儲存,也可以在典型電子裝置無法承受的極端高溫下儲存。2015 年,蘇黎世聯邦理工學院的羅伯特·格拉斯 (Robert Grass) 和溫德林·斯塔克 (Wendelin Stark) 表明,儲存在二氧化矽中的 DNA 可以在 70 攝氏度的溫度下承受一週而不會引入任何錯誤。雖然硬碟驅動器每平方英寸可以容納高達 1 太位元的資料,但最近的估計表明,全世界生成的所有資訊理論上都可以儲存在不到一公斤的 DNA 中。
DNA 儲存要變得普遍,仍然需要克服重大的技術進步。主要的限制是儲存資訊與提取資訊並不相同。從硬碟驅動器獲取資料幾乎是瞬間完成的;從 DNA 中提取資料需要測序,目前測序需要幾分鐘到一天的時間才能完成。儘管在過去幾年中 DNA 測序儀取得了巨大的飛躍,但與硬碟驅動器相比,它們仍然體積龐大且價格昂貴。
在 DNA 儲存充分發揮其潛力之前,我們需要解決的障礙不僅僅是這些技術障礙。作為一個社會,我們需要認識到,DNA 測序的普及也意味著跟蹤人們將變得更加容易,同時也會為資料安全帶來新的漏洞。在美國和全球範圍內,隱私問題比比皆是。
在美國各地,警察部門已經在幾乎沒有監督的情況下使用 DNA 測序。透過要求被捕的人(即使是輕微犯罪)提供他們的 DNA,警察正在建立大型遺傳資訊資料庫。有些人認為這是 21 世紀的老式指紋識別的翻版,但存在一個關鍵的區別。指紋識別的是單個個體;如果您的親戚提供了他或她的 DNA,那麼該人正在釋出可以識別您或您家任何其他成員的資訊。在中國,在健康計劃的幌子下,官員們收集了近 3600 萬人的遺傳資訊。這個人群包括許多維吾爾族人——一個遭受歧視的穆斯林少數民族。目前尚不清楚政府將如何使用這些資料。
目前,圍繞 DNA 儲存的這些擔憂涉及個人的遺傳密碼本身——討論的重點是保護身份。但是,未來,如果其他類別的資訊(例如醫療保健資料、法律合同和個人數字歷史記錄)儲存在 DNA 中,這種情況將引發更多關於 DNA 儲存在物理安全和網路安全領域中的脆弱性的問題。由於如此多的資訊可以儲存在如此小的空間中,將如何分配資料以避免在單個地點過度集中?即使提取可以簡化,如何在不將資料暴露於惡意駭客攻擊或意外丟失的情況下,定期訪問和返回資料?
當我考慮到需要完成的所有艱苦工作——無論是科學上的還是倫理上的——時,它可能顯得令人生畏。我喜歡想起萊特兄弟,因為我在他們長大的同一個俄亥俄州小鎮長大。他們的第一次飛行持續了 12 秒和 37 米。六十六年後,在沒有現代計算優勢的情況下,人類登上了月球。這些壯舉讓我感到樂觀,我們可以在未來幾十年內利用 DNA 的自然力量,並透過積極承認其作惡的能力,幫助確保它主要做好事。

