據軟體公司 Domo 稱,2018 年每分鐘,谷歌進行了 388 萬次搜尋,人們在 YouTube 上觀看了 433 萬個影片,傳送了 159,362,760 封電子郵件,釋出了 473,000 條推文,並在 Instagram 上釋出了 49,000 張照片。到 2020 年,全球每人每秒將產生約 1.7 兆兆位元組的資料,假設世界人口為 78 億,這相當於一年約 418 澤位元組(相當於 4180 億個 1TB 硬碟的資訊)。目前儲存這些 0 和 1 的磁或光資料儲存系統通常無法持續超過一個世紀,如果能達到的話。此外,執行資料中心需要消耗大量能源。簡而言之,我們即將面臨嚴重的資料儲存問題,而且隨著時間的推移只會變得更加嚴重。
硬碟的替代方案正在取得進展:基於 DNA 的資料儲存。DNA 由 A、T、C 和 G 四種核苷酸的長鏈組成,是生命的資訊儲存材料。資料可以儲存在這些字母的序列中,使 DNA 成為一種新的資訊科技形式。它已經可以輕鬆地進行常規測序(讀取)、合成(寫入)和精確複製。DNA 也非常穩定,對 50 多萬年前的馬的化石進行了完整的基因組測序就證明了這一點。而且儲存它不需要太多能量。
但其閃光點在於儲存容量。DNA 可以以遠超電子裝置的密度準確地儲存海量資料。例如,根據哈佛大學的喬治·丘奇及其同事 2016 年在《自然·材料》雜誌上發表的計算結果,簡單的細菌大腸桿菌的儲存密度約為每立方厘米 1019 位。按照這個密度,一個邊長約為一米的 DNA 立方體就可以很好地滿足全球一年的當前儲存需求。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
DNA 資料儲存的前景不僅僅是理論上的。例如,2017 年,丘奇在哈佛大學的團隊採用了 CRISPR DNA 編輯技術,將人手的影像記錄到大腸桿菌的基因組中,讀取準確率超過 90%。華盛頓大學和微軟研究院的研究人員開發了一個全自動系統,用於寫入、儲存和讀取編碼在 DNA 中的資料。包括微軟和 Twist Bioscience 在內的多家公司正在努力推進 DNA 儲存技術。
與此同時,研究人員正在以不同的方式使用 DNA 來管理資料,他們正努力理解海量資料。下一代測序技術的最新進展使得可以輕鬆且同時讀取數十億個 DNA 序列。憑藉這種能力,研究人員可以採用條形碼技術——使用 DNA 序列作為分子識別“標籤”——來跟蹤實驗結果。DNA 條形碼技術現在被用於顯著加快化學工程、材料科學和奈米技術等領域的研究步伐。例如,在佐治亞理工學院,James E. Dahlman 的實驗室正在快速識別更安全的基因療法;其他人正在研究如何對抗耐藥性和預防癌症轉移。
使 DNA 資料儲存普及面臨的挑戰包括讀取和寫入 DNA 的成本和速度,如果要與電子儲存競爭,還需要進一步降低。即使 DNA 不會成為一種普遍存在的儲存材料,它幾乎肯定會被用於生成全新規模的資訊,並在長期內儲存某些型別的資料。