DNA:終極資料儲存解決方案

雙螺旋結構可以在幾乎難以想象的小體積記憶體儲驚人的資訊量

A double helix whose strands are covered in tiny numbers.

在一個數據氾濫的世界中,如何經濟高效地找出資料儲存地點和方式日益成為一個更大的問題。其中一種最奇特的解決方案可能最終成為最佳方案之一:將資訊存檔在DNA分子中。

目前主流的長期冷儲存方法可以追溯到20世紀50年代,是將資料寫入披薩大小的磁帶卷軸上。相比之下,DNA儲存可能更便宜、更節能且更持久。研究表明,適當用鹽封裝的DNA在室溫下保持穩定數十年,並且在資料中心的受控環境中應該持續更長時間。DNA不需要維護,並且儲存在DNA中的檔案可以輕鬆複製,成本可忽略不計。

更棒的是,DNA可以在幾乎難以想象的小體積記憶體儲驚人的資訊量。考慮一下:到2025年,人類將產生估計為33澤位元組的資料——那是3.3後面跟著22個零。DNA儲存可以將所有這些資訊壓縮到一個乒乓球中,並且還有剩餘空間。美國國會圖書館中7400萬億位元組的資訊可以被塞進一個罌粟籽大小的DNA檔案中——超過6000倍。將這顆種子分成兩半,你就可以儲存所有Facebook的資料。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。


科幻小說?絕非如此。DNA儲存技術今天已經存在,但為了使其可行,研究人員必須清除圍繞整合不同技術的一些令人生畏的技術障礙。作為一項重要的合作工作的一部分,我們在洛斯阿拉莫斯國家實驗室的團隊開發了一種用於分子儲存的關鍵使能技術。我們的軟體,自適應DNA儲存編解碼器 (ADS Codex),將計算機理解的零和一的二進位制語言中的資料檔案轉換為生物學理解的四字母程式碼。

ADS Codex是情報高階研究計劃署 (IARPA) 分子資訊儲存 (MIST) 計劃的關鍵組成部分。MIST 旨在為政府和私營部門的大資料運營帶來更便宜、更大、更持久的儲存,短期目標是在 24 小時內以 1,000 美元的成本寫入 1 太位元組(萬億位元組)並讀取 10 太位元組。

從計算機程式碼到遺傳程式碼

當大多數人想到 DNA 時,他們想到的是生命,而不是計算機。但 DNA 本身就是一種四字母程式碼,用於傳遞有關生物體的資訊。DNA 分子由四種類型的鹼基或核苷酸組成,每種鹼基或核苷酸都用一個字母標識:腺嘌呤 (A)、胸腺嘧啶 (T)、鳥嘌呤 (G) 和胞嘧啶 (C)。它們是所有 DNA 程式碼的基礎,為地球上每個生物體的構建提供了說明手冊。

DNA 合成是一種相當成熟的技術,已廣泛應用於醫藥、製藥和生物燃料開發等領域。該技術將鹼基組織成由 A、C、G 和 T 的特定序列指示的各種排列。這些鹼基以扭曲的鏈狀相互纏繞——熟悉的雙螺旋結構——形成分子。這些字母排列成序列,建立了一個程式碼,告訴生物體如何形成。

DNA 分子的完整集合構成了基因組——你身體的藍圖。透過合成 DNA 分子——從頭開始製造它們——研究人員發現他們可以指定或寫入字母 A、C、G 和 T 的長字串,然後再讀回這些序列。該過程類似於計算機儲存二進位制資訊的方式。從那裡,將二進位制計算機檔案編碼到分子中只是一個很小的概念步驟

該方法已被證明可行,但當前讀取和寫入 DNA 編碼的檔案需要很長時間。向 DNA 新增單個鹼基大約需要一秒鐘。以這種速度寫入存檔檔案可能需要數十年,但研究正在開發更快的方法,包括一次寫入多個分子的並行大規模操作。

翻譯中無損耗

ADS Codex 準確地說明了如何將零和一轉換為 A、C、G 和 T 的四字母組合序列。Codex 還處理解碼回二進位制。DNA 可以透過多種方法合成,ADS Codex 可以適應所有方法。

不幸的是,與傳統的數字系統相比,使用 DNA 合成寫入分子儲存時的錯誤率非常高。這些錯誤與數字世界中的錯誤來源不同,因此更難糾正。在數字硬碟上,當零翻轉為一或反之亦然時,會發生二進位制錯誤。對於 DNA,問題來自插入和刪除錯誤。例如,您可能正在寫入 A-C-G-T,但有時您嘗試寫入 A,但沒有任何內容出現,因此字母序列向左移動,或者它鍵入 AAA。

正常的糾錯碼在這種問題上效果不佳,因此 ADS Codex 添加了錯誤檢測碼來驗證資料。當軟體將資料轉換回二進位制時,它會測試以檢視程式碼是否匹配。如果它們不匹配,它會刪除或新增鹼基——字母——直到驗證成功。

智慧擴充套件

我們已經完成了 ADS Codex 的 1.0 版本,並計劃在今年晚些時候使用它來評估其他 MIST 團隊開發的儲存和檢索系統。這項工作非常符合洛斯阿拉莫斯作為我們國家安全使命一部分在計算領域開創新發展的歷史。自 20 世紀 40 年代以來,作為這些計算進步的成果,我們積累了一些最古老和最大的純數字資料儲存。它仍然具有巨大的價值。因為我們永久儲存資料,所以在尋找冷儲存解決方案方面,我們長期以來一直處於領先地位,但我們並非孤軍奮戰。

世界上所有的資料——你所有的數字照片和推文;全球金融部門的所有記錄;所有農田、部隊調動和冰川融化的衛星影像;現代科學如此多的基礎模擬;以及更多——都必須去某個地方。“雲”根本不是雲。它是巨大倉庫中的數字資料中心,消耗大量電力來儲存(並保持冷卻)數萬億兆位元組。這些資料中心的構建、供電和執行成本達數十億美元,隨著資料儲存需求的持續指數級增長,它們可能難以維持生存。

DNA 在滿足世界對資料儲存的巨大需求方面顯示出巨大的潛力。該技術需要新工具和應用熟悉工具的新方法。但如果有一天世界上最有價值的檔案在一個罌粟籽大小的分子集合中找到新家,請不要感到驚訝。

ADS Codex 的資金由情報高階研究計劃署 (IARPA) 提供,IARPA 是國家情報總監辦公室下的一個研究機構。 

這是一篇觀點和分析文章。

© .