以下文章經許可轉載自The Conversation,這是一個報道最新研究的線上出版物。
人類正在以驚人的速度產生資料,以至於儲存技術無法跟上。每五年,我們產生的資料量就會增加 10 倍,包括照片和影片。並非所有資料都需要儲存,但資料儲存製造商生產硬碟和快閃記憶體晶片的速度不夠快,無法 容納我們想要保留的內容。既然我們不會停止拍照和錄製電影,我們就需要開發新的方法來儲存它們。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
千百年來,自然進化出一種令人難以置信的資訊儲存介質——DNA。它進化為儲存遺傳資訊,即構建蛋白質的藍圖,但 DNA 的用途遠不止於此。DNA 也比現代儲存介質密度更高:數十萬張 DVD 的資料可以裝在一個 火柴盒大小的 DNA 包裝中。DNA 也更加耐用——可以持續數千年——而今天的硬碟可能只能持續 數年或數十年。而且,雖然硬碟格式和連線標準會過時,但 DNA 永遠不會過時,至少只要有生命存在。
將數字資料儲存在 DNA 中的想法已經有 幾十年歷史了,但 哈佛大學和 歐洲生物資訊學研究所 最近的工作表明,現代 DNA 操作方法的進步可能使之在今天既可行又實用。許多研究小組,包括 蘇黎世聯邦理工學院、伊利諾伊大學厄巴納-香檳分校 和 哥倫比亞大學 的研究小組,都在研究這個問題。我們在華盛頓大學和微軟的 研究小組 保持著世界紀錄,即成功儲存在 DNA 中並從中檢索的資料量——200 兆位元組。
準備將位元轉化為原子
硬碟、U 盤或 DVD 等傳統介質透過改變材料的 磁性、電特性 或 光學特性 來儲存數字資料,從而儲存 0 和 1。
要將資料儲存在 DNA 中,概念是相同的,但過程是不同的。DNA 分子是由稱為核苷酸的較小分子組成的長序列——腺嘌呤、胞嘧啶、胸腺嘧啶和鳥嘌呤,通常表示為 A、C、T 和 G。DNA 儲存不是像電子介質那樣建立 0 和 1 的序列,而是使用核苷酸的序列。
有幾種方法可以做到這一點,但總體思路是將數字資料模式分配給 DNA 核苷酸。例如,00 可以等同於 A,01 等同於 C,10 等同於 T,11 等同於 G。例如,要儲存圖片,我們從其作為數字檔案的編碼開始,例如 JPEG。該檔案本質上是一個長串的 0 和 1。假設檔案的前八位是 01111000;我們將它們分成對——01 11 10 00——它們分別對應於 C-G-T-A。這就是我們將核苷酸連線起來形成 DNA 鏈的順序。
數字計算機檔案可能非常大——即使是大型資料庫也可能達到太位元組大小。但是單個 DNA 鏈必須短得多——每個鏈只能容納大約 20 位元組。這是因為 DNA 鏈越長,化學合成就越困難。
因此,我們需要將資料分成更小的塊,並在每個塊中新增一個指示其在序列中位置的指示符。當需要讀取 DNA 儲存的資訊時,該指示符將確保所有資料塊保持正確的順序。
現在我們有了一個關於如何儲存資料的計劃。接下來我們必須實際去做。
儲存資料
在確定字母的排列順序後,DNA 序列透過化學反應逐個字母地製造出來。這些反應由裝置驅動,該裝置接收裝有 A、C、G 和 T 的瓶子,並將它們與液體溶液中的其他化學物質混合,以控制指定物理 DNA 鏈順序的反應。
這個過程為我們帶來了 DNA 儲存的另一個好處:備份副本。化學反應不是一次製造一條鏈,而是一次製造多條相同的鏈,然後再繼續製造該系列中下一條鏈的多個副本。
一旦 DNA 鏈被建立,我們需要保護它們免受 溼度和光照的損害。因此,我們將它們乾燥並放入容器中,使其保持低溫並阻擋水和光。
但是,只有當我們以後可以檢索儲存的資料時,儲存的資料才有用。
讀取回資料
要從儲存器中讀回資料,我們使用與 細胞基因組 DNA 分析完全相同的測序儀。這可以識別分子,為每個分子生成一個字母序列,然後我們將其解碼為 0 和 1 的二進位制序列。這個過程可能會在讀取時破壞 DNA——但這正是備份副本發揮作用的地方:每個序列都有許多副本。
如果備份副本耗盡,則很容易製作重複副本來重新填充儲存——就像自然界 一直複製 DNA 一樣。
目前,大多數 DNA 檢索系統都需要讀取儲存在特定容器中的所有資訊,即使我們只需要少量資訊。這就像讀取整個硬碟的資訊,只是為了找到一封電子郵件。我們已經開發了基於 經過充分研究的生物化學方法 的技術,使我們能夠 識別和讀取 使用者需要從 DNA 儲存中檢索的 特定資訊片段。
剩餘的挑戰
目前,DNA 儲存還處於實驗階段。在它變得普遍之前,它需要完全自動化,並且構建 DNA 和讀取 DNA 的過程都必須改進。它們都容易出錯且相對緩慢。例如,今天的 DNA 合成技術使我們能夠每秒寫入幾 百位元組;現代硬碟每秒可以寫入 數億位元組。一張普通的 iPhone 照片需要幾個小時才能儲存在 DNA 中,儘管在手機上儲存或傳輸到電腦上不到一秒鐘。
這些都是重大的挑戰,但我們很樂觀,因為所有相關技術都在快速進步。此外,DNA 資料儲存不需要生物學所需的完美精度,因此研究人員很可能會找到更便宜、更快捷的方法來將資訊儲存在自然界最古老的資料儲存系統中。
本文最初發表於 The Conversation。閱讀 原文。
