科技轉向生物學以應對爆炸式的資料儲存需求

微軟和其他公司對基於 DNA 的儲存的興趣可能會在十年內帶來後矽電子儲存器

研究人員在過去幾年中利用從化石中提取的 DNA 片段,解碼了猛獁象和一匹 70 萬年前馬的基因組。DNA 顯然比它攜帶遺傳密碼的生物體存在的時間更長。

計算機科學家和工程師長期以來夢想著利用 DNA 的微小和彈性來儲存數字資料。這個想法是將所有的 0 和 1 編碼到構成扭曲的梯形 DNA 聚合物的分子 A、C、G 和 T 中——而這十年在 DNA 合成和測序方面的進步使這項技術向前邁進了一大步。最近的實驗表明,我們或許有一天能夠將全世界的數字資訊編碼到幾升 DNA 中——並在數千年後將其讀回。

現在,微軟和其他科技公司的興趣正在為該領域注入活力。微軟研究院上個月宣佈,它將向合成生物學初創公司 Twist Bioscience 支付一筆未公開的金額,以製造 1000 萬條 DNA 鏈,這些鏈由微軟的計算機科學家設計,用於儲存資料。頂級記憶體製造商美光科技也在資助 DNA 數字儲存研究,以確定基於核酸的系統是否可以擴充套件電子儲存器的極限。研究人員表示,資金和興趣的湧入可能會推動研究和進步,最終降低當前高昂的成本,並在十年內使 DNA 資料儲存成為可能。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


到 2017 年,人類將產生超過 16 萬億 GB 的數字資料,其中大部分需要存檔:例如:法律、金融和醫療記錄以及多媒體檔案。今天,資料儲存在耗能巨大的倉庫大小的資料中心的硬碟驅動器、光碟或磁帶上。這些介質的壽命從幾年到最多三十年不等。此外,微軟研究院計算機架構師卡琳·斯特勞斯說,“我們產生的資料量遠遠超過儲存行業生產的裝置,並且預測表明,這種差距預計會擴大。”

DNA 由此應運而生。如果保持寒冷和乾燥,它可以持續數個世紀。理論上,它可以將數十億 GB 的資料壓縮到一塊方糖大小的空間中。如今密度最高的儲存介質磁帶在相同的空間中可容納 10 GB。“DNA 是一種令人難以置信的密集、耐用、非易失性儲存介質,”伊利諾伊大學厄巴納-香檳分校的電氣和計算機工程教授 奧爾加·米倫科維奇 說。

這是因為它的四個基本分子——腺嘌呤 (A)、胞嘧啶 (C)、鳥嘌呤 (G) 和胸腺嘧啶 (T)——每個的體積只有立方奈米級。科學家可以使用一種編碼系統——最簡單的,例如 A 代表位元“00”,C 代表“01”,依此類推——科學家可以獲取構成數字資料檔案的 0 和 1 字串,並設計一條DNA 鏈來對映影像或影片。(當然,科學家使用的實際編碼技術要複雜得多。)合成設計師 DNA 鏈是資料寫入部分。然後,科學家可以透過測序鏈來讀取資料。

哈佛大學遺傳學家 喬治·丘奇在 2012 年啟動了這個領域,他在一立方毫米的 DNA 中編碼了 700 億份書籍——一百萬吉位元。一年後,歐洲生物資訊學研究所的研究人員表明,他們可以毫無錯誤地讀取儲存在 DNA 中的 739 KB 資料。

在過去一年中,一些團隊已經展示了功能齊全的系統。8 月,蘇黎世聯邦理工學院的研究人員將合成 DNA 封裝在玻璃中,將其暴露在模擬 2000 年的條件下,並準確地恢復了其編碼資料。與此同時,米倫科維奇和她的同事報告說,他們將六所美國大學的維基百科頁面儲存在 DNA 中,並透過給序列特殊的“地址”——選擇性地讀取和編輯書面文字的部分內容。她說,這種對資料的隨機訪問對於避免“為了只讀一個段落而必須對整本書進行測序”至關重要。

今年 4 月,微軟的斯特勞斯和華盛頓大學的計算機科學家喬治·西利格和路易斯·塞澤報告說,他們能夠使用他們自己的編碼方案,將三個影像檔案(每個檔案幾十 KB)寫入 40,000 條 DNA 鏈中——然後毫無錯誤地單獨讀取它們。他們在 4 月舉行的計算機協會會議上展示了這項工作。憑藉微軟從 Twist Bioscience 購買的 1000 萬條鏈,該團隊計劃證明 DNA 資料儲存可以在更大的規模上工作。“我們的目標是演示一個端到端系統,在該系統中,我們將檔案編碼到 DNA,合成分子,長期儲存它們,然後透過取出 DNA 並對其進行測序來恢復它們,”斯特勞斯說。“從位元開始,再回到位元。”

記憶體製造商美光科技正在探索 DNA 作為後矽技術。該公司正在資助哈佛大學的丘奇和博伊西州立大學的研究人員的工作,以探索無錯誤 DNA 儲存系統。“資料儲存成本的上升將推動替代解決方案,而 DNA 儲存是更有希望的解決方案之一,”美光科技先進技術開發主管 古爾捷·桑德胡 說。

這些研究人員仍在研究如何降低資料編碼和解碼中的錯誤率。但是該技術的主要部分已經到位。那麼,是什麼阻止我們擁有裝滿 DNA 載入玻璃膠囊的鞋盒大小的資料保險庫呢?成本。“寫入過程的成本大約高了一百萬倍,”西利格說。

原因如下:製造 DNA 涉及高精度地將奈米級分子逐個串聯在一起——這不是一件容易的任務。儘管由於疾病篩查和診斷等醫療應用的蓬勃發展,測序成本已大幅下降,但DNA 合成卻沒有類似的市場驅動因素。米倫科維奇支付了大約 150 美元來合成一串 1000 個核苷酸。對一百萬個核苷酸進行測序的成本約為 1 美分。

西利格說,微軟和美光科技對資料儲存的興趣可能正是開始降低成本所需的推動力。巧妙的工程和微流體和奈米孔 DNA 測序等新技術也將是關鍵,這些技術有助於小型化和加速程序。目前,使用多種儀器和人工製備 DNA,需要幾個小時才能對幾百個核苷酸對進行測序——需要幾天才能合成它們。“你會希望這一切都在一個非常小的盒子裡完成,否則你就會失去 DNA 儲存密度的優勢,”西利格解釋道。

如果一切順利,微軟的斯特勞斯設想公司將在未來十年內提供存檔 DNA 儲存服務。“您可以開啟瀏覽器並將檔案上傳到他們的網站或取回您的位元組,就像雲端儲存一樣,”她說。或者,隨著 DNA 合成和測序方面尚未實現的突破,“您可以購買 DNA 驅動器而不是磁碟驅動器。”

© .