2015 年 2 月 28 日

如何研究複雜的微生物世界 – 第 3 部分：從基因到基因組

在本系列的第一部分中，我討論了什麼是 DNA 測序，以及為什麼它是一個重要的工具。在第二部分中，我解釋了科學家目前正在使用的一些技術，以實際“讀取”來自生物體的 DNA 序列的字母。

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定反映《大眾科學》的觀點

在本系列的第一部分中，我討論了什麼是 DNA 測序，以及為什麼它是一個重要的工具。在第二部分中，我解釋了科學家目前正在使用的一些技術，以實際“讀取”來自生物體的 DNA 序列的字母。在最後一部分中，我將解釋我們如何從測序儀的讀數，到理解被測序樣本中生物體的一些資訊。

組裝基因組

生物體的基因組包含生物體生存和複製的所有*指令，以 DNA（或在某些病毒的情況下為 RNA）的語言編寫。最早完成全基因組測序的生物體是噬菌體——感染細菌的病毒——在 1970 年代。這些測序專案非常費力，基因組只有幾千個鹼基對長。在 1990 年代，第一個細菌基因組（近 200 萬個鹼基對）和酵母釀酒酵母（1250 萬個鹼基對）被測序。第一個人類基因組於 2004 年完成，高達 33 億個鹼基對。

關於支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保未來出現更多關於塑造我們今天世界的發現和想法的有影響力的故事。

我將複雜社群中微生物基因組的測序描述為走進圖書館，從書架上閱讀書籍。但問題是——閱讀書籍的類比在這裡有點失效，因為你不能只是從頭開始閱讀每個字母。更好的類比是將一本書扔進碎木機，然後嘗試從碎片中重新組裝它。更準確地說，你只有每個碎片上的文字，你甚至沒有邊緣的形狀，所以你無法知道什麼與什麼匹配。實際上，這個專案是不可能的。看看最後一句話，想象一下它被碎片化成

不可能

事實上

將會是

這個專案

這可能是“不可能這個專案將會是事實上”，或者“事實上不可能將會是這個專案”。相反，讓我們把同一句話扔進碎木機幾次——每次它都會隨機碎片化，所以第二次我們可能會得到

是不可能

在

專案將會

事實上這個

現在，透過對齊重疊的片段，我們有足夠的資訊來重建整個句子

現在將它乘以幾百萬次。希望這個類比能很快地說明幾件事——序列越長（從碎木機中出來的碎片越大），這將越容易，並且你需要平均讀取每個字母不止一次，在某些情況下要多次。

16S 核糖體譜分析

現代測序方法一次可以生成數百萬甚至數十億個短序列“讀數”，但正如我上面所說，每個鹼基你需要不止一個讀數，即使是單個基因組也通常有數百萬個鹼基。如果你想讀取複雜社群中每個微生物成員的整個基因組，你將需要多次測序執行。雖然自人類基因組計劃時代以來價格已經大幅下降，但仍然遠非廉價。

但是如果你想知道圖書館中的資訊，你不一定需要閱讀每本書的每一頁——僅僅獲得書名列表可能就足夠了。當然，有些書可能很晦澀，所以僅僅知道書名並不能告訴你一切，但是如果你有興趣比較例如紐約公共圖書館與馬薩諸塞州的圖書館的資訊多樣性，書名列表就足夠了。這就是 16S 核糖體譜分析背後的想法——本質上是瀏覽從你的碎木機出來的碎片堆，只看書脊。

就像每本書都有書名一樣，每個細菌都有一種基因，用於編碼 16S 核糖體的 RNA 成分——一種蛋白質合成所必需的分子。同樣有用的是，這種基因在細菌進化過程中變化不大，因此兩種微生物的 16S 基因之間的差異程度很好地代表了它們親緣關係的遠近。最重要的是：測序該基因的幾百個鹼基足以提取必要的資訊。

這是大量微生物生態學論文完成的方式——如果你看到一個餅圖，不同的顏色代表不同的微生物，它很可能是用 16S 核糖體譜分析完成的。

: 人類皮膚的 16S 譜 [圖片來自維基共享資源]

宏基因組學

有時，我們想要更多資訊。擴充套件我們的比喻，假設我們再次比較紐約和馬薩諸塞州的公共圖書館，但我們不僅僅關注書名的多樣性，我們還想更多地瞭解內容。例如，我們想知道書架上書籍的平均複雜程度。與其瀏覽我們的碎木機碎片堆來逐字逐句地組裝每本書，不如嘗試構建完整的句子並分析這些句子。不必知道每個句子來自哪本書，我們只需要知道，平均而言，該圖書館中句子的閱讀水平是多少。

宏基因組學是組裝完整基因組和 16S 譜分析之間的折衷方案。它比 16S 需要更多的“測序深度”——更多扔進碎木機的每本書的副本——但遠不如嘗試組裝完整基因組那麼多。樣本的宏基因組是對環境中存在的所有基因的表示，而不必知道哪些基因存在於哪些微生物中。16S 基因也將在宏基因組測序中被揭示，因此在這一點上，16S 譜分析的唯一優勢是成本。

RNA 測序

也許知道紐約與馬薩諸塞州圖書館書籍的複雜程度不是我們想要的，我們想知道讀者群的複雜程度。也許紐約圖書館有很多莎士比亞和魯米，但去圖書館的人只讀 E.L. 詹姆斯。我們真正想做的是分析哪些書正在被從書架上取走。

這就是 RNA-Seq 背後的想法，它著眼於——你猜對了！——RNA 的相對丰度。當細胞中的基因被開啟時，它們會在 RNA 分子中複製 DNA 基因，並且細胞中特定 RNA 序列的數量是衡量基因開啟程度的指標。這就像我們比喻的圖書館的讀者不允許借閱書籍，他們只允許影印他們想讀的書籍的頁面。

哪些基因被開啟或關閉比細胞擁有哪些基因更能控制細胞的行為（畢竟，你的心肌細胞和皮膚細胞擁有相同的基因，但行為卻截然不同），但是測序DNA並不能告訴我們哪些基因實際上正在表達，就像知道圖書館中的書籍並不能告訴你讀者的閱讀行為一樣。我在本系列第二部分中描述的相同技術可以應用於從細胞中提取的 RNA。

結論

我認識到前面的帖子缺乏任何具體的著力點，但請相信我，這將會有回報。下個月，我將開始談論一些使用這些方法的研究，希望這些解釋將成為經常返回的寶貴參考。

-----------------------------

*這並非完全正確——還有其他資訊（參見“表觀遺傳學”）可能會產生重要後果——但基本上是正確的。

第一部分：DNA 測序簡介

第二部分：下一代測序

第三部分：從基因到基因組（當前）