本文發表在《大眾科學》的前部落格網路中,反映的是作者的觀點,不一定代表《大眾科學》的觀點
在本系列的第一部分中,我簡要介紹了為什麼對微生物的 DNA 進行測序是研究它們的一種有效方法
一個單獨的微生物就像一個龐大圖書館中的一本書。在過去的 100 年裡,我們已經學會了在某種程度上閱讀和解釋生物系統的語言。但在大多數時間裡,我們的研究僅限於從書架上取下單獨的書籍並進行孤立的研究。
DNA 測序就像閱讀一本用 DNA 編寫的句子書 - 化學鹼基 A、T、G 和 C 的序列。現在是時候討論一下這實際上是如何完成的了。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過訂閱來支援我們屢獲殊榮的新聞報道。 透過購買訂閱,您將有助於確保關於塑造當今世界的發現和想法的具有影響力的故事的未來。
桑格測序
正如我在上一篇文章中提到的,第一代測序技術是由 弗雷德里克·桑格 在 1970 年代開創的。他的方法利用了另一項非常重要的技術 - 聚合酶鏈反應 (PCR) - 這使得科學家能夠在試管中複製 DNA 片段。通常在進行 PCR 時,您將 DNA 模板(您想要複製的內容)、引物(此處不重要 - 我們稍後會討論)、一種稱為“聚合酶”的酶(它將構建新的 DNA 片段)以及 DNA 的構建基塊(那些 DNA 鹼基,A、T、G 和 C)以酶可以使用的形式混合在一起。當這四件事混合在一起時,引物會粘附到模板 DNA 上,聚合酶會根據模板的序列新增 A、T、G 和 C。
但桑格使用了一個巧妙的技巧:除了 PCR 中使用的正常鹼基外,桑格還加入了一小部分可以新增到鏈中但不能再新增的鹼基。換句話說,如果聚合酶抓住了這個阻滯劑,反應就會停止。
假設我們將要 PCR 序列 AATCCCGTCAGT。我們在反應中加入大部分正常鹼基 A、T、G 和 C,但加入少量修飾的 T*。如果這種核苷酸被酶抓住,它將被新增到鏈中,但反應將停止。如果我們不新增任何正常的 T,我們會得到一堆 AAT,並且每個反應都會在那裡停止。但是,由於我們也添加了正常的 T,我們也會得到 AATCCCGT 和完整序列 AATCCCGTCAGT。桑格無法直接讀取序列,但他可以確定每個片段的長度,因此他會看到在位置 3、8 和 12 處有一個 T。透過對每種型別的終止鹼基進行單獨的反應,可以確定每次新增每種鹼基時返回的片段長度,從而確定完整的序列。
這個過程相當費力,但桑格方法的後續迭代為每個鹼基使用了不同顏色的熒游標記,並且可以透過雷射和顯微鏡觀察它們新增到鏈中(技術上更復雜,但這是它的要點)。這些創新將 DNA 序列從一項高度專業化的技術轉變為世界上大多數生物實驗室每天都在使用的技術。桑格測序今天仍在被使用,但對於許多現代應用(如研究微生物群落)所需的數十億個鹼基進行測序是不切實際的。為此,我們需要轉向“下一代”測序技術。
合成測序 (Illumina)
如今,下一代測序市場由 Illumina 主導。基因測序價格下跌的圖表很大程度上是由這家公司推動的。就在去年,Illumina 宣佈他們實現了 1000 美元的人類基因組。但從概念上講,該過程與桑格測序並沒有太大區別 - 他們仍然在觀察逐個新增到模板鏈上的鹼基的熒游標記。他們成功的關鍵是最大化一次可以讀取的模板數量。
這段相對專業的影片更詳細地解釋了這個過程,但要點是,模板鏈被固定在固體表面上並就地擴增。換句話說,單個鏈的許多副本以類似於 PCR 的方法進行擴增,只是它們被固定在原位而不是漂浮在湯中。但是,在單個表面(稱為流動池)上,可以有許多不同的 DNA 鏈。然後,當進行測序時,您正在觀察來自物理表面上單個位置的熒光訊號,而不是需要每個 DNA 鏈的單獨試管。
最新一代的測序儀(稱為“HiSeq”)一次可以測序 30 億個 DNA 片段。這項技術的關鍵限制是每個單獨序列的長度 - 它們只有 150 個鹼基長。根據序列的使用方式,可能會導致問題,我將在下一篇文章中討論。有時,如果序列較長,則較少的序列是一種更好的方法。
看看這段影片的前 ~3 分鐘(其餘部分是為下面解釋的不同技術做的廣告宣傳)
離子激流測序
同樣,離子激流測序背後的想法是相似的,因為鹼基在新增到 DNA 模板時被讀取。但是,離子激流與桑格的初始方法(每個鹼基型別單獨反應)更相似。然而,離子激流不是在凝膠上進行每次反應,而是測量少量液體中的電變化。每新增一個鹼基,都會釋放出氫離子,從而微妙地改變溶液的 pH 值。在可以讀取這些微小變化的半導體晶片上進行反應,並記錄已添加了鹼基。系統每 15 分鐘迴圈一次每個鹼基,並記錄哪些單獨的孔發生了 pH 值變化。
從理論上講,這項技術比 Illumina 測序更快,產生的序列讀取長度稍長,並且不需要修飾的鹼基(不需要熒游標記)。Life Technologies 正在推動離子激流,因為它有可能將測序技術掌握在更多的實驗室和醫院手中,因為分析儀比大型 Illumina 機器便宜得多,並且不需要大量的技術培訓即可使用。但是,這些系統的輸出仍然落後於 Illumina 的技術,並且每個鹼基讀取的成本仍然高於 Illumina。如果您只是想在偏遠醫院的臨床樣本中識別病毒,這不是問題,但該技術對於大型微生物群落樣本來說是不切實際的,因為獲得儘可能多的讀取次數和儘可能低的價格是首要任務。
單分子即時 (SMRT) 測序
SMRT 技術由公司 PacBio 商業化,差異很大。顧名思義,這種測序方法檢測單個 DNA 分子的序列(而不是依賴於擴增池)。在 SMRT 細胞中,不是固定 DNA 鏈並新增聚合酶,而是固定聚合酶,並將 DNA 鏈連線到聚合酶上。DNA 也可以環化,以便相同的片段將繼續迴圈透過相同的酶,從而允許在反應進行時多次讀取每個分子。鹼基再次透過熒光讀取,但 SMRT 細胞中涉及一些非常精巧的光學和物理知識,坦率地說,我不理解。
這項技術的優點是 PacBio 可以生成具有高精度的巨大序列讀取結果。換句話說,雖然 Illumina 的合成測序生成的讀取長度為 100-200 個鹼基,而離子激流可以生成長達約 400 個鹼基的讀取長度,但 SMRT 測序可以生成平均長度為數千個鹼基的讀取長度。這會以每個鹼基的個體讀取次數較少為代價(如果您觀看了上面的影片,這意味著錯誤檢查更加困難),但擁有非常長的讀取長度對於解析某些型別的基因組區域中的序列至關重要 - 更多詳細資訊將在下一篇文章中介紹。
其他技術
有很多聰明人在研究對 DNA 進行測序的方法,而且我確信還有其他有前途但我不太熟悉的技術。總的來說,對於大規模測序工作,任何給定技術最重要的特徵是
讀取長度
讀取次數
每個鹼基讀取的成本
在下一篇文章中,我將解釋我們如何從單個 DNA 序列到理解單個生物體或整個群落的結構。
---------------------------
第二部分:下一代測序(當前)
第三部分:從基因到基因組(即將推出!)