本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點
也許您在上週的《紐約時報》頭版看到了這張圖,它引出了艾米·哈蒙的文章,文章講述了來自各個實驗室的科學家聯合起來對抗寨卡病毒。研究人員的共同目標是:對病毒的蚊子載體——埃及伊蚊的基因組進行測序,希望更全面地瞭解這種昆蟲的基因構成,從而找到阻止其傳播導致人類疾病的病毒的方法。(上一次主要的——儘管不完整的——測序工作是2007年發表的)。
《紐約時報》的標題(如線上顯示)指出,您看到的是“最近測序的埃及伊蚊基因組的視覺化圖。3,752 條彩色線條中的每一條都是其三個染色體的片段……”
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
但這意味著什麼?您如何閱讀該圖表,它是如何構建的?為了找到答案,我聯絡了圖表的作者、加州大學舊金山分校安迪諾實驗室的博士後研究員馬克·庫尼托米。
該圖表的基因組序列資料由安迪諾實驗室與太平洋生物科學公司合作生成。正如哈蒙的文章中指出的那樣,目前也在追求其他測序方法,以進一步完善地圖。(要了解更多關於各種基因組讀取技術的資訊,請參閱喬治·丘奇在 2006 年 1 月刊的《大眾科學》中撰寫的“所有人的基因組”。要了解更多關於視覺化基因組相關的挑戰,請參閱馬丁·剋日溫斯基撰寫的“希爾伯特曲線揭示的人類和黑猩猩基因組之間的相似性”)。
圖表作者:馬克·庫尼托米
庫尼托米圖表中的每條彩色線條代表一個化學鹼基對序列——蚊子遺傳密碼的 A、T、C 和 G——研究人員對其準確性非常有信心。這些精確已知的化學鹼基對序列被稱為重疊群。下面的細節顯示了其中六個。
完整地圖中有 3,752 個重疊群。2007 年的草圖包含 36,206 個重疊群。持續測序工作的最終目標是最終只得到三條線;每條染色體一條連續的鹼基對序列。
每條彩色線條的長度代表一個重疊群中鹼基對的數量,範圍從大約 35,000 個(圖表上最小可見的線)到 7,901,702 個。埃及伊蚊細胞系的完整資料集由約 17 億個鹼基對組成,其中包括基因編碼區(基因)和基因組的非編碼區。
每組彩色線條代表研究人員非常確定屬於一起的重疊群,但在連線點(下面用黑色圈出)可能存在一些間隙、重疊、衝突和/或其他不確定性。
每個組在完整影像網格中的位置大致基於大小。線條形狀(曲線、波浪線和環線)和方向是任意的。
庫尼托米使用生物資訊學視覺化工具 Bandage 建立了該圖表,該工具由瑞安·威克(目前是墨爾本大學凱瑟琳·霍爾特研究小組的研究助理)開發。一篇描述論文去年在《生物資訊學》雜誌上發表:該軟體可線上獲取,或者您可以克隆 GitHub 上的原始碼。
底線是什麼?研究人員在拼合埃及伊蚊的基因組方面取得了重大進展,但該圖譜仍然非常分散。像這樣的視覺化圖表使研究人員能夠放大並確定哪些區域仍需要更多工作,並允許像我這樣的非專業人士跟蹤他們的進展。