如何閱讀最新的寨卡病毒載體基因組圖表

為了更多地瞭解傳播寨卡病毒的蚊子,人們進行了新的視覺化嘗試,但它顯示了什麼?

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點


也許您在上週的《紐約時報》頭版看到了這張圖,它引出了艾米·哈蒙的文章,文章講述了來自各個實驗室的科學家聯合起來對抗寨卡病毒。研究人員的共同目標是:對病毒的蚊子載體——埃及伊蚊的基因組進行測序,希望更全面地瞭解這種昆蟲的基因構成,從而找到阻止其傳播導致人類疾病的病毒的方法。(上一次主要的——儘管不完整的——測序工作是2007年發表的)。

《紐約時報》的標題(如線上顯示)指出,您看到的是“最近測序的埃及伊蚊基因組的視覺化圖。3,752 條彩色線條中的每一條都是其三個染色體的片段……”


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


但這意味著什麼?您如何閱讀該圖表,它是如何構建的?為了找到答案,我聯絡了圖表的作者、加州大學舊金山分校安迪諾實驗室的博士後研究員馬克·庫尼托米。

該圖表的基因組序列資料由安迪諾實驗室與太平洋生物科學公司合作生成。正如哈蒙的文章中指出的那樣,目前也在追求其他測序方法,以進一步完善地圖。(要了解更多關於各種基因組讀取技術的資訊,請參閱喬治·丘奇在 2006 年 1 月刊的《大眾科學》中撰寫的“所有人的基因組”。要了解更多關於視覺化基因組相關的挑戰,請參閱馬丁·剋日溫斯基撰寫的“希爾伯特曲線揭示的人類和黑猩猩基因組之間的相似性”)。

圖表作者:馬克·庫尼托米

庫尼托米圖表中的每條彩色線條代表一個化學鹼基對序列——蚊子遺傳密碼的 A、T、C 和 G——研究人員對其準確性非常有信心。這些精確已知的化學鹼基對序列被稱為重疊群。下面的細節顯示了其中六個。

完整地圖中有 3,752 個重疊群。2007 年的草圖包含 36,206 個重疊群。持續測序工作的最終目標是最終只得到三條線;每條染色體一條連續的鹼基對序列。

每條彩色線條的長度代表一個重疊群中鹼基對的數量,範圍從大約 35,000 個(圖表上最小可見的線)到 7,901,702 個。埃及伊蚊細胞系的完整資料集由約 17 億個鹼基對組成,其中包括基因編碼區(基因)和基因組的非編碼區。

每組彩色線條代表研究人員非常確定屬於一起的重疊群,但在連線點(下面用黑色圈出)可能存在一些間隙、重疊、衝突和/或其他不確定性。

每個組在完整影像網格中的位置大致基於大小。線條形狀(曲線、波浪線和環線)和方向是任意的。

庫尼托米使用生物資訊學視覺化工具 Bandage 建立了該圖表,該工具由瑞安·威克(目前是墨爾本大學凱瑟琳·霍爾特研究小組的研究助理)開發。一篇描述論文去年在《生物資訊學》雜誌上發表:該軟體可線上獲取,或者您可以克隆 GitHub 上的原始碼

底線是什麼?研究人員在拼合埃及伊蚊的基因組方面取得了重大進展,但該圖譜仍然非常分散。像這樣的視覺化圖表使研究人員能夠放大並確定哪些區域仍需要更多工作,並允許像我這樣的非專業人士跟蹤他們的進展。

珍·克里斯蒂安森《構建科學圖表:透過圖表和視覺化傳達科學的圖解指南》(CRC Press 出版社)一書的作者,也是《大眾科學》的高階圖表編輯,她在該雜誌中指導和製作圖解說明圖和資料視覺化。1996 年,她在紐約市的《大眾科學》開始了她的出版生涯。隨後,她搬到華盛頓特區,加入《國家地理》雜誌社(最初擔任助理美術指導兼研究員,然後擔任設計師),花了四年時間擔任自由科學傳播者,並於 2007 年重返《大眾科學》。克里斯蒂安森就各種主題進行演講和寫作,主題範圍從調和她對藝術和科學的熱愛到她對學習 Joy Division 樂隊專輯《Unknown Pleasures》封面上的脈衝星圖的更多資訊的追求。她擁有加州大學聖克魯斯分校的科學傳播研究生證書和史密斯學院的地質學和工作室藝術學士學位。在 Bluesky 上關注克里斯蒂安森 @jenchristiansen.com

更多作者:珍·克里斯蒂安森
© .