本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定代表《大眾科學》的觀點
編者按:以下是客座文章,作者是 Martin Krzywinski,他是一位投稿藝術家,為《大眾科學》雜誌九月刊設計了“圖形科學”插圖。
為了《大眾科學》雜誌2014年9月刊中的一幅圖,編輯們向我提出了視覺上支援以下論斷的挑戰:從基因組學的角度來看,我們更像黑猩猩和倭黑猩猩,而不是大猩猩。
在這裡,我們將探討如何以可視方式展示這些資訊,我將帶您瞭解最終產品的思考過程。但首先,我們需要澄清一些關於基因組是什麼以及基因組不是什麼的問題。基因組不是藍圖。事實上,它看起來一點也不像藍圖(圖 1)。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的有影響力的故事的未來。
藍圖向您展示“什麼”,但基因組不編碼“什麼”。相反,基因組可以被認為是編碼一組工具(蛋白質)。它沒有告訴您每個工具的功能是什麼,工具作用於什麼,工具如何協同作用,或者工具用於構建什麼。
基因組分析和視覺化困難的原因不僅在於其各個部分之間的深刻相互作用——工具的使用方式、時間和原因——還在於其物理結構:大小以及功能區域的密度和分佈。(我們的基因組被打包成 24 條染色體,總共約 30 億個鹼基)。
首先要注意的是,工具(蛋白質)不一定由基因組的相鄰區域編碼。例如,將酪氨酸轉化為腎上腺素的四種蛋白質的程式碼位於 3、9、11 和 17 號染色體上。當我們以自然順序和方向繪製染色體時,此資訊會被隱藏。
其次,在 30 億個鹼基中,並非所有鹼基都有明確的工作。基因——僅佔基因組的約 33%——指的是基因組中編碼蛋白質的片段。但嚴格來說,基因組中的術語“編碼區”僅對應於那些較大基因內捆綁的特定斷奏式蛋白質編碼序列。這些片段是外顯子(約佔完整基因組的 2.5%,圖 2)。基因組的其餘部分(包括基因區域內外的片段)沒有明顯的功能——並被輕蔑地稱為“垃圾 DNA”。然而,垃圾 DNA 並非全是垃圾,其作用備受爭議。
圖 2 | 只有 2.5%(7500 萬個鹼基)的人類基因組被翻譯成蛋白質。這些區域被包裝在基因中,基因共同跨越約 1/3 的基因組。基因組的線性表示使得顯示細節變得困難。即使是最大的基因 Titin 也無法在此尺度下辨別出來。其外顯子約為外顯子線長度的 0.1%,即使放大 100 倍也幾乎看不見。用線條填充空間
人類基因組的基本尺度可以線性顯示,如圖 2 所示。然而,由於基因組很大,並非所有基因組都同等重要,因此需要密集的視覺表示來顯示完整基因組背景下的細節。
對於雜誌大小頁面的靜態影像,這基本上是不可能的。正如我們在圖 3 中看到的那樣,如果我們用 1000 x 1000 畫素的正方形表示基因組,那麼只有 160 x 160 畫素的正方形才能容納關鍵資訊(與外顯子相關的內容)。
儘管如此,正方形仍然是理想的,因為它比線條或一系列線條具有更多的畫素(在印刷品中為點),可用於資料。問題是如何將基因組(一維物件)打包到正方形(二維物件)中?答案是空間填充曲線,例如希爾伯特曲線。
希爾伯特曲線很容易構造。取一個正方形,將其分成四個象限。用一條線連線象限中心的三個對,得到馬蹄形。這是 1 階希爾伯特曲線。其中一對未連線(哪一對都無關緊要),以便曲線具有起點和終點。更高階的曲線是透過重複將每個象限劃分為子象限來構造的,如圖 4 所示
圖 4 | 1 階希爾伯特曲線,開口在左側(反向 C),以便曲線從左上角開始,首先向右移動。更高階的曲線是透過遞迴地將每個象限劃分為象限來構造的。在每種情況下,曲線的起點都在左上角,終點都在左下角。曲線的長度在每個階數上大約翻倍。7 階曲線的長度大約是 1 階曲線的 128 倍。空間填充曲線提供了一種將一維物件(基因組)打包到二維空間(頁面或螢幕)上的方法,這樣基因組中的相鄰區域在二維表示中仍然保持接近。
建立圖形
對於《大眾科學》中比較人類基因組與其他靈長類動物基因組的圖形,印刷佈局中的空間不大——大約 5 x 5 英寸。在如此小的區域內工作,快速說明概念非常重要,理想情況下第一眼就能看懂,然後提供另一個更微妙和豐富的資訊層。
我製作了很多 Circos 圖——一種以圓形佈局視覺化資料的方法——通常適用於顯示基因組之間的相似性。但這裡的想法是顯示差異,因此需要不同的形式。
我認為希爾伯特曲線是一個很好的方法。它有點像精品視覺化,需要一些時間來適應。如果您是第一次看它,多層正方形圖案可能會有點分散注意力,但它是將資訊連貫地壓縮到小空間中的強大方法。您實際上不需要了解曲線的複雜性即可看到圖案差異。
為了將大猩猩、倭黑猩猩、黑猩猩和丹尼索瓦人的基因組與人類基因組進行比較,我使用了 5 階希爾伯特曲線,在易讀性和細節之間取得了平衡。圖 5 是完整人類基因組在 5 階曲線上的染色體圖。
對於最終圖形,我只關心靈長類動物基因組與人類基因組中的基因區域有何不同。在圖 6 所示的希爾伯特曲線上,您可以看到人類基因組已測序部分(彩色區域)的哪些部分是基因(黑色矩形)。
由於我們只關心基因區域,因此可以省略上述黑色矩形之外的區域。圖 7 僅顯示基因組的基因區域。黑色矩形現在代表外顯子(我之前寫到的基因組的關鍵 2.5%)。請注意,此處的顏色邊界與圖 5 和圖 6 中的顏色邊界不同,因為這種縮小會導致移除各種染色體的不同長度。
圖 7 | 人類基因組基因區域中外顯子的密度。該曲線表示所有基因區域(圖 6 中的黑色區域),約佔基因組的 1/3,按其染色體著色。密度圖編碼了該位置的鹼基中屬於外顯子的比例。總共約 2.5% 的基因組(約 7.5% 的基因)在外顯子中。圖 7 正是最終雜誌圖形的設定方式,只不過顯示的是與外顯子中鹼基的比例相反,而是與另一個基因組(例如黑猩猩)具有比對(序列相似性區域)的鹼基比例。由於空間限制,我決定將希爾伯特曲線上的鹼基濃縮成 2,048 個箱,每個箱用一個圓圈表示,而不是上面所示型別的密度圖。這將使圖形看起來更風格化和幾何化。當密度圖使用大量色調時,圖形可能會顯得模糊,如果沒有強烈的對比區域,則無法牢固地固定在頁面上。
沿途的步驟
我之前曾為多個物種開發過全基因組面板的圖形,例如 大英圖書館美麗科學展覽,但那些突出了物種之間的相似性,而不是差異。我採取的任何方法都必須產生一個圖形,其中差異在視覺上很明顯。
我首先研究了人類基因組和靈長類動物基因組之間的比對在位置方面是如何對應的。我們知道,當我們觀察進化上離我們更遠的物種時,染色體之間的片段會混合(或洗牌)——我想,這種洗牌可能是直觀地比較基因組的好方法。但由此產生的圖形太複雜了。
對於我們的目的,還有一個問題是染色體之間基因的洗牌有多重要,只要離散序列保持完整即可。例如,如果您想比較兩個圖書館,您不一定關心它們將書籍上架的順序。如果兩個圖書館都有完全相同的書籍,那麼您可能會說它們是相同的。其餘的是組織。(在基因組中,這種組織中的一部分與功能有關,但這太詳細了)。
為了確定圖書館之間的差異,您不妨改為詢問一個圖書館缺少哪些書而另一個圖書館有。這讓我更接近希爾伯特曲線的有用形式。我轉而只檢視未比對的鹼基(人類基因組中其他基因組中沒有表示的鹼基序列),如圖 8 所示。
我透過使用不同的顏色並調整比例來強調差異,從而進一步完善了事物。我們越來越接近候選圖形,如圖 9 所示。
在這一點上,我們去除了小鼠,轉而添加了丹尼索瓦人基因組,這似乎更合適(圖 10)。
最終,我們決定在最終版本中使用黃-紅調色盤,而不是上面顯示的 Brewer 光譜調色盤。使用這種方法,基因組之間的差異更加直觀。
我對結果感到滿意。它乾淨、對稱、樸素,我認為相當好地體現了基因組之間差異的程度。是的,還有大量的細節未被提及,但我們沒有空間了。
我滿意的原因至少有一部分是我沒有最終制作圓形表示。這是一個非常需要的從圓形中解脫出來的機會——直到我更仔細地觀察最終的圖形,才意識到 8,188 個小圓圈正盯著我看。
有關基於希爾伯特曲線的藝術(認識希爾伯頓人!)以及我網站上的這個專案,請點選此處。






