大眾科學資訊圖的演變:家庭灰塵中的秘密生活

設計師馬丁·剋日溫斯基和芭芭拉·珍妮·漢尼卡特帶您一窺幕後,並解釋了他們如何基於來自灰塵的細菌基因組資訊開發資料視覺化。

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點


編者注:以下是馬丁·剋日溫斯基和芭芭拉·珍妮·漢尼卡特的客座文章,他們是為《大眾科學》雜誌2015年12月號設計的圖形科學插圖的特約藝術家。

事實證明,你家裡的灰塵攜帶著關於居住者的蛛絲馬跡——男性和女性的相對數量,以及是否有狗和貓。這是一篇題為“家庭灰塵中微觀生物的生態學”的論文的結論之一,該論文發表在《英國皇家學會學報B》上。我們在2015年12月的圖形科學頁面中的目標是以視覺方式捕捉這一發現。

家庭灰塵中到底有什麼?花粉、毛髮、纖維、土壤、皮膚細胞甚至隕石顆粒。但也有大量的細菌:以及各種各樣的細菌,由房屋的居住者脫落——包括寵物,它們貢獻了自己獨特的細菌群。如果你被狗或貓舔過——兩種非常不同的體驗——這可能不會讓你感到驚訝。寵物的不太受歡迎的部分,至少對人類而言(提示:另一端),也貢獻了它們自己的細菌。現在,得益於非常快速且非常廉價的基因組測序,可以研究灰塵樣本並收集其居民的普查資料。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的有影響力的故事的未來。


還發現男性和女性人類居住者的比例對細菌菌群有影響,儘管程度小於寵物。這種差異受到皮膚生物學差異以及——論文中幽默地指出——體型和衛生習慣的影響。我們將其留給您來猜測哪個性別更大和/或更乾淨!

方向和設計
該頁面設計的早期想法是一個個性化和互動的“選擇你自己的灰塵冒險”決策樹,它將引導讀者透過某種圖形(圖 1)發現他們在家中灰塵中可能發現的細菌型別。

圖 1. 2015 年 12 月圖形科學頁面的最初想法:個性化和互動式決策圖表,引導讀者到一個面板,該面板將以某種方式代表他們家中灰塵中細菌的組成。

要展示什麼?
我們必須深入研究資料,以確定到底要在圖 1 的方形面板中顯示什麼。我們希望識別出有意義且可以在相對較小的空間中輕鬆表示的模式。在設計草圖的早期階段,儘可能多地擁有(和放棄)想法非常重要。

資料包括約 90 個細菌屬的相對丰度(每個細菌屬在細菌種群中所佔的比例)——從不動桿菌屬(螺桿菌門)到密螺旋體屬(變形菌門),取自約 1,400 個家庭。對於每個家庭,我們都知道男性和女性居住者的數量以及是否有狗或貓。沒有收集寵物的數量或性別,也沒有收集是否有嬰兒在家。  

我們最初受到研究中的一個圖(圖 2)的指導,該圖顯示了在狗或貓存在的情況下發現丰度明顯更高的某些細菌的箱線圖。

圖 2. 室內細菌比例的差異。縱軸是平方根轉換的。未顯示箱線圖異常值。(改編自 “家庭灰塵中微觀生物的生態學”,作者 Albert Barberán,發表於《英國皇家學會學報 B》,2015 年 8 月 26 日。)

箱線圖可以很好地緊湊地表示有關樣本的資訊——它們顯示中位數、四分位數間距(IQR,第 25% 和第 75% 百分位數之間的值),並且取決於箱線圖的型別,到異常值的距離。例如,在 Tukey 箱線圖中,須線長度延伸到異常值,最遠可達第 1 個或第 3 個四分位數以外的 1.5 IQR。(您可以使用這個方便的線上工具製作自己的箱線圖)。在圖 3 中,我們顯示了更大一組細菌的箱線圖,其中包含異常值。

圖 3. 所有屬的箱線圖,對於有狗(與無狗)和貓(與無貓)的家庭,丰度差異的P < 0.1。對於每個屬,白色箱線圖顯示來自沒有寵物的家庭的樣本,以及那些按P 值著色的來自有寵物(狗或貓)的家庭的樣本。頂行中的屬按總丰度(遞減)排序,底行中的屬按P 值(遞增)排序。

能夠生成此圖並重現論文的結果是驗證我們的分析方法的重要的第一步。在圖 4 中,我們以直方圖(條形圖)的形式顯示了細菌子集的丰度分佈。

圖 4. 寵物存在對家庭灰塵中九個細菌屬丰度分佈的影響。分佈的平均值和中位數顯示為實線和虛線垂直線。每個寵物條件下平均丰度絕對值增加最大的三個用紅色箭頭顯示。

圖 3 和圖 4 揭示了有關資料的重要細節。首先,屬的丰度差異很大,並且在許多家庭中為零,我們從所有箱線圖須線都以零結尾這一事實推斷出來。其次,跨家庭的丰度分佈是右偏的(它們在較高丰度處有一個長尾)。我們預計平均值和中位數會有很大差異,事實也確實如此:丰度最低的細菌冰桿菌屬的平均相對丰度為 0.8x10–6,而丰度最高的細菌棒狀桿菌屬的平均相對丰度為 5x10–2,大約大 6,000 倍。即使丰度差異很小,大樣本量(例如,有狗和沒有狗的家庭分別為 796 個和 569 個)也提供了足夠的統計功效來為這些差異分配統計顯著性。

最初的決策樹設計理念意味著我們必須建立一個列聯表,其中顯示我們變數的所有可能組合:男性、女性、貓和狗。例如,我們需要區分居住者主要是女性且有狗的家庭與居住者主要是男性且有貓的家庭,因此我們開始探索替代顯示方法,以便我們能夠傳達所有這些資訊。

初始設計
雖然箱線圖和直方圖對於評估總體資料集很有用,但從圖 3 和圖 4 中可以清楚地看出,它們對於雜誌來說並不理想。很難一目瞭然地看到細菌之間的差異,並且圖表無法縮小到適合一頁並且仍然清晰可辨。

我們的早期設計嘗試如圖 5 所示。我們想要

  • 以可以在一系列可以交叉比較的小圖表中表示的方式編碼資料;

  • 使讀者能夠輕鬆識別變數及其引起的細菌變化;

  • 透過建立一個視覺上有趣的頁面來鼓勵讀者參與;以及

  • 提供對當前主題——細菌群落——的微妙暗示,而不會落入培養皿或 DNA 螺旋等字面符號的陷阱(儘管我們嘗試過)!

圖 5. 草圖階段的各種編碼和設計方法。雖然使用細菌形狀(大小或顏色)來編碼丰度似乎是一個有希望的想法,但它們沒有提供足夠的視覺權重。樣板文字用於瞭解頁面佈局。

圖 6. 早期設計元素,包括絕對丰度直方圖,其中包含每個條件的詳細變化,以及最大豐度變化的資料小插圖。

我們擁有的細菌資料比我們有空間展示的要多得多,因此我們考慮展示更廣泛資料集的概述,僅詳細介紹一個子集(圖 6,右上角)。這看起來很有希望,但與我們想要建立的列聯表的想法不太吻合。

我們確實決定使用細菌的實際形狀(圖 7)來賦予每個屬獨特的視覺個性,作為其標籤旁邊的圖示會很有趣——我們喜歡螺旋桿菌屬

圖 7. 細菌形狀賦予每個屬個性。螺旋桿菌屬需要理髮。

資料編碼
將丰度差異編碼為圓形似乎符合我們的需求;圓形允許緊湊的表示,可以輕鬆識別跨條件的更改,並提供與主題的微妙聯絡——想想細菌菌落。

細菌之間絕對丰度的變化差異很大,幾乎不可能直接比較它們。相反,我們決定顯示相對丰度的變化,即平均最終丰度除以平均基線丰度的比率。鑑於分佈是偏斜的(圖 4),傳統上將使用中位數而不是平均值,但在某些情況下,中位數為零,這將阻止我們計算比率。我們使用平均比率的 log2 來表示差異——並在圖例鍵中使用了加倍的概念。這似乎比線性增加或其他一些對數底(例如 log10)更直觀,因為種群加倍(或減半——想想衰變物質的半衰期)的概念很常見。

使用圓形(因此面積)來編碼數量是棘手的。大多數人在評估面積時傾向於低估數量,因為他們使用長度作為指導他們判斷的代理,而沒有考慮到面積是長度的平方。有一些巧妙的技術可以縮放圓的大小以匹配我們感知面積的方式。(參見 James Flanney 於 1971 年撰寫的“在定量資料表示中一些常見分級點符號的相對有效性”[PDF];以及 Susumu Tanimura 等人於 2006 年撰寫的“R 中的比例符號對映”)。我們沒有將半徑縮放為 x0.5,其中 x 是要編碼的數量,而是使用了 x0.57(Flanney 建議),這巧妙地增加了面積。最後,我們選擇了圓的最大尺寸,以確保圓在最終圖形中不會重疊。

由於每個值都描述了相對於細菌丰度基線水平的增加或減少,因此為每個意外事件選擇基線是一項判斷練習。在性別比較中,女性較多的家庭與男性較多的家庭進行比較,而不是與性別分佈均衡的家庭進行比較。做出此決定的動機是,基於性別的差異非常小,並且包括性別均衡的家庭會進一步稀釋這些差異。

篩選資料
一旦我們確定了編碼方案,我們就為所有細菌的每個條件生成了丰度變化概況(圖 8)。

圖 8. 所有細菌和所有家庭類別比較的相對差異。

從此表中,我們選擇了具有有趣模式的細菌——那些在性別和寵物條件下都具有統計學意義且視覺上獨特的細菌。例如,巨球形菌屬貝殼狀菌屬非常相似(圖 9),因此同時顯示兩者會使圖形不那麼有趣。

圖 9. 我們選擇了具有不同視覺特徵的細菌。

我們選擇了足夠的細菌來填充頁面上的空間——結果證明我們有 14 個的空間。在這個階段,我們還探索了呈現決策樹問題的其他方法(圖 10)。

圖 10. 在緊密草圖階段改進設計。

最終確定圖形
將比率編碼為圓形似乎是一個不錯的方向,但我們繼續探索直方圖和細菌形狀,以讓自己相信這些不是富有成效的方向。

我們一致認為,在樹分支點嵌入問題的決策樹是讀者以互動方式探索資料集的最佳方式。在最終的設計階段,探索了對問題的放置和順序以及圖例位置的微小調整(圖 11)。我們選擇橙紅色表示增加,其想法是這種顏色暗示條件正在加劇(細菌率更高),而藍灰色表示減少。

圖 11. 最終設計的變體。

我們最初計劃顯示每個細菌的平均丰度作為直方圖,如在一些早期草圖中看到的那樣,但最終決定反對。該頁面的設計旨在減少定量,更像是一個遊戲,使直方圖成為不必要的圖形細節。相反,我們只是按丰度對細菌進行排序——丰度較高的細菌在頂部,丰度較低的細菌在底部。我們還嘗試使用文字和圖示的組合來幫助解釋如何為每個比較選擇基線條件,但這使得圖形過於繁忙,我們最終完全依靠文字來傳達此資訊。

有選擇地刪除了理解頁面關鍵資訊不必要的細節。(這不應與消除不方便資訊的行為混淆)。如果您有空間並且讀者有時間,請務必在支援細節的上下文中顯示資料模式。但在這種情況下,我們的目標是闡明和說明要點,並避免用無關資訊分散關鍵資訊。同時,牢記吸引和愉悅讀者也至關重要。

© .