本文發表於《大眾科學》的前部落格網路,反映作者的觀點,不一定代表《大眾科學》的觀點
達爾文在“我想”標題下繪製的進化樹草圖是他自然選擇進化論的有力且持久的形象。系統發育樹——顯示生物體之間關係及其從共同祖先進化而來的分支圖——現在是生物學教科書中的標準影像,用於將生物體置於生物空間和時間中。我經常在我的研究中繪製系統發育樹,比較不同細菌菌株的DNA序列,以更好地理解物種之間的關係。像大多數生物學家一樣,我不是一個高階使用者或分類學家,所以我通常將序列比較和樹構建的不同方法作為下拉選單中的選項進行互動,使用程式提供的統計測量來比較不同的樹。由於並非每個進化轉變都有化石標本,因此必須使用統計資料而不是與“真實”樹進行比較來評估使用不同演算法方法生成的樹。但是,如果可以構建一個虛構生物的合成樹,每個分支之間都有已知的進化關係,以便測試您的演算法,該怎麼辦?認識一下卡米納庫勒斯。
為了評估和教授構建系統發育樹的不同方法,分類學家約瑟夫·卡明在 20 世紀 60 年代初設計了一組可愛的虛構動物。這些動物被他的研究生們戲稱為“卡米納庫勒斯”,具有預定義的進化歷史,反映在卡米納庫勒斯表型的形狀和模式中。這 77 個卡米納庫勒斯包括 29 個現存物種和 48 個“化石”物種,可以完整地重建進化樹。學生可以在這個合成數據集上測試他們新獲得的分類技能,將他們的結果與答案鍵的“真實”進化歷史進行比較。除了作為教學工具的用途之外,卡米納庫勒斯集合還允許開發和測試新的分類方案,特別是新的數值方法和演算法。
在 1966 年《大眾科學》的一篇文章(PDF)中,昆蟲學家羅伯特·索卡爾討論了他關於可以對生物體進行排序和分類的計算系統的工作,以及他如何使用卡米納庫勒斯來幫助開發新的數值方法。對於索卡爾來說,傳統的分類方法相對來說更“主觀”,需要分類人員識別表型特徵,並透過手工組織進化樹,“使分類學更像是一門藝術而不是一門科學”。 20 世紀 60 年代計算機的出現提供了“客觀和明確分類的許多可能性”。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們今天世界的發現和想法的有影響力的故事的未來。
今天,可以使用對齊和聚類的演算法方法比較基因序列中儲存的“數字”資料,但在 1966 年,沒有任何基因序列可用。相反,索卡爾使用數值和自動化方法,使用數字程式比較生物體的“模擬”物理特徵。索卡爾開發的一種將可變表型資訊轉換為數值資料的自動化影像處理方法是簡單地用隨機打孔的穿孔卡覆蓋卡米納庫勒斯線圖。然後,每個孔將根據該孔下是否有繪製的線條而分配“1”或“0”。對不同卡米納庫勒斯進行低解析度數字化的比較能夠生成與原始系統發育相似的樹。
這些穿孔卡影像是早期計算生物學的迷人遺物,它預測了一個與我們今天截然不同的未來,一個基於表型特徵自動化的未來,而不是基因序列。事實上,索卡爾在他的《大眾科學》文章中寫道:
在分類學中可能最有用的裝置是光學掃描器,它可以數字化圖形、照片、顯微鏡製劑和生化分析的結果。從這些自動感測器湧來的大量資訊將需要基於計算機的處理和分類,因為人類無法透過傳統方式消化這些資料。
今天,當我們談論大量數字資料時,我們通常指的是來自測序中心的 PB 級基因組資料,這些資料使我們分析和解釋這些資訊的計算能力不堪重負。然而,對於索卡爾來說,“基因或其影響是否應構成分類的基礎,這一點絕非確定”,即使在今天,分類學家在對生物體進行分類時,也並不僅僅只看基因序列。不同型別的表型資料可能看起來像是已經氾濫的桶中的又一滴,但生物學不僅僅是 DNA,分類學的歷史告訴我們,我們需要比序列多得多的東西來組織和理解生命。