對於試圖治療病因不明症狀患者的醫生來說,基因測序技術可能有助於他們找到診斷方向。但是,產生的大量資料可能會使快速找到答案變得困難。
直到幾年前,美國海軍醫學研究機構第6分隊(NAMRU-6)在利馬的醫生不得不將他們的序列資料傳送到美國進行分析,這個過程可能需要數週時間——對於做出緊迫的治療決策來說太長了。“如果你所能做的只是獲得資料,然後必須將其運送到美國,那幾乎是無用的,”該中心基因組學和病原體發現部門負責人瑪麗安娜·萊吉亞說。
但是萊吉亞不再需要等待分析結果了;她可以在幾天甚至幾小時內獲得結果——而且她可以在自己的實驗室裡完成。她的團隊利用了EDGE(基因組學專業知識發展賦能),這是一種生物資訊學工具,它將常見的微生物基因組學任務(例如序列組裝和物種鑑定)隱藏在一個簡潔的介面之後,允許使用者生成完善的分析結果。“我們可以在現場獲得可操作的資訊,使我們能夠非常快速地就下一步行動做出決策,”萊吉亞說。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們今天世界的發現和想法的具有影響力的故事的未來。
EDGE不是第一個使用點選介面簡化資訊學的工具。事實上,它缺乏許多成熟的替代方案的靈活性和範圍,例如Galaxy和Illumina的BaseSpace平臺。但它的簡單性正在吸引那些原本可能避開生物資訊學的使用者。“使用[EDGE]的人以前從不費心學習命令列工具,”克林頓·帕登說,他在美國疾病控制與預防中心(CDC)亞特蘭大分部從事病毒發病機制研究時使用了EDGE。因此,它代表了一個基因組資訊學民主化的案例研究——這可能有助於加速純粹的生物學家對該領域的接受。
實地資訊學
帕特里克·錢恩是該軟體的開發負責人,他在新墨西哥州洛斯阿拉莫斯國家實驗室(LANL)表示,EDGE的建立是為了試圖平衡低成本DNA測序儀的快速普及與理解資料所需的相對匱乏的知識。負責在位於馬里蘭州弗雷德里克的海軍醫學研究中心生物防禦研究理事會(BDRD)為軍事應用改進該軟體的計算生物學家喬·安德森說,它是為缺乏生物資訊學專業知識的機構設計的。
它也是開源的、獨立的,併為微生物基因組學提供端到端分析,從原始序列讀數到物種鑑定和系統發育,只需單擊一下即可完成。安德森說,該系統的執行成本也相對較低,因為推薦的硬體配置(256GB記憶體和64個處理器)的購買價格不到10,000美元。這意味著大多數能夠承擔測序專案費用的實驗室都能夠負擔得起硬體。“那不是可以隨便扔掉的錢,但它足夠便宜,”他說。它還有助於設定不依賴於網際網路連線,並且可以由發電機供電。
具有可靠網路連線的使用者可以將系統安裝到雲網絡。英國伯明翰大學的生物資訊學家尼古拉斯·洛曼指出了CLIMB,即微生物生物資訊學雲基礎設施,他幫助開發了該基礎設施。CLIMB是一項免費服務,專門為在英國從事微生物基因組學研究的學者提供。
CLIMB獲得了英國醫學研究委員會840萬英鎊(1050萬美元)的支援,並整合了多種資訊學工具,包括序列資料庫和一個名為基因組虛擬實驗室的分析工作臺。“我肯定在考慮將EDGE作為那裡的一個可能的選項,”洛曼說。
總的來說,EDGE已在美國國防部和夥伴國家的18個實驗室以及除南極洲以外的每個大陸正式安裝,BDRD基因組學和生物資訊學負責人瑟倫·漢密爾頓說。
其中一個在金邊的NAMRU-2機構,該機構使用該系統來追蹤病媒傳播疾病。“傳統上,那裡不是你會去從事生物資訊學的地方,”安德森說。但EDGE正在改變這一點。“我意識到的一件事是,如果你給[研究人員]工具並走開,他們會讓你感到驚訝,”安德森說。
最新版本的EDGE——去年10月釋出的1.5版本——包含54個第三方工具。所有元件,包括演算法、資料庫、視覺化工具和參考基因組,都託管在一個伺服器上,該伺服器驅動六個相互關聯的分析模組:序列清理;組裝和註釋;與參考基因組比較;分類鑑定;進化分析;和PCR引物設計。錢恩說,包括RNA分析和病原體檢測在內的其他模組計劃用於即將推出的EDGE 2.0。
去年11月,錢恩和他的同事在一項研究中展示了EDGE的功能,他們使用該平臺組裝、分類和繪製了炭疽桿菌和鼠疫耶爾森菌分離株的進化關係;解開了一個模擬的人類微生物組;並分析了一系列人類臨床樣本,包括埃博拉病毒和大腸桿菌感染病例。但該系統的首次發表使用實際上早於該研究幾個月。萊吉亞的實驗室使用EDGE優化了登革熱病毒全基因組測序的方法——在一項去年6月發表的研究中。
使用者可以使用LANL伺服器上託管的免費演示來探索這些和其他資料集。希望分析自己序列的研究人員必須在自己的系統上安裝該軟體。程式碼可以從GitHub免費下載,並且Docker容器和虛擬機器映象可用,但錢恩說,可能需要資訊科技專家來處理安裝。可以調整原始碼以新增其他工具和工作流程,但這超出了許多使用者的能力範圍,錢恩承認。他說,簡化該過程的機制正在開發中。
帕登擁有計算機科學背景,他說該工具的簡單性使計算生物學對那些可能被生物資訊學工作的常用工具(計算機的基於文字的命令列)嚇倒的研究人員來說變得易於訪問。
但加州大學戴維斯分校的計算科學家提圖斯·布朗警告說,EDGE的一些好處被可能限制該軟體長期使用的缺點所削弱。他將EDGE描述為“有主見的軟體”的例子。“它為你提供了一小套經過調整以適應特定示例的軟體,”他說,“並且它提供了漂亮的圖形摘要和輸出。”但是,他指出,尚不清楚其他研究人員將如何幫助改進該工具,也不清楚如果其資金枯竭會發生什麼。
錢恩說,該團隊將EDGE開源部分是因為擔心未來的資金,這也正在影響未來的發展計劃。“可持續性是我們必須思考的問題,”錢恩說,“這就是為什麼我們將嘗試允許第三方實施者更輕鬆地即插即用他們的專案,最有可能使用Docker。”
工具星系
EDGE不是第一個提供使用者友好介面的生物資訊學系統。Galaxy於2005年首次釋出,允許研究人員透過基於Web的介面,從龐大而靈活的免費軟體工具箱中組裝資訊學管道。使用者可以透過以不同方式組合這些工具來解決他們可以想到的幾乎任何問題。
但是Galaxy可能難以使用。而且,與EDGE生成的圖形表示(例如系統發育樹或分層餅圖中分類資料的互動式“Krona”圖)不同,Galaxy的輸出往往採用處理後的資料檔案形式,使用者隨後需要將其帶到其他地方進行視覺化。
賓夕法尼亞州費城兒童醫院生物醫學與健康資訊學系的軟體開發人員傑里米·萊比錫說:“Galaxy更像一個廚房,但沒有餐廳。”。“該系統實際上不是為了想出一種以吸引人的方式交付該輸出的方法,”他說。“對於EDGE,他們實際上考慮了報告應該是什麼樣子”。
澳大利亞阿德萊德大學的生物資訊學家內森·沃森-海格說,EDGE可以幫助減輕過度勞累的生物資訊學家的壓力。但他警告說,它仍然是一個複雜的生物資訊學工具,在對結果抱有太多確定性之前,在計算方面缺乏經驗的生物學家明智的做法是諮詢專家。
加州大學聖地亞哥分校計算生物學和生物資訊學中心臨時主任凱瑟琳·菲施補充說,與任何工具一樣,他們需要了解演算法在做什麼,以及不同的引數如何影響其輸出。“僅僅因為你可以執行工具並不意味著你應該執行工具。”
儘管如此,隨著生物資訊學工具變得越來越容易,資訊學可能會失去一些複雜的光環。對於生物學家來說,這可能會導致更廣泛的採用——和民主化。
本文經許可轉載,並於2017年2月28日首次發表。
