生物資訊學:大資料與癌症的較量

癌症研究和治療中湧現的大量資料正在為我們提供對該疾病的全新見解

2013年,遺傳學家斯蒂芬·埃利奇回答了一個困擾癌症研究人員近100年的問題。1914年,德國生物學家特奧多爾·博韋裡提出,在癌症中觀察到的染色體數量異常——稱為非整倍性——可能驅動腫瘤的生長。在接下來的近一個世紀裡,研究人員在這件事上進展甚微。他們知道癌症通常有額外的或缺失的染色體或染色體片段,但他們不知道這是否重要,或者僅僅是腫瘤生長的副產品——而且他們無法找到答案。

“人們長期以來一直忽視它,主要是因為它真的很難理解,”馬薩諸塞州波士頓布萊根婦女醫院的埃利奇說。“我們以前不知道的是,它實際上正在驅動癌症。”

埃利奇發現,在非整倍性導致腫瘤抑制基因缺失,或致癌基因的額外複製促進癌症的情況下,腫瘤生長更具侵略性(T. DavoliCell155, 948–962; 2013)。他的見解——非整倍性不僅僅是腫瘤的一個奇怪特徵,而是其生長的引擎——來自於挖掘大量的細胞資料。埃利奇說,這表明計算機篩選不斷增長的資訊寶庫的能力如何幫助我們加深對癌症的理解,併為發現開啟大門。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們今天世界的發現和想法的具有影響力的故事的未來。


現代癌症護理具有產生大量資料的潛力。當患者被診斷出患有癌症時,可能會對腫瘤的基因組進行測序,以檢視其是否可能對特定藥物產生反應。隨著治療的進展,可能會重複測序以檢測變化。患者也可能會對其正常組織進行測序,隨著成本下降,這種做法可能會增加。醫生會將患者的測試結果和病史,包括飲食和吸菸習慣,記錄在電子健康記錄中。患者也可能進行計算機斷層掃描 (CT) 和磁共振成像 (MRI) 掃描以確定疾病的階段。將所有這些乘以僅2013年美國診斷出癌症的近170萬人,很明顯,腫瘤學將產生比現在更多的資料。計算機可以挖掘資料以尋找可能促進對癌症生物學理解的模式,併為治療提出靶點。

埃利奇的發現是他和他的同事開發的一種稱為腫瘤抑制基因和癌基因探索器(Tumor Suppressor and Oncogene Explorer)的計算方法的結果。他們用它來挖掘大型資料集,包括美國國家癌症研究所(位於馬里蘭州貝塞斯達)維護的癌症基因組圖譜,以及英國欣克斯頓的維康信託桑格研究所執行的癌症體細胞突變目錄。這些資料庫包含來自8,207個組織樣本(超過20種腫瘤型別)的大約120萬個突變。

研究人員選擇了一組引數,這些引數有助於識別他們正在尋找的基因,例如突變率或良性突變與導致基因停止功能的突變的比率。然後,他們應用統計分類方法來區分腫瘤抑制基因和癌基因。大約70個腫瘤抑制基因和50個癌基因對於這些腫瘤型別已經是已知的,但埃利奇和他的同事將這一數字分別增加到大約320個和200個(儘管這個數字可能會下降,因為一些基因可能被證明是假陽性)。他們還確定了生長過程中的通路,這些通路可能成為良好的藥物靶點。

做出這種發現需要大型資料集。“任何單個癌細胞都是一團糟,但如果你觀察足夠多的腫瘤,你就會得到一種模式,”埃利奇說。“你能弄清楚這一點的唯一方法是全域性地看待它們。”

易於使用
分析8,200個腫瘤的基因組僅僅是一個開始。芝加哥伊利諾伊大學資料密集型科學計劃主任羅伯特·格羅斯曼說,研究人員“正試圖弄清楚如何在未來幾年內彙集和分析一百萬個基因組”。這是一項巨大的任務;來自單個患者的組合癌症基因組和正常基因組構成大約1太位元組(10

12 位元組)的資料,因此一百萬個基因組將產生1艾位元組(1018 位元組)。格羅斯曼說,儲存和分析如此大量的資料每年可能花費1億美元。

為了使研究人員更容易訪問他們需要的任何資料子集,格羅斯曼和他的同事開發了Bionimbus,這是一個基於雲的開源平臺,用於共享和分析來自癌症基因組圖譜的基因組資料。

結果可能是強大的。芝加哥大學的病理學家梅根·麥克納尼使用Bionimbus追蹤到一個與急性髓細胞白血病 (AML) 相關的基因。科學家們已經知道,一些患有該疾病的患者丟失了7號染色體的一部分,但只能將相關基因縮小到15-20個候選基因。麥克納尼從資料庫中選擇了23名患者,並使用計算機比較了他們的RNA序列,以檢視是否缺少某些東西。她發現,在這些患者中,基因CUX1的一個複製(通常編碼腫瘤抑制蛋白)已被刪除(M. E. McNerneyBlood121, 975–983; 2012)。在果蠅和小鼠中的測試表明,去除該基因的一個複製導致某些血細胞過度生長,並最終導致白血病。她的發現可能沒有產生AML的治療方法,但它增加了對一種疾病的理解,這種疾病的中位生存時間在過去四十年中一直停留在不到一年的時間,而且它也可能導致更準確的預後。

麥克納尼說,即使是她的小規模專案也顯示了挖掘資料的好處。“它正在極大地改變癌症生物學,”她說。“大資料取得了我們原本無法取得的飛躍。”

基因組學——以及來自其他“-組學”的資料,如蛋白質組學和表觀基因組學——不是被篩選的唯一資料來源。位於弗吉尼亞州亞歷山大市的美國臨床腫瘤學會 (ASCO) 正在開發一個名為CancerLinQ的平臺,該平臺可以梳理患者的電子健康記錄。這些記錄越來越多地包括基因組資料,以及診斷和治療說明,以及患者對治療反應的衡量標準。該系統已收集了來自177,000名乳腺癌患者的記錄,用於試點專案。開發人員希望該系統能在2015年夏季全面投入執行,隨後將推出其他實體腫瘤。

紐約紀念斯隆-凱特琳癌症中心乳腺癌專家兼ASCO主席克利福德·胡迪斯說,CancerLinQ可能會發現臨床試驗遺漏的發現。隨著批准的藥物更廣泛地部署,該系統可以收集關於不同患者群體中的副作用、藥物相互作用和結果的資料。例如,它也可能會注意到,如果醫生根據他們對劑量如何影響患者的評估,偏離了美國食品和藥物管理局的藥物劑量指南。“如果連續100個案例中醫生獨立地無視該指南,這有助於教導計算機該指南是錯誤的,”胡迪斯說。例如,計算機可能會發現,當醫生根據患者的年齡調整劑量時,他們會獲得更好的結果。

也可以透過結合基因組學和標準醫學影像記錄來進行發現。“高效能計算和大資料使我們能夠跨模式進行觀察,”新澤西州新不倫瑞克羅格斯癌症研究所的病理學家兼資訊學主管大衛·福蘭說。該中心生成組織樣本的高解析度數字影像,並在患者之間進行比較,尋找可能有助於預後的模式。它預計將生成40,000-100,000張影像。

例如,研究人員可能會看到遺傳線索,表明一些患者將對特定的藥物療法產生反應,然後檢視他們的CT和MRI掃描,以檢視癌症的變化是否與遺傳預測相符。或者他們可能會發現突變、治療選擇和吸菸史之間的相關性。“計算機程式可以同時檢視所有這些模式,”福蘭說。

福蘭補充說,比較如此多的資料極大地擴充套件了醫生的專業知識。“當您去看醫生,尤其是腫瘤科醫生時,您依賴於他過去的經驗。我們現在正在做的是訓練計算機檢視成千上萬甚至數十萬人的大型佇列。” 這就好像醫生正在根據數十萬患者的個人經驗做出治療決策。

基因序列和電子健康記錄是新的資料來源,但也有很多歷史資訊可用。例如,馬里蘭州巴爾的摩約翰·霍普金斯醫院擁有可追溯到1889年開業的紙質病理報告。在1984年切換到計算機記錄之前,該醫院生成了超過50萬份記錄。美國每個州都有多年或數十年的歷史癌症記錄,其他國家也是如此。例如,丹麥的癌症記錄可以追溯到1943年。英格蘭公共衛生署去年啟動了一個數據庫,其中包含目前全國範圍內正在診斷的所有癌症,包括可追溯到30年前的1100萬條記錄。將所有這些歷史新增到混合中,擴大了計算機可以搜尋的可能線索的範圍。

難以分析
但正是新技術正在創造資訊繁榮。“我們收集資料的速度比我們實際處理資料的速度更快,”新澤西州皮斯卡塔韋羅格斯發現資訊學研究所的計算機科學家兼負責人馬尼什·帕拉沙爾說,他與福蘭合作尋找處理資訊的方法。“我們的捕捉大量資料的能力正在造成一些根本性的挑戰,”他說。

太位元組及以上級別的資料集的一個主要問題是如何操作所有資料。單個高解析度醫學影像可能佔用數十吉位元組,研究人員可能希望計算機比較數以萬計的此類影像。將羅格斯專案中的一張影像分解為計算機可以識別的畫素集大約需要15分鐘,並且將如此多的資訊從儲存位置移動到可以處理的位置是很困難的。“我們已經有人帶著磁碟驅動器到處走動,因為你無法有效地使用網路,”帕拉沙爾說。

資訊學研究人員正在開發演算法,將資料分成更小的包,以便在單獨的處理器上進行並行處理,並壓縮檔案而不遺漏任何相關資訊。他們還在依靠計算機科學的進步來加快一般的處理和通訊速度。

福蘭強調,隨著腫瘤學從針對腫瘤的“一刀切”攻擊轉向個性化醫療,癌症的理解和治療已經發生了巨大的轉變。但癌症是受許多基因和其他因素控制的複雜疾病。“這並不是說您將解決癌症,”他說。但大資料可以提供新的、更有針對性的方法來應對這種疾病。“您可能會提出一套全新的治療患者的藍圖。”

本文經許可轉載,並於2014年5月28日首次發表

© .