2000年人類基因組草圖序列的公佈,引發了人們對基因組學將如何顯著改變癌症等疾病治療的enthusiastic predictions。此後的幾年裡,人類基因組測序的成本下降了10萬倍(僅需數千美元),測序所需時間也從數月縮短到一天多一點。因此,研究人員現在可以生成前所未有的大量資料,以幫助對抗癌症(見S20頁)。
然而,到目前為止,我們擴大的資料生成能力尚未像某些人預期的那樣,在醫學或我們對疾病的理解方面發生變革。造成這種令人失望結果的一個主要原因是未能有效處理捕獲和共享關於大量樣本的適當臨床資料的問題。
癌症研究人員的最終目標是向治療患者的醫生提供可操作的即時護理資訊。例如,這意味著生成易於閱讀的報告,詳細說明患者的疾病狀態與其對可用療法的可能反應之間的關聯——這些關聯由各種臨床和基因組屬性定義,並且應該由大型、精心管理的知識庫支援。然後,這些資訊可以幫助醫生快速決定哪種治療方案最有可能對每位患者有效。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
研究已經確定了一些基因變異或基因表達譜與臨床終點(如藥物反應)之間的關聯。但是,鑑於生成大規模基因組譜資料的能力,他們識別出的變異比預期的要少得多。這種不足可歸因於當前臨床研究正規化的缺陷。
大多數臨床和轉化研究的基本設計都涉及明確定義的患者佇列之間的比較。研究人員可能會根據結果(例如,對治療的反應)將患者分為幾組,並詢問是否存在基因組特徵(如突變或基因表達模式)可以可靠地區分反應者和無反應者。或者,他們可以根據基因組狀態定義患者組,然後詢問在某些相關終點(如生存期)方面是否存在有意義的差異。癌症研究已經產生了數千項這樣的基因組研究,涉及數十萬患者的資料。但是,已發表的研究中,只有極少數經過了徹底的驗證,更少有被證明具有臨床實用價值。
儘管研究人員爭先恐後地生成基因組資料,但這本身並不足以推動該領域的發展。一個挑戰是開發有效處理海量基因組資料的分析方法。特別是,需要更好的方法來“標準化”不同技術或不同地點生成的資料,以便可以跨研究比較結果——這個問題看似微不足道,但仍然沒有通用的解決方案。還需要更有效地綜合不同型別資訊以進行預測的方法,包括模擬驅動疾病的複雜互動網路的方法。並且必須制定標準來支援可重複的研究,促進在集體資料背景下驗證任何單項研究的結果。
但是,在生物醫學研究中使用“大資料”的最大障礙不是方法論問題。相反,它是缺乏關於正在分析其樣本的患者的統一、匿名臨床資料。如果沒有這些資料,即使定義實驗佇列也很困難,並且存在遺漏潛在的明顯混雜因素的風險。不幸的是,幾乎每項已發表的研究都缺乏充分解決基本研究問題或允許在其他研究中驗證一項研究結果的臨床資料。
解決這個問題的第一步是制定更靈活的患者知情同意程式,以便在研究中廣泛使用匿名臨床資料。這一點尤為重要,因為在研究開始時,研究人員可能不知道哪些變數可能對定義相關佇列很重要,或者可能最終會混淆分析。
第二步是開發醫院和實驗室計算基礎設施和資料安全協議,以改善臨床資料的共享、訪問和合理使用。重現結果的一個主要障礙是,公開可用的資料集很少包含正確的臨床資訊來定義適當的佇列或測試基因組特徵的相關性。
最後,資料共享文化必須改變。儘管基因組學研究結果的發表通常需要共享基因組資料,但臨床資料的共享通常僅限於最基本的資訊:手稿中描述的細節。即使是常見的臨床變數,例如患者的性別、治療史、吸菸史、種族甚至標準疾病亞型,也常常不提供。再次缺乏此類關鍵資訊使得難以重現分析結果或驗證其他已釋出的資料集。
大資料具有為癌症等疾病提供新見解的巨大潛力。但是,只有解決如何最好地共享解釋它所需的臨床資訊,才能實現這種潛力。如果我們最終要建立必要的知識庫,以便向醫生及其患者提供清晰、簡潔、可靠和可操作的資訊,那麼更全面地理解這一點至關重要。
本文經許可轉載,並於2014年5月28日首次發表。