需求:更多資料,越髒越好

計算免疫學家普爾韋什·卡特里擁抱混亂的資料,以此來捕捉疾病的複雜性。因此,他正在取得難以捉摸的基因組發現

普爾韋什·卡特里在他在斯坦福大學的辦公室裡。

來自 《誇塔雜誌》 (在此處查詢原始故事)。

為了從不斷增長的混亂基因組資料中提煉出清晰的資訊,研究人員通常轉向薈萃分析——一種成熟可靠的統計程式,用於整合來自多項研究的資料。但是,薈萃分析可能挖掘答案的研究可能會無限地發散。有些研究只招募男性,另一些只招募兒童。有些研究在一個國家完成,另一些則在歐洲等地區完成。有些研究側重於疾病的輕微形式,另一些則側重於更晚期的病例。即使統計方法可以彌補這些型別的差異,研究也極少使用相同的方案和儀器來收集資料,或使用相同的軟體來分析資料。進行薈萃分析的研究人員會竭盡全力清理各種資料,以控制這些混雜因素。

斯坦福大學的計算免疫學家普爾韋什·卡特里認為,他們的方法完全錯了。他對基因組發現的方法要求在公共儲存庫中搜索在不同醫院、不同人群中使用不同方法收集的資料——資料越混亂越好。“我們從髒資料開始,”他說。“如果一個訊號在樣本的異質性中仍然存在,你可以肯定你真的找到了一些東西。”


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


這種策略似乎太容易了,但在卡特里手中,它奏效了。透過分析大量的公共資料,卡特里和同事們發現了特徵基因,這些基因可能使臨床醫生能夠檢測出導致膿毒症的危及生命的感染,將感染分類為細菌性或病毒性,並判斷某人是否患有特定的疾病,如肺結核、登革熱或瘧疾。去年,卡特里和另外兩位科學家成立了一家公司,開發一種在病人床邊測量這些基因特徵的裝置。簡而言之,他們正在破譯宿主免疫反應,並將關鍵基因轉化為診斷工具。

在過去的一年裡,卡特里透過電話、電子郵件以及在他擺滿白板的斯坦福大學辦公室裡與《誇塔雜誌》討論了他的想法。以下是經過編輯和濃縮的對話版本。

是什麼讓您對生物學產生了興趣?

我離開印度來到美國,趕上了“修復千年蟲漏洞”的熱潮,計劃獲得計算機科學碩士學位,成為一名軟體工程師。在到達底特律的韋恩州立大學幾個月後,我意識到餘生編寫軟體將會非常無聊。我加入了一個研究神經網路的實驗室。

但後來我的導師轉向了生物資訊學,並說如果我跟他一起轉,他就支付我的學費。我當時是一個貧窮的印度研究生。我想,“你要支付我的薪水?我願意做你正在做的任何事情。” 這就是我進入生物學領域的方式。

您很快就引起了轟動。這是怎麼發生的?

當我的導師在 2000-2001 年休假期間,我在實驗室裡與我們合作實驗室的一位博士後一起進行生物資訊學分析,他是一位研究男性生育相關基因的婦科醫生。用於一次性對大量基因進行檢測的微陣列技術是全新的。從最近的一個實驗中,他獲得了一份大約 3,000 個感興趣的基因列表,他試圖弄清楚這些基因的作用。

有一天,我看到他從一個網站轉到另一個網站,將文字複製貼上到 Excel 電子表格中。我對他說,“你知道,我可以為你編寫軟體,自動完成所有這些工作。只要告訴我你在做什麼。” 所以我為他編寫了一個指令碼——花了我三天時間——憑藉這些結果,我們寫了一篇《柳葉刀》論文

我們將該軟體放在了網上。引起了巨大的興趣。他們在一次會議上展示了它,輝瑞公司想購買它。我想,哇,這真是唾手可得的成果。我很快就能成為百萬富翁了。

該軟體是做什麼的?

它接受您指定的一組基因,並搜尋註釋資料庫,以告知您這些基因參與哪些生物過程和分子通路。如果您有 100 個基因的列表,它可以告訴您其中 15 個參與免疫反應,另有 15 個參與血管生成,50 個在葡萄糖代謝中發揮作用。假設您正在研究 1 型糖尿病。您可以檢視這些結果並說,“我走在正確的道路上。”

那是 15 年前,我正在攻讀碩士學位的時候。我開發了更多工具,並將這項工作擴充套件到博士學位。它現在是一套名為 Onto-Tools 的開放存取、基於網路的工具套件。幾年前我最後一次檢視時,它有來自許多國家的 15,000 名使用者,平均每天分析 100 個數據集。

儘管這些工具非常受歡迎,但它們並沒有告訴我結果是如何被使用的,它們如何幫助人們。我想了解研究如何從生物資訊學分析進展到實驗室實驗,最終發展到可以幫助患者的東西。

您是如何實現這種轉變的?

當我 2008 年來到斯坦福大學做博士後時,我的條件之一是,一位擁有溼實驗室的人——有人對來自小鼠或實際患者的樣本進行實驗,而不僅僅是在計算機上分析資料——會支付我一半的薪水,因為我想讓他們也參與進來。我想使用我在一個實驗室開發的方法進行預測,然後與另一個實驗室合作驗證這些預測,並告訴我什麼是臨床上重要的。這就是我最終與生物資訊學家阿圖爾·布特和腎移植醫生明妮·薩瓦爾合作的原因。[編者注:布特和薩瓦爾後來都從斯坦福大學搬到了加州大學舊金山分校。]

是什麼將您的注意力轉移到免疫學上?

在閱讀論文學習器官移植排斥的基本生物學知識時,我突然有了“啊哈!”的時刻。我意識到心臟移植外科醫生、腎移植外科醫生和肺移植外科醫生之間真的不互相交流!

無論我閱讀的是關於哪個器官的資料,我都看到了一個共同的主題:移植接受者的免疫系統的 B 細胞和 T 細胞正在攻擊移植器官。然而,排斥的診斷標準卻不同——腎臟科醫生遵循 Banff 腎移植排斥標準,心肺科醫生遵循 ISHLT [國際心肺移植協會] 標準。如果生物學機制是相同的,為什麼會有不同的診斷標準?作為一名計算機科學家,這對我來說沒有道理。

我開始形成一個假設,即一定存在一個共同的機制——一些共同的觸發因素,告訴接受者的免疫細胞,有些東西是“非自身”。在思考這個問題時,我偶然發現了一篇題為“排斥的免疫學常數”的精彩 論文。作者基本上闡述了我的假設。他們提出,雖然器官排斥的觸發因素可能不同,但它們共享一個共同的通路。他們說應該有人來檢驗這一點。

您當時做了什麼?

我開始問我的同事,“我們為什麼不開始收集來自各種器官移植佇列的樣本,並進行分析以找出哪些共同基因參與其中?” 他們說你不能這樣做,因為你必須考慮所有的異質性——不同的器官、不同的微陣列技術、不同的治療方案。控制所有這些將是昂貴的。

此外,讓每個人都貢獻所有這些樣本需要數年時間。我當時很著急。所以阿圖爾建議獲取現有的公共資料來代替。但是這些資料是“髒”的,因為它們受到許多生物和技術因素的混淆。

我想知道我們是否真的必須控制異質性。如果所有這些“髒”資料都存在,也許我們可以以某種方式將它們組合起來。如果我們發現了一個訊號,儘管存在異質性,難道你不會說,哦,這就是我應該關注的東西嗎?

我開始著手研究。

第一次嘗試的結果如何?

我去了 基因表達綜合資料庫網站,下載了來自幾項器官移植研究的資料——心臟、腎臟、肺、肝臟。這些資料來自五家醫院,使用了至少兩種不同的診斷標準。因為我們沒有拋棄“不相容”的資料,我們將我們 [允許的] 錯誤發現率設定得高於通常水平(20% 而不是通常的 5%)。如果我們能找到所有實體器官移植排斥反應的共同機制,我們願意接受更多的假陽性。我們檢查了一些其他的事情,例如確保一個數據集沒有驅動所有結果,並採取了一些額外的步驟來確保我們不僅僅是獲得一堆變化的基因。結果奏效了。

您說的“奏效了”是什麼意思?

使用大量異質資料,我們發現了一組 11 個基因,這些基因在排斥移植器官的患者中過度表達,我們證明了我們可以在來自不同國家不同醫院的其他佇列中驗證該基因特徵。此外,使用這組基因,我們可以預測——從移植手術後六個月的活組織檢查中——哪些患者在 18 個月後會出現明顯的亞臨床移植物損傷(一種比急性排斥更難檢測到的疾病)。因此,它也是一種預後標誌物。

我們在小鼠身上證實了這些結果。我們從一隻小鼠身上取出一顆心臟,放入另一隻動物體內,並詢問:當我們看到移植排斥反應時,這些基因會發生變化嗎?答案是肯定的。

然後,我們進行了谷歌搜尋,以尋找其機制表明它們調節我們發現的基因的生物過程的藥物。我們選擇了兩種 FDA 批准的藥物在我們的老鼠身上試用。瞧,它們奏效了。這兩種藥物都減少了移植物浸潤免疫細胞 [排斥反應的標誌物]。它們看起來與我們目前給移植患者使用的藥物一樣有效。

這兩種藥物之一是他汀類藥物,一種廣泛用於預防心臟病的藥物。我向前同事尋求幫助,他現在在比利時工作,並且可以訪問追溯到 1989 年的電子病歷。我請他在資料庫中搜索接受腎移植的患者,看看他們服用了哪些藥物,他們的移植物何時失效等等。他運行了分析,一週後對我說,“你猜怎麼著?如果患者接受了他汀類藥物治療,他們的移植物衰竭率降低了 30%。”

診斷、預後、治療以及根據電子病歷驗證研究結果——所有這些都在一篇 論文 中。

 

我不太明白您的方法與傳統的薈萃分析有何不同。根本的區別是什麼?

最大的區別在於我們的小組忽略了資料集之間的異質性,而在傳統的薈萃分析中,我們被教導要減少異質性。

例如,人們會說,“我不會使用這個樣本,因為那個病人接受了不同的藥物治療。或者,也許這些病人是移植後的早期,而另一個數據集是晚期,移植五年後,所以我不會使用該資料。” 在生物資訊學中,我們學會了獲取資料集並選擇樣本,確保沒有噪音,沒有混雜因素。

但是,當我們這樣做時,它並不能捕捉到疾病的異質性。我們知道這一點。這就是為什麼我們必須在其他佇列中重複研究結果。

我想說的是,不要擔心異質性。使用髒資料可以讓您考慮臨床異質性。

但為了確保異質性不會搞砸我的結果,我設定了嚴格的標準來驗證我們發現的基因與醫療狀況之間的統計關聯並非偶然。驗證必須在一個獨立佇列中進行,該佇列不是發現集的一部分。換句話說,如果一個實驗室發表了多個數據集,我預先將每個資料集都指定為發現佇列或驗證佇列。[編者注: 傳統上,研究人員通常將一組參與者分成兩個亞組:一個“發現”組,用於挖掘與某種疾病相關的基因,以及一個“驗證”組,他們單獨分析該組以驗證在發現組中識別出的基因。]

這種方法奏效了。我們使用大量髒資料識別出的基因——我們只是採用了我們能找到的所有生物和技術異質性——我們已經能夠在來自不同國家不同醫院的不同小組的佇列中進行驗證。

去年秋天,我們 發表 了一套指南,以便任何人都可以這樣做。它比較了幾種方法,並且非常技術性,但重點是:當您使用三到五個資料集,總共 200-250 個樣本時,可重複性很好(大於 85%)。您選擇哪種薈萃分析方法並不重要。真正重要的不是擁有一個大型的同質資料集,而是擁有多個異質資料集。

我們的方法 MetaIntegrator 在 CRAN 上可用,CRAN 是用 R 編寫的程式的開放存取儲存庫。

最近,我們進行了一項分析,表明使用髒資料不僅是好的,而且是必需的,因為文獻中存在研究偏差。我們剛剛在 biorxiv.org 上釋出了預印本。要點是,基於已發表的內容形成假設,就好比在隨機的路燈下尋找鑰匙,因為那裡的光線更好。

除了移植排斥之外,您的方法是否適用於其他情況?

我們已將此框架應用於癌症以及感染性和自身免疫性疾病。例如,我的一個朋友研究由基因 KRAS 突變驅動的癌症。他來找我問,“我對這五個基因很感興趣。你能執行你的分析,告訴我我應該關注哪些基因嗎?”

我對 13 個數據集運行了該方法:6 個用於胰腺癌,7 個用於肺癌。無論我做什麼,一個基因總是表現出變化最大。他憑藉該結果繼續研究並找出了一個機制,它成為了一篇 《自然》 論文

那是 2014 年,就在當地一位十年級學生來做暑期研究專案之前。您向他提出了什麼建議?

更多地思考器官移植工作的 11 個基因,我開始想:這組基因有多特異性?當您感染時,這 11 個基因也會增加嗎?癌症呢?自身免疫性疾病呢?

我對那個夏天在我這裡工作的學生說,讓我們開始收集所有這些不同疾病的資料。只需下載資料,執行我們的流程,然後向我展示基因特徵——每個條件下基因表達發生變化的基因列表。他使用了 173 個微陣列資料集,其中包含來自 42 種疾病的 8,000 多個人類樣本。細菌感染、病毒感染、自身免疫性和神經退行性疾病、精神疾病、癌症。

他整個夏天都在下載資料,將其放入我們的資料庫並進行註釋——無論是病例還是對照,什麼疾病,什麼組織。對於每種疾病,他都識別出一個基因特徵。基於這些特徵,他將每種疾病與每種其他疾病相關聯。簡單的相關性:如果一個基因在這種疾病中上調,它是否也在另一種疾病中上調?然後他進行了層次聚類。你能想象到的最簡單的事情。

他給我帶來了一張圖——一張總結所有這些結果的矩陣——我一直把它作為解決新問題的來源。一個高中生的暑期專案奠定了我實驗室的核心研究方向!

最近有哪些發現?

幾年前,在我實驗室攻讀生物醫學資訊學碩士學位的斯坦福大學外科住院醫師蒂姆·斯威尼使用這種方法系統地弄清楚是什麼引起了免疫反應——就像一個流程圖。他首先用它來找到一個基因特徵,以 區分膿毒症和非感染性炎症,然後區分它是 細菌感染還是病毒感染。如果是病毒性的,是 流感還是其他疾病?如果是細菌性的,是結核病嗎?除了細菌和病毒,感染也可能是由寄生蟲引起的。最近,我們為一個人對瘧疾的反應識別出了一個 基因特徵。我們現在可以透過測量宿主免疫反應中的基因表達來回答所有這些問題。

去年五月,蒂姆和我幫助創立了一家公司 Inflammatix,以商業化我們基於“髒資料”的診斷方法。該公司已從斯坦福大學獲得了這些特徵的許可,並將開發方法來充分利用髒資料的潛力。我認為我們甚至還沒有觸及我們可以使用現有資料的皮毛。

還有一件事。在我們 2014 年的 《癌症研究》 論文 中,我們表明酶 PTK7 在肺癌中起著重要作用。如果降低它的水平,腫瘤就會開始縮小。當時,PTK7 被稱為“孤兒受體酪氨酸激酶”——不知道它在體內的結合位置。但在今年早些時候,輝瑞公司 發表 了一份關於一種靶向 PTK7 用於非小細胞肺癌的藥物的報告。

所有這些似乎都會說服其他研究人員採用您的方法。他們採用了嗎?

我擔心的是,當我們發表這篇文章的那一刻,就會有很多人與我們競爭。然而,現在它已進入公共領域,但幾乎沒有人使用它!

當我介紹這種方法時,我會得到擁護者。但在那之前,我會收到這樣的撥款審查意見,就像我前幾天在 Twitter 上釋出的那樣:主要研究者“似乎喜歡閃光的東西,並且漫無目的地從一個閃亮的專案跳到另一個專案”。

所以這就是我的挑戰。我們如何說服他們?

《誇塔雜誌》 許可轉載,西蒙斯基金會 的一份編輯上獨立的出版物

 其使命是透過報道數學以及物理和生命科學的研究進展和趨勢來增進公眾對科學的理解。

© .