垃圾 DNA 中的隱藏寶藏

計算生物學家伊萬·伯尼說,曾經被稱為垃圾 DNA 的東西原來蘊藏著隱藏的寶藏

在 20 世紀 70 年代,當生物學家首次瞥見人類基因的圖景時,他們看到編碼蛋白質的 DNA 小片段(稱為外顯子)似乎像木片一樣漂浮在基因亂碼的海洋中。地球上數十億個其他 DNA 字母是幹什麼用的?就連 DNA 雙螺旋結構的共同發現者弗朗西斯·克里克這位分子領域的泰斗也懷疑它“比垃圾好不了多少”。

“垃圾 DNA”這個詞從此一直困擾著人類遺傳學。2000 年,當人類基因組計劃的科學家們展示了人類 DNA 中鹼基序列或密碼字母的第一個粗略草圖時,最初的結果似乎證實了絕大多數序列——可能佔其 32 億個鹼基的 97%——沒有明顯的功能。換句話說,“生命之書”看起來像是一部填充了大量內容的文字。

現在,在 9 月份發表在《自然》(《大眾科學》是自然出版集團的一部分)和其他地方的一系列論文中,ENCODE 集團釋出了一份令人震驚的清單,其中列出了先前隱藏的開關、訊號和路標,它們像符文一樣嵌入在整個人類 DNA 中。在這個過程中,ENCODE 專案正在重塑生物學家研究、討論和理解人類遺傳和疾病的詞彙。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。


伊萬·伯尼,39 歲,來自英國劍橋的歐洲生物資訊學研究所,領導了由 400 多名 ENCODE 科學家進行的基因組註釋分析。他最近接受了《大眾科學》的採訪,談論了主要發現。以下是節選。

大眾科學:ENCODE 專案揭示了一個充滿重要遺傳元件的圖景——一個曾經被斥為“垃圾 DNA”的圖景。我們過去對基因組如何組織的看法是否過於簡單化了?
伯尼:人們一直都知道那裡有比蛋白質編碼基因更多的東西。一直很清楚存在調控。我們不知道的是這種調控有多麼廣泛。

為了給您一個概念,大約 1.2% 的鹼基在外顯子蛋白質編碼區。人們推測“可能還有同樣多的鹼基參與調控,或者可能稍微多一點”。但是,即使我們從 ENCODE 資料中採取相當保守的觀點,我們最終也會得到大約 8% 到 9% 的基因組鹼基參與了類似調控的功能。

因此,致力於基因調控的基因組比致力於蛋白質編碼基因本身的基因組要多得多?
而這 9% 不可能是全部。我們取樣的最激進的觀點是 50%。所以肯定會超過 9%,而且很容易論證出大約 20% 這樣的數字。這不是一個不可行的數字。

我們現在應該摒棄“垃圾 DNA”這個說法嗎?
是的,我真的認為這個說法需要從詞彙中完全清除掉。這只是一個有點隨意的說法,用來描述 20 世紀 70 年代發現的非常有趣的現象。我現在確信,用它來描述正在發生的事情並不是一個非常有用的方法。

您從“垃圾”中獲得的一個驚喜是什麼?
在 ENCODE 內部和專案外部,一直存在著關於我們的實驗結果是否描述了自然界中真正發生的事情的爭論。然後還有一個更哲學的問題,那就是這是否重要。換句話說,這些事情可能在生物化學上發生,但進化,或者說我們的身體實際上並不關心。

這場辯論自 2003 年以來一直在進行。然後我們自己以及聯盟外部的工作都使得監管元件的進化規則與蛋白質編碼元件的進化規則不同這一點變得更加清晰。基本上,監管元件的更替速度更快。因此,如果在人類中發現特定的蛋白質編碼基因,那麼大多數時候你會在小鼠中找到幾乎相同的基因,而這個規則對於監管元件來說就行不通了。

換句話說,人類基因的調控更復雜,這些調控元件的進化也更快?
完全正確。

這是一種相當不同的基因和進化思考方式。
我強烈地感覺到,以前我對自己的無知一無所知,而現在我理解了自己的無知。當你意識到自己有多麼無知時,這有點令人沮喪。但這就是進步。理解這些事情的第一步是列出一個必須理解的事物清單,而這就是我們在這裡得到的。

早期的研究表明,只有大約 3% 到 15% 的基因組具有功能意義——也就是說,實際上做了一些事情,無論是編碼蛋白質、調節基因的工作方式還是做其他事情。我是否正確地理解了 ENCODE 資料意味著,相反,高達 80% 的基因組可能具有功能?
人們可以使用 ENCODE 資料,得出一個介於 9% 到 80% 之間的數字,這顯然是一個非常大的範圍。那裡發生了什麼?退一步說,我們細胞內的 DNA 被包裹在各種蛋白質周圍,其中大多數是組蛋白,它們通常起作用以保持一切安全和快樂。但是還有其他型別的蛋白質稱為轉錄因子,它們與 DNA 具有特定的相互作用。轉錄因子只會結合在 1,000 個位置,或者最大的結合可能發生在基因組中 50,000 個特定位置。因此,當我們談論這 9% 時,我們實際上是在談論這些非常具體的轉錄因子與 DNA 的接觸。

另一方面,DNA 複製成 RNA 似乎一直都在發生——大約 80% 的基因組實際上被轉錄。關於這種大量的轉錄是否是一個不太重要的背景過程,或者正在產生的 RNA 實際上是否在做我們尚不知道的事情,仍然存在激烈的爭論。

就我個人而言,我認為所有被轉錄的東西都值得進一步探索,而這將是我們未來必須解決的任務之一。

人們普遍認為,透過所謂的全基因組關聯研究或 GWAS 來識別與人類疾病相關的常見遺傳變異的嘗試並沒有揭示太多。事實上,ENCODE 的結果現在表明,GWAS 先前與疾病相關的 DNA 區域中約有 75% 位於蛋白質編碼基因附近。就疾病而言,我們專注於蛋白質編碼 DNA 中的突變是否錯了?
全基因組關聯研究非常有趣,但它們不是醫學的靈丹妙藥。GWAS 的情況讓每個人都有些摸不著頭腦。但是,當我們把這些遺傳關聯與 ENCODE 資料放在一起時,我們看到,儘管這些位點不靠近蛋白質編碼基因,但它們確實靠近我們正在發現的這些新元件之一。這是一件很美好的事情。事實上,當我第一次看到它時,那是一個有點好得難以置信的時刻。我們花了很多時間仔細檢查一切。

這一發現如何幫助我們理解疾病?
這就像打開了一扇門。想想你可以研究特定疾病(如克羅恩病)的所有不同方法:我們應該研究腸道中的免疫系統細胞嗎?還是應該研究向腸道發射訊號的神經元?還是應該研究胃以及它是如何做其他事情的?

所有這些都是選擇。現在突然 ENCODE 讓您可以檢查這些選擇並說,“嗯,我真的認為您應該首先從研究免疫系統的這一部分——輔助性 T 細胞——開始。”我們可以為非常非常多的疾病做到這一點。這真的很令人興奮。

既然我們正在摒棄“垃圾 DNA”這個說法,那麼是否有另一個更好的隱喻可以解釋正在出現的遺傳景觀的觀點?
感覺真的像一個叢林——一個完全茂密的叢林,你必須在其中努力前進。你正試圖開闢一條道路到達某個位置。而且你真的不確定自己在哪裡,你知道嗎?很容易在那裡迷路。

在過去的 20 年裡,公眾多次被告知,這些大型基因組專案——從人類基因組計劃開始,一直到其他各種專案——將解釋我們需要了解的關於“生命之書”的一切。ENCODE 僅僅是這一序列中的最新專案嗎?
我認為每次我們都說,“這些是基礎。你在它們之上構建。”沒有人說過,“看,人類基因組鹼基,就是這樣。一切都完成了——我們只需要做一點程式碼破解。”每個人都說,“我們將研究這個 50 年、100 年。但這是我們開始的基礎。”我確實感覺 ENCODE 專案是基礎資源的下一層,供其他人站在上面並進一步觀察。這裡最大的變化是我們已知未知事物的清單。我認為人們應該理解,儘管發現自己有多少不知道的事情可能會讓人感到倒退和沮喪,但找出差距真的很好。

十年前,我們不知道我們不知道什麼。毫無疑問,ENCODE 提出的問題遠遠多於它直接回答的問題。與此同時,對於克羅恩病來說,以及許多其他疾病,至少對於研究人員來說,有一些有效的快速勝利和唾手可得的成果——你可以開始對人們說,“哦,我的天哪,你有沒有看過那裡?”

這只是又一步。這是一個重要的步驟,但遠未結束,恐怕。

您有時稱自己為 ENCODE 的“首席牧貓人”。有多少人參與了該聯盟,協調如此大規模的努力感覺如何?
這是一種非常不同的科學研究方式。我只是 400 名研究人員之一,我是負責確保分析交付並且一切順利的人。但我不得不借助許多許多人的才能。

所以我更像是牧貓人、指揮家,而不是一個大腦可以吸收所有這些東西的人。這又回到了叢林的感覺。

嗯,您值得稱讚。這不僅僅是貓。它們是很有主見的貓。
是的,它們是。科學家不是狗。狗自然成群結隊地奔跑。貓?不是。我認為這概括了正常的科學表型。因此,有時你必須哄騙這些人朝著同一個方向前進。

您是否看到所有這些複雜的資訊將最終簡化為關於人類遺傳和人類疾病的更簡單資訊的時刻?或者我們是否必須接受複雜性正如其分,存在於我們的 DNA 中這一事實?
我們是複雜的生物。我們應該預料到那裡很複雜。但我認為我們應該對此感到高興,甚至為此感到自豪。

斯蒂芬·S·霍爾是一位屢獲殊榮的科學作家和定期撰稿人。他是《智慧:從哲學到神經科學》(克諾夫出版社,2010 年)的作者,這是他最近的作品。

更多作者:斯蒂芬·S·霍爾
大眾科學雜誌第 307 卷第 4 期本文最初以“基因內部之旅”為標題發表在《大眾科學》雜誌第 307 卷第 4 期 (),第 80 頁
doi:10.1038/scientificamerican1012-80
© .