2013年2月21日

ENCODE、蘋果地圖與功能：為什麼定義至關重要

本文發表於《大眾科學》的前部落格網路，僅反映作者的觀點，不一定代表《大眾科學》的觀點

還記得那項引發新聞的 ENCODE 研究及其“基因組的 80% 具有功能”的說法嗎？還記得這些說法是如何成為一場公關災難的起點，這場災難（第一百次）宣佈了“垃圾 DNA 的死亡”嗎？甚至主流記者也相信了這種誤導性的說法。我寫了一篇關於 ENCODE 的文章，我在其中表達了驚訝，為什麼會有人對垃圾 DNA 感到驚訝。

現在，丹·格勞爾和他在休斯頓大學的同事們發表了對 ENCODE 整套解釋的細緻批判。實際上，讓我重新措辭。丹·格勞爾和他的同事們發表了一篇毀滅性的 ENCODE抨擊，他們以禿鷲肢解角馬屍體的堅韌和沉著來剖析 ENCODE 的說法。任何對 ENCODE 感興趣的人都應該閱讀這篇論文，值得慶幸的是它是免費的。

首先，讓我評論一下這篇論文的風格，它與您常見的催眠技術文章略有不同。標題——論電視機的永恆性：根據 ENCODE 的免進化福音，人類基因組中的功能——清楚地表明作者毫不留情，這種印象也延續到文章的其餘部分。論文的語言中充滿了有針對性的諷刺、對蘋果的挖苦（ENCODE 的結果與蘋果地圖進行了比較）、對羅伯特·魯德魯姆的頌歌，以及呼籲 ENCODE 科學家在一部名為《ENCODE 不協調》的電影中扮演主角。而我們才剛剛開始熱身。作者不遺餘力地告訴我們他們對 ENCODE 的看法，經常使用生動的語言。我只想說，如果一半的論文都寫得如此有趣，那麼科學文獻將更容易為公眾所理解。

關於支援科學新聞業

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保有關塑造我們今天世界的發現和想法的有影響力的故事的未來。

現在轉到內容。這篇文章的要旨是剖析 ENCODE 團隊使用的極其寬鬆、誤導和幾乎無用的“功能”定義。論文首先指出了被選擇的功能和僅僅是因果的功能之間的區別。前者的定義是進化性的（就賦予有用的生存優勢而言），而後者則不是。作為一個有用的例子，人類心臟被選擇的功能是泵血，而因果功能是額外的 300 克重量和產生撲通聲的能力。

ENCODE 資料的問題在於它以因果功能為特徵，而不是被選擇的功能。因此，例如，ENCODE 將功能分配給任何顯示可重複特徵的 DNA 序列，例如與轉錄因子蛋白結合。正如本文所指出的，這個定義太寬鬆了，而且常常是有缺陷的。例如，DNA 序列可能與轉錄因子結合，但不會誘導轉錄。事實上，論文質疑為什麼該研究單單挑出轉錄作為一種功能：“但是，DNA 聚合酶和 DNA 複製呢？為什麼要大驚小怪地討論基因組中 74.7% 被轉錄的部分，卻忽略了 100% 的基因組參與了驚人的‘可重複的生化特徵’——它複製了！”

事實上，ENCODE 研究的主要問題之一似乎是它強調轉錄作為“功能”的核心決定因素。這是有問題的，因為正如作者指出的那樣，有很多序列被轉錄，但已知沒有功能。但在我們繼續討論這個問題之前，值得強調作者稱之為“ENCODE 不協調”的內容，以致敬羅伯特·魯德魯姆。“ENCODE 不協調”指出了研究中的一個重要假設；生物功能可以在沒有選擇的情況下維持，並且 ENCODE 識別的具有“因果功能”的序列不會積累有害突變。這種假設是沒有根據的。

然後，論文重新審視了 ENCODE 用來定義“功能”的五個核心標準，並仔細地逐一剖析

1. “功能”即轉錄。

這可能是最令人惱火的問題。首先，似乎 ENCODE 使用了多能幹細胞和癌細胞進行其核心研究。這些細胞的問題在於，它們比其他細胞表現出更高的轉錄水平，因此，從這些細胞的轉錄中推斷出的功能一開始就會被誇大。但更重要的是，正如文章解釋的那樣，我們已經知道有三類序列在沒有功能的情況下被轉錄；內含子、假基因和移動元件（“跳躍基因”）。假基因是一個特別有趣的例子，因為它們是已知因突變而失效的蛋白質編碼基因的非活性複製。在過去幾年中，隨著實驗和計算演算法註釋了越來越多的基因，假基因的數量甚至在蛋白質編碼基因的數量下降的同時也在上升。我們也知道假基因可以在某些細胞中被轉錄甚至翻譯，特別是 ENCODE 中使用的那種細胞，正如我們知道它們根據定義是非功能性的一樣。類似的論點適用於內含子和移動元件，文章引用了一些論文，這些論文證明敲除這些基因不會損害功能。那麼，為什麼任何研究都要將這三類序列標記為功能性的，僅僅因為它們被轉錄？這似乎是 ENCODE 的一個核心缺陷。

作者提出的一個相關觀點是統計學上的，他們說 ENCODE 專案為了靈敏度而犧牲了選擇性。有一些簡單的數值論證表明，為了靈敏度而犧牲選擇性會產生大量的假陽性。事實上，這種批評觸及了整個 ENCODE 研究的目的的核心

“在這一點上，我們必須問自己，ENCODE 的目的是什麼：是以增加被錯誤識別為功能元件的數量為代價來識別每一個可能的功能元件？還是建立一個儘可能沒有假陽性的功能元件列表。如果是前者，那麼應該優先考慮靈敏度而不是選擇性；如果是後者，那麼應該優先考慮選擇性而不是靈敏度。ENCODE 選擇透過過度偏愛靈敏度而不是特異性來偏袒其結果。事實上，他們本可以節省數百萬美元和數千小時的研究時間，完全忽略選擇性，並先驗地宣佈基因組的 100% 具有功能。使用此程式不會遺漏一個功能元件。”

2. “功能”即組蛋白修飾

組蛋白是將 DNA 打包成染色質的蛋白質。然後組蛋白經歷某些稱為翻譯後修飾的化學修飾，導致 DNA 解包並表達。ENCODE 使用 12 種組蛋白修飾的存在作為“功能”的證據。這篇論文引用了一項研究，該研究發現只有很小比例的可能組蛋白修飾與功能相關。我個人認為這是一個不斷發展的研究領域，但我也有疑問，是否大多陣列蛋白修飾都與功能相關聯。

3. “功能”即鄰近開放染色質區域

與組蛋白包裝的 DNA 相比，開放染色質區域不受組蛋白的束縛。ENCODE 發現 80% 的轉錄位點位於開放染色質區域內。但隨後他們似乎犯了經典的邏輯謬誤，即推斷出相反的結論，即大多數開放染色質區域都是功能性轉錄位點（再次出現轉錄與功能之間的關聯）。正如作者指出的那樣，只有 30% 左右的開放染色質位點甚至在轉錄位點的附近，因此將大多數開放染色質位點與轉錄聯絡起來似乎至少是一個很大的飛躍。

4. “功能”即轉錄因子結合。

對我來說，這是 ENCODE 研究中固有的另一個巨大假設，尤其是作為一個化學家。正如我在之前的文章中提到的，DNA 的某些區域可能僅僅透過一些微弱的化學相互作用而結合轉錄因子 (TF)。這種結合可能非常微弱，並且可能是一個快速的結合-解離事件。在我看來，在將任何型別的轉錄因子結合與功能聯絡起來時，ENCODE 團隊似乎是從化學推斷生物學。當前的分析表達了我的懷疑。正如作者所說，轉錄位點通常非常短，這意味著 TF 結合“相似物”可能在大型基因組中純粹偶然地出現。與這些位點的任何結合都可能與真正的 TF 結合位點混淆。作者還引用了一項研究，在該研究中，在一個由 14 個位點組成的小樣本中，只有 86% 的 TF 結合位點顯示出與 TF 的實驗性結合。推斷到整個基因組，這可能意味著推測的 TF 結合位點中只有一小部分實際上會結合 TF。

5. “功能”即 DNA 甲基化。

在我看來，這是另一個從化學推斷生物學的例子。DNA 甲基化是表觀遺傳學的主要機制之一。但就其本身而言，DNA 甲基化只是一種化學反應。ENCODE 團隊建立在一個發現的基礎上，該發現表明 CpG（胞嘧啶-鳥嘌呤）位點的基因表達與甲基化呈負相關。基於此，他們得出結論，基因組中 96% 的 CpG 位點都被甲基化，因此具有功能。但同樣，在沒有明確的實驗驗證的情況下，CpG 甲基化不能等同於基因表達。至少這表明需要進行後續工作，以確認這種關係。在此之前，CpG 甲基化意味著功能的假設將不得不仍然是一個假設。

那麼我們如何看待這一切呢？很明顯，ENCODE 的許多結論都是缺乏確鑿證據的推斷。但真正的癥結在於“垃圾 DNA”的概念，這個概念似乎引發了相當極端的觀點，從宣佈垃圾 DNA 已經滅絕到宣佈它是上帝。這兩種觀點都極大地歪曲了基因組的真實本質。前者的反應實際上為“設計師”創造論者鋪平了道路，他們現在可以熱情地提醒我們基因組中的每一個鹼基對都是如何被精心設計的。與此同時，斷言垃圾 DNA 必須是上帝等同於宣佈每一段當前被指定為垃圾 DNA 的片段都必須永遠是非功能性的。雖然前者的過錯要糟糕得多，但重要的是要修正後一種信念。為了做到這一點，作者提醒我們悉尼·布倫納對“垃圾 DNA”和“垃圾 DNA”所做的區分。有我們保留的垃圾和我們丟棄的垃圾，但有些垃圾將來可能會變得有用。與此同時，將來可能有用的垃圾並不是現在有用的垃圾。僅僅因為一些“垃圾 DNA”將來可能會被證明具有功能，並不意味著大多數垃圾 DNA 都是功能性的。事實上，正如我在我的文章中提到的，我們的基因組中存在大量非功能性 DNA 與標準的進化論證完全一致。

論文最後對“小”科學和“大”科學進行了有趣的討論，這可能解釋了 ENCODE 研究中的一些錯誤。作者指出，大科學通常致力於以易於訪問的格式生成和傳遞資料。小科學在解釋資料方面要勝任得多。這並不意味著從事大科學的科學家沒有能力解釋資料；這意味著大資料的本質（以及其中固有的時間和資源分配）可能使這些科學家很難啟動能夠完成仔細資料解釋工作的有針對性的專案。論文暗示，也許 ENCODE 的錯誤在於試圖同時充當資料的傳遞者和解釋者。在作者深思熟慮的觀點中，ENCODE“試圖對 35 億個鹼基對的基因組進行一種文字詮釋學，無視科學解釋的規則，並採取了神學詮釋學的立場，即文字中的每個字母都被先驗地假定為具有意義”。換句話說，ENCODE 似乎屈服於一種不幸的普遍模式尋求案例，而人類常常會遭受這種案例的影響。

無論如何，整個事件都有寶貴的教訓。它產生的鋪天蓋地的誤導性宣傳，甚至在《科學》和《自然》等期刊上，都是媒體炒作的教科書式研究。正如作者所說

“ENCODE 的結果被其主要作者之一預測為需要重寫教科書（Pennisi 2012）。我們同意，許多關於營銷、大眾媒體炒作和公共關係的教科書可能確實需要重寫。”

從科學的角度來看，這裡最大的教訓可能是，在受控實驗室條件下解釋大量嘈雜的生物資料時，始終牢記基本的進化原則。值得記住論文的最後一行

“進化保守性可能令人沮喪地沉默於它所強調的功能的本質，但只有不忽視進化原則，才能在理解 DNA 序列的功能意義方面取得進展……那些參與大科學的人最好記住令人沮喪的流行格言：‘如果好得令人難以置信，那就好得令人難以置信。’”

作者將 ENCODE 比作蘋果地圖，iPhone 中的方向查詢應用程式，該應用程式在釋出時臭名昭著地失敗了。然而，蘋果地圖也提供了一個有用的隱喻。軟體可以進化成有用的狀態。希望我們對基因組的理解也會如此。