人類基因組從未被完全測序

2003年完成的工作使用了當時最好的技術,但現在科學家們可以做得更多

這一壯舉成為世界各地的新聞頭條:“科學家稱人類基因組已完成”,《紐約時報》在 2003 年宣佈。《科學》和《自然》雜誌在揭示這一歷史性成就的封面文章中使用了相同的歡呼語:“人類基因組”。

但有一個小問題。

“就廣告的真實性而言,‘完成的’序列並未完成,”埃裡克·蘭德說,他在懷特黑德研究所領導的實驗室為政府資助的人類基因組計劃破譯了比任何其他實驗室都多的基因組。“我總是說‘完成’是一種修辭手法。”


支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關當今世界正在形成的發現和想法的具有影響力的故事的未來。


“可以非常公平地說,人類基因組從未被完全測序,”另一位基因組學領袖克雷格·文特爾告訴 STAT。

“據我所知,人類基因組以及其他任何哺乳動物基因組都沒有被完全測序,”哈佛醫學院生物工程師喬治·丘奇說,他在測序技術方面取得了關鍵的早期進展

閱讀更多:遺傳學家克雷格·文特爾幫助測序了人類基因組。現在他想要你的基因組

然而,內部人士所知的事情並沒有被我們其他人很好地理解,我們理所當然地認為構成 23 對人類染色體 DNA 的每一個 A、T、C 和 G 都已被完全解析。當科學家們在 2001 年完成人類基因組的第一個草案時,以及在 2003 年他們有了最終版本時,沒有人真正撒謊。美國國立衛生研究院的常見問題解答提到了序列的“基本完成”,並且對於“人類基因組是否完全測序?”的問題,他們回答“是”,但補充說,鑑於現有技術,它是“儘可能完整的”。

也許沒有人太在意,因為缺失的序列似乎無關緊要。但是現在看來,它們可能在癌症和自閉症等疾病中發揮作用。

加州大學聖克魯茲分校的分子生物學家凱倫·米加說:“在 20 世紀 80 年代和 90 年代(當人類基因組計劃開始時),很多人認為這些區域是非功能的。但現在情況並非如此。”她說,其中一些被稱為衛星區域的區域在某些形式的癌症中會發生不良行為,“因此這些區域中正在發生一些重要的事情。”

米加將它們視為探險家利文斯頓眼中的非洲——一塊未知之地,它的難以接近似乎是對個人的冒犯。她說,對未測序的區域進行測序是“人類遺傳學和基因組學的最後邊界”。

丘奇也一直在強調這一點,他在 5 月的基因組合成會議以及上週末的國際幹細胞研究學會會議上都提到了這一點。他說,大多數未測序的區域“與衰老非整倍體有關”(染色體數量異常,例如唐氏綜合徵中發生的染色體數量異常)。丘奇估計人類基因組中有 4% 到 9% 沒有被測序。米加認為有 8%。

這些差距的原因在於,DNA 測序機器不像人類閱讀書籍那樣,從第一個詞到最後一個詞來讀取基因組。相反,它們首先隨機切碎 23 對染色體的副本,總共有約 30 億個“字母”,這樣機器就不會不堪重負。由此產生的片段包含從 1000 個字母(在人類基因組計劃期間)到幾百個字母(在當今更先進的測序機器中)。這些片段重疊。計算機將重疊部分匹配起來,將片段組裝成正確的序列。

如果這些片段包含大量重複片段(例如 TTAATATTAATATTAATA,或 TTAATA 三次),則很難或不可能完成此操作。蘭德說:“問題在於,當你擁有完全相同的詞時,很難進行組裝”,就像拼圖遊戲中的拼圖塊顯示完全相同的藍色天空一樣。

2004 年,基因組計劃報告說,序列中有 341 個缺口。大部分缺口(250 個)位於每條染色體的主要部分,基因在那裡製造生命執行所需的蛋白質。這些缺口很小。只有少數缺口(最近統計為 33 個)位於每條染色體的著絲粒(染色體的兩個部分連線的地方)和端粒(染色體末端的帽子)處或附近,但這 33 個缺口的總長度是 250 個缺口的 10 倍。

這使得著絲粒尤其像是基因組中未知的贊比西河。華盛頓大學的埃文·艾希勒說,每條染色體都有這種挑戰序列的重複元素(把它們想象成 DNA 口吃),其中一個臭名昭著的重複元素有 171 個字母長,首尾相連重複數千個字母。

蘭德說,在人類基因組計劃開始時(他現在是麻省理工學院和哈佛大學博德研究所的主任),“很明顯,這些高度重複的序列將無法使用現有技術進行處理。當時這並沒有引起太多的痛苦”,因為他和專案負責人預計下一代科學家會找到解決方案。

這種情況並沒有真正發生,部分原因是繪製這些區域的地圖沒有太大的動力。蘭德說:“我持不可知論態度,並且有點懷疑這些片段是否對疾病很重要,但也許我說這話是因為我們無法讀取它們。”

然而,隨著新的測序技術開始允許科學家窺探未測序的區域,他們發現“這些難以測序的區域通常具有重要的基因”,DNA 測序儀制造商太平洋生物科學公司董事長兼執行長邁克爾·亨卡皮勒說。(1998 年,亨卡皮勒招募文特爾加入他的新公司 Celera Genomics,與政府支援的基因組計劃競爭。)

亨卡皮勒說,PacBio 的“存在理由”是增加可以讀取的 DNA 片段的長度並組裝它們。更長的讀取效果類似於放大拼圖塊;即使這些拼圖塊仍然包含大量重複的藍色天空,更大的尺寸也更有可能使它們也包含足夠新穎的東西,從而使組裝更容易。亨卡皮勒說,PacBio 的最大 DNA 讀取長度現在約為 60,000 個字母,平均為 15,000 個字母。

蘭德說,有了如此長的讀取長度,“你可以透過許多這些令人討厭的[未測序]區域。”

閱讀更多:“基因編寫者”在紐約聚集,推銷炸彈嗅探植物等等。資金在哪裡?

這看起來越來越像一項值得進行的嘗試,而且不僅僅是因為未測序的區域可能包含實際的蛋白質製造基因。有證據表明,非基因部分(尤其是 DNA 口吃)“顯然對疾病有影響”,亨卡皮勒說。“一個人與另一個人之間四分之三的[基因組]差異在於[這種]變異”,而不是 A、T、C 和 G 中單個字母的拼寫差異,而這些差異受到了所有關注。在 2007 年的論文中,文特爾和他的團隊表明,像這樣的稱為結構變異的人與人之間的差異比單個字母的變化更多。

然而,在基因組專案或後來稱為1000 基因組專案的工作中,大約 90% 的結構變異(其中絕大多數沒有被測序)“被遺漏了”,艾希勒和他的同事在去年報告中指出。

口吃之所以具有異常的影響力,其中一個原因是這種重複的 DNA 可以四處移動、複製自身、翻轉方向,並進行其他雜技表演,這些表演“可能具有非常顯著的功能影響”,亨卡皮勒說。首先,著絲粒周圍的重複元素(稱為衛星)可能會導致細胞分裂成為癌細胞,米加說,因為它們會使整個基因組不穩定。

亨卡皮勒說,當斯坦福大學的研究人員試圖找出一位年輕男子神秘疾病的遺傳原因時,這種疾病導致他的全身長出非癌性腫瘤,他們使用標準的整個基因組測序方法一無所獲。但是,PacBio 機器實現的“長讀取”技術“尋找到了結構變異,並立即發現了問題”,他說。

口吃甚至可能使我們成為人類。其中一些複雜的重複“似乎對更高神經適應功能的進化很重要”——也就是大腦發育,艾希勒說。一個名為 ARHGAP11B 的基因由這種重複產生,它導致大腦皮層發育出支援複雜思維的無數褶皺;SRGAP2C 也是一種重複,它會觸發大腦發育。

“這些是在過去幾百萬年中專門在我們血統中進化出來的新基因,”艾希勒說。同樣的重複也可能產生與神經發育障礙(如自閉症和智力障礙)相關的 DNA 重排。

“完成測序!”還沒有成為一個戰鬥口號,但也許應該成為一個戰鬥口號,文特爾說:“我會是最後一個引用說我們不需要擔心這些[未測序]區域的人。”

STAT 許可轉載。 本文最初發表於 2017 年 6 月 20 日

STAT delivers fast, deep, and tough-minded journalism. We take you inside science labs and hospitals, biotech boardrooms, and political backrooms. We dissect crucial discoveries. We examine controversies and puncture hype. We hold individuals and institutions accountable. We introduce you to the power brokers and personalities who are driving a revolution in human health. These are the stories that matter to us all.

More by STAT
© .