圖片來源:美國能源部人類基因組計劃 基因由DNA中的四個鹼基(遺傳字母表的字母 A、G、T、C)編碼,並且很難識別。染色體位於細胞核內,包含DNA。 |
去年夏天,當來自人類基因組計劃(一個由學術研究中心組成的國際聯盟)和塞萊拉基因組公司(一家美國私營公司)的科學家們都宣佈他們已經完成了人類基因組的工作草圖時,全世界為之歡呼。這是朝著破譯整個基因組邁出的重要第一步,也是有史以來最偉大的科學事業之一。但這些草圖僅僅揭示了故事的開端,即包含生命指令的卷軸。現在,兩個團隊都已開始解讀卷軸中的實際經文,逐個基因地進行閱讀。今天,他們將宣佈分析結果,這些結果將分別發表在本週的《自然》和《科學》雜誌上。
除其他令人驚訝之處外,兩篇論文都認為人類僅有 26,000 至 40,000 個基因,這遠少於許多人的預測。作為參考,簡單的線蟲秀麗隱杆線蟲有 18,000 個基因;果蠅黑腹果蠅有 13,000 個。截至去年夏天,一些人估計人類基因組可能包含多達 140,000 個基因。科學家們還需要幾年時間才能就絕對總數達成一致,但大多數人確信最終數字不會超出今天報告的範圍。“如果最終結果是 29,000 或 36,000,我不會感到震驚,”美國國立衛生研究院國家人類基因組研究所所長弗朗西斯·柯林斯說。“但如果最終結果是 50,000 或 20,000,我會感到震驚。”
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將有助於確保未來繼續推出關於塑造我們當今世界的發現和思想的具有影響力的報道。
經過多年的工作,約 10,000 個基因的誤差幅度可能看起來並不令人印象深刻,但基因(DNA 中編碼 RNA 和蛋白質的實際單元)非常難以計數。原因之一是它們像諺語中的大海撈針一樣散佈在整個基因組中:它們的編碼部分僅佔人類基因組中約 30 億個鹼基對的 1% 到 1.5%。基因的編碼區被分割成稱為外顯子的小片段,這些片段由稱為內含子的長段非編碼 DNA 連線。只有在轉錄過程中生成信使 RNA 時,外顯子才會被拼接在一起。
圖片來源:美國能源部人類基因組計劃
比較的線索。 小鼠基因組可以幫助科學家識別人類基因,因為大多數小鼠和人類基因非常相似;它們的序列在兩個基因組中都是保守的。 |
柯林斯解釋說,為了識別功能基因,科學家們不得不“依賴於各種線索”。一些線索來自與互補 DNA (cDNA) 資料庫的比較,cDNA 是信使 RNA 的精確副本。同樣,與小鼠基因組的比較也有幫助,因為大多數小鼠和人類基因非常相似;它們的序列在兩個基因組中都是保守的,而許多周圍的 DNA 則不然。當沒有此類線索時,科學家們完全依賴於基因預測計算機演算法。
因為這些演算法並非完全可靠,有時它們會在沒有基因的地方看到基因,或者完全遺漏基因,所以一些科學家對新的人類基因計數表示懷疑。例如,人類基因組科學公司(一家專門僅根據 cDNA 尋找蛋白質編碼基因的公司)的 William Haseltine 認為,“已使用的方法非常粗糙且不精確。”他認為,基因數量是這兩個研究小組迄今為止報告的兩倍以上。
但許多其他人確實接受目前的估計,並正在詢問人類應該擁有如此少的基因意味著什麼。塞萊拉基因組公司總裁克雷格·文特爾認為,“基因數量少意味著並非每個人類特徵都有一個基因,這些特徵出現在蛋白質水平和複雜的細胞水平。”事實證明,至少每三個基因中就有一個透過其前信使 RNA 的“選擇性剪接”產生幾種不同的蛋白質。而且,人類蛋白質的結構比蠕蟲和果蠅的蛋白質結構更復雜,這增加了另一個複雜性層次。與更簡單的生物體相比,人類擁有額外的蛋白質,這些蛋白質在免疫系統和神經系統以及血液凝固、細胞訊號傳導和發育等方面發揮作用。
科學家們也在對一項發現的意義感到困惑,即顯然有 200 多個來自細菌的基因在數百萬年前侵入了人類基因組,成為永久性的補充。今天,新的研究表明,其中一些細菌基因已經接管了重要的人類功能,例如調節對壓力的反應。“這有點令人震驚,無疑會激發進一步的研究,”柯林斯說。事實上,科學家們以前認為這種水平基因轉移在脊椎動物中是不可能的。
人類基因組的另一個奇特特徵是其整體景觀,其中基因密集區和基因貧乏區交替出現。“有些區域看起來像城市地區,基因序列的摩天大樓彼此堆疊在一起,”柯林斯解釋說,“然後還有一些巨大的沙漠,在數百萬個鹼基對中似乎沒有任何活動。”此外,這種差異不僅在染色體內部而且在染色體之間也很明顯。例如,19 號染色體的基因含量大約是 Y 染色體的四倍。
那麼基因沙漠中發生了什麼?人類基因組的一半以上由重複序列組成,也稱為“垃圾 DNA”,因為它們沒有已知的功能。脊椎動物沒有它們也能很好地生存:例如,河豚的基因組幾乎沒有這些重複序列。在人類中,它們中的大多數來源於轉座因子,即寄生性 DNA 片段,它們會複製自身並在另一個位點插入副本。但現在幾乎所有不同型別的轉座因子似乎都已停止在基因組中游蕩,只剩下它們的“化石”。儘管如此,仍有近 50 個基因似乎起源於轉座因子,這表明它們在基因組的進化過程中發揮了一些有用的作用。
圖片來源:美國能源部人類基因組計劃
尚未完成。 公共資料庫中只有 10 億個鹼基對(上圖中的黃色、橙色和藍色部分),即總量的三分之一,是“已完成”的形式。 |
一種型別的轉座因子,即所謂的 Alu 元件,在富含 G 和 C 鹼基的區域中尤其常見。這些區域也包含許多基因,因此 Alu 元件可能在它們周圍以某種方式有益。華盛頓大學基因組測序中心主任、公共聯盟成員羅伯特·沃特斯頓說,總的來說,人類基因組曾經看起來像“一個複雜的生態系統,所有這些不同的元素都試圖增殖”。今天,它們積累的突變為人類進化史提供了極好的分子化石記錄。
除了由轉座因子引起的重複序列外,基因組的大片段似乎隨著時間的推移而複製,無論是在染色體內部還是染色體之間。研究人員說,這種複製使得進化能夠在不破壞其原始功能的情況下處理不同的基因,並可能導致人類許多基因家族的擴張。
除了基因組序列外,人類基因組計劃和塞萊拉公司都已在 DNA 中識別出許多在個體之間存在差異的鹼基位置,這些位置被稱為單核苷酸多型性,或 SNP(發音為“snips”)。公共聯盟發現了 140 萬個 SNP,塞萊拉公司宣佈已發現 210 萬個。科學家們希望從中瞭解基因如何使人與人不同,特別是為什麼有些人比其他人更容易患某些疾病。“如果它們都有意義,那麼弄清楚它們的所有含義肯定需要很長時間,但我認為這個過程已經開始,”沃特斯頓指出。
可以肯定的是,還有許多工作要做。公共資料庫中只有 10 億個鹼基對(總量的三分之一)是“已完成”的形式,這意味著它們非常準確且沒有缺口。目前,塞萊拉公司和公共資料都包含大量缺口。此外,異染色質(DNA 中基因貧乏、重複序列豐富的部分,約佔基因組的 10%)的大部分尚未克隆和測序。到 2003 年春季,公共專案有望完成這項任務,但使用當前方法無法獲得的序列除外。
下一個重大挑戰將是找出基因如何在細胞中相互作用。柯林斯說,研究人員將“開始以全基因組的方式看待生物學”,例如,研究細胞中所有基因在給定時間的表達。柯林斯在談到一個快速發展的研究領域蛋白質組學時說,蛋白質(基因的產物)也將被研究,“不是一次研究一個,而是一次研究數萬個”。然而,最終,基因可能只能提供這麼多答案。文特爾總結道:“基本資訊是人類不是預先設定好的。那些一直在為生活中一切尋找確定性解釋的人會非常失望,而那些希望基因組能夠免除他們個人責任的人會更加失望。”