是什麼讓我們成為人類?

人類和黑猩猩基因組的比較揭示了那些罕見的、我們獨有的 DNA 片段

六年前,我抓住機會加入了國際團隊,該團隊正在識別普通黑猩猩(Pan troglodytes)基因組中 DNA 鹼基或“字母”的序列。作為一名長期對人類起源感興趣的生物統計學家,我渴望將人類 DNA 序列與我們現存最近的親屬的 DNA 序列排列在一起並進行評估。一個令人謙卑的事實浮出水面:我們的 DNA 藍圖與他們的幾乎 99% 相同。也就是說,在構成人類基因組的 30 億個字母中,只有 1500 萬個字母(不到 1%)在人類和黑猩猩譜系分化以來的大約 600 萬年中發生了變化。

進化論認為,這些變化中的絕大多數對我們的生物學影響甚微或沒有影響。但在大約 1500 萬個鹼基中的某個地方,存在著使我們成為人類的差異。我決心找到它們。從那時起,我和其他人已經在識別一些將我們與黑猩猩區分開來的 DNA 序列方面取得了誘人的進展。

早期的驚喜 儘管僅佔人類基因組的一小部分,但數百萬個鹼基仍然是一個廣闊的搜尋領域。為了方便搜尋,我編寫了一個計算機程式,該程式可以掃描人類基因組,尋找自人類和黑猩猩從共同祖先分離以來變化最大的 DNA 片段。由於大多數隨機基因突變既不會使生物體受益也不會損害生物體,因此它們以穩定的速率積累,該速率反映了自兩個生物物種擁有共同祖先以來經過的時間量(這種變化率通常被稱為“分子鐘的滴答”)。相比之下,基因組某些部分的變化率加速是正向選擇的標誌,在這種選擇中,有助於生物體生存和繁殖的突變更有可能傳遞給後代。換句話說,自黑猩猩-人類分裂以來經歷最多修改的程式碼部分是最有可能塑造人類的序列。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。


2004 年 11 月,經過數月的除錯和最佳化我的程式以使其在加州大學聖克魯茲分校的大型計算機叢集上執行後,我最終得到一個檔案,其中包含這些快速進化序列的排名列表。在我的導師大衛·豪斯勒俯身在我肩膀上時,我查看了排名最高的命中結果,這是一段 118 個鹼基的延伸,它們共同被稱為人類加速區域 1 (HAR1)。我使用加州大學聖克魯茲分校基因組瀏覽器(一種使用公共資料庫中的資訊註釋人類基因組的視覺化工具)放大了 HAR1。瀏覽器顯示了人類、黑猩猩、小鼠、大鼠和雞的 HAR1 序列——當時所有已解碼基因組的脊椎動物物種。它還顯示,之前的大規模篩選實驗已在人類腦細胞的兩個樣本中檢測到 HAR1 活動,儘管沒有科學家命名或研究過該序列。當我們看到 HAR1 可能是科學界新發現的、在大腦中活躍的基因的一部分時,我們齊聲喊道:“太棒了!”

我們中了大獎。眾所周知,人類大腦在大小、組織和複雜性等方面與黑猩猩大腦有很大不同。然而,人類大腦與眾不同的特徵背後的發育和進化機制卻知之甚少。HAR1 有潛力闡明人類生物學中最神秘的方面。

在接下來的一年裡,我們透過比較包括當時測序的另外 12 種脊椎動物在內的各種物種的基因組的這個區域,儘可能多地瞭解了 HAR1 的進化歷史。事實證明,在人類出現之前,HAR1 的進化速度非常緩慢。在雞和黑猩猩(它們的譜系在大約 3 億年前就已分化)中,118 個鹼基中只有兩個不同,而人類和黑猩猩之間有 18 個不同,它們的譜系分化時間要晚得多。HAR1 在數億年中基本上處於凍結狀態這一事實表明它在做一些非常重要的事情;然後在人類中經歷了突然的修訂,這表明該功能在我們的譜系中得到了顯著修改。

2005 年,在我的合作者布魯塞爾自由大學的皮埃爾·範德海根訪問聖克魯茲期間,從我們的實驗室獲得了一小瓶 HAR1 副本後,HAR1 在大腦中的功能的關鍵線索出現了。他使用這些 DNA 序列設計了一種熒光分子標籤,當 HAR1 在活細胞中被啟用時(即從 DNA 複製到 RNA)會發光。當典型的基因在細胞中開啟時,細胞首先製造一個可移動的信使 RNA 副本,然後使用 RNA 作為合成某些所需蛋白質的模板。標記顯示,HAR1 在一種神經元中活躍,這種神經元在發育中的大腦皮層(皺褶狀的最外層大腦層)的模式和佈局中起著關鍵作用。當這些神經元出現問題時,結果可能是一種嚴重的、通常是致命的先天性疾病,稱為無腦回畸形(“光滑大腦”),其中皮層缺乏其特徵性褶皺,並且表面積顯著減少。這些相同神經元的功能障礙也與成人精神分裂症的發生有關。

因此,HAR1 在正確的時間和地點活躍,有助於健康皮層的形成。(其他證據表明,它可能還在精子產生中發揮作用。)但是,這段遺傳密碼究竟如何影響皮層發育仍然是一個謎,我的同事和我仍在努力解決。我們渴望這樣做:HAR1 最近的突變爆發可能已經顯著改變了我們的大腦。

除了擁有非凡的進化歷史外,HAR1 的特殊之處還在於它不編碼蛋白質。幾十年來,分子生物學研究幾乎完全集中在指定蛋白質(細胞的基本組成部分)的基因上。但由於人類基因組計劃對我們自身的基因組進行了測序,科學家現在知道蛋白質編碼基因僅佔我們 DNA 的 1.5%。其餘 98.5%(有時被稱為垃圾 DNA)包含調節序列,這些序列告訴其他基因何時開啟和關閉,以及編碼不翻譯成蛋白質的 RNA 的基因,以及許多科學家才剛剛開始理解用途的 DNA。

基於 HAR1 序列中的模式,我們預測 HAR1 編碼 RNA——加州大學聖克魯茲分校的索菲·薩拉馬、哈勒·伊格爾和曼努埃爾·艾爾斯隨後在 2006 年透過實驗室實驗證實了這一猜想。事實上,事實證明人類 HAR1 存在於兩個重疊的基因中。共享的 HAR1 序列產生了一種全新的 RNA 結構,新增到已知的六類 RNA 基因中。這六個主要群體包含 1000 多個不同的 RNA 基因家族,每個家族都透過細胞中編碼 RNA 的結構和功能來區分。HAR1 也是第一個被記錄在案的似乎經歷了正向選擇的 RNA 編碼序列的例子。

似乎令人驚訝的是,之前沒有人注意到人類基因組中這令人驚歎的 118 個鹼基。但在沒有 readily 比較整個基因組的技術的情況下,研究人員無法知道 HAR1 不僅僅是另一段垃圾 DNA。

語言線索 其他物種的整個基因組比較也為人類和黑猩猩的基因組如此相似卻又如此不同提供了另一個關鍵見解。近年來,數千種物種(主要是微生物)的基因組已被測序。事實證明,DNA 替換髮生在基因組中的位置(而不是總體上發生多少變化)可能非常重要。換句話說,您不需要改變基因組的很多就能創造一個新物種。從黑猩猩-人類祖先進化出人類的方法不是加速整個分子鐘的滴答聲。相反,秘訣是在那些變化對生物體功能產生重要影響的位點發生快速變化。

HAR1 當然就是這樣一個地方。FOXP2 基因也是如此,它包含我識別出的另一個快速變化的序列,並且已知與語言有關。英國牛津大學的研究人員發現了它在語言中的作用,他們在 2001 年報告稱,基因突變的人無法做出正常人類語言所需的某些微妙的、高速的面部動作,即使他們擁有處理語言的認知能力。典型的人類序列與黑猩猩的序列顯示出幾個差異:兩個鹼基替換改變了其蛋白質產物,以及許多其他可能導致影響蛋白質在人體中使用方式、時間和地點的轉變的替換。

最近的一項發現揭示了啟用語言版本的 FOXP2 何時出現在人科動物中:2007 年,德國萊比錫馬克斯·普朗克進化人類學研究所的科學家對從尼安德特人化石中提取的 FOXP2 進行了測序,發現這些已滅絕的人類擁有現代人類版本的基因,或許使他們能夠像我們一樣發音。目前對尼安德特人和現代人類譜系分裂時間的估計表明,新形式的 FOXP2 必須在至少 50 萬年前就已出現。然而,人類語言與其他物種的聲帶交流的區別主要不是來自物理手段,而是來自認知能力,認知能力通常與大腦大小相關。靈長類動物的大腦通常比根據它們的體型預期的要大。但自黑猩猩-人類祖先以來,人類的大腦容量增加了兩倍多——遺傳學研究人員才剛剛開始解開這種增長的秘密。

與人類和其他動物大腦大小相關的研究最充分的基因之一是 ASPM。對患有小頭畸形(大腦縮小高達 70%)的人進行的基因研究揭示了 ASPM 和其他三個基因(MCPH1、CDK5RAP2 和 CENPJ)在控制大腦大小中的作用。最近,芝加哥大學和密歇根大學安阿堡分校的研究人員表明,ASPM 在靈長類動物進化過程中經歷了多次變化爆發,這種模式表明了正向選擇。至少其中一次爆發發生在人類譜系中,自從它與黑猩猩譜系分化以來,因此可能對我們的大腦進化起到了推動作用。

基因組的其他部分可能對人類大腦的變態產生了不太直接的影響。識別 HAR1 的計算機掃描還發現了 201 個其他人類加速區域,其中大多數區域不編碼蛋白質甚至 RNA。(英國劍橋韋爾科姆信託基金會桑格研究所進行的一項相關研究檢測到許多相同的 HAR。)相反,它們似乎是調節序列,告訴附近的基因何時開啟和關閉。令人驚訝的是,超過一半的 HAR 附近基因都參與大腦發育和功能。而且,正如 FOXP2 的情況一樣,許多這些基因的產物會繼續調節其他基因。因此,即使 HAR 僅佔基因組的極小部分,這些區域的變化也可能透過影響整個基因網路的活動而深刻地改變人類大腦。

超越大腦 儘管許多基因研究都集中在闡明我們複雜大腦的進化上,但研究人員也在逐漸瞭解人類身體的其他獨特方面是如何形成的。HAR2 基因調控區域是我列表上加速程度排名第二的位點,就是一個典型的例子。2008 年,勞倫斯伯克利國家實驗室的研究人員表明,相對於非人類靈長類動物的版本,人類版本 HAR2(也稱為 HACNS1)中的特定鹼基差異允許該 DNA 序列在胎兒發育期間驅動手腕和拇指中的基因活動,而非其他靈長類動物的祖先版本則不能。這一發現尤其具有啟發性,因為它可能支援人類手部形態的變化,這種變化使人類具備了製造和使用複雜工具所需的靈活性。

除了形態發生變化外,我們的祖先還經歷了行為和生理上的轉變,這幫助他們適應了變化的環境並遷移到新的環境中。例如,一百多萬年前對火的征服和大約 10,000 年前的農業革命使富含澱粉的食物更容易獲得。但僅靠文化轉變不足以利用這些富含卡路里的食物。我們的前輩必須在基因上適應它們。

AMY1 基因(編碼唾液澱粉酶,一種參與消化澱粉的酶)的變化構成了這種適應的一個眾所周知的例子。哺乳動物基因組包含該基因的多個副本,副本數量在物種之間甚至在不同人之間都不同。但總的來說,與其他靈長類動物相比,人類擁有特別多的 AMY1 副本。2007 年,亞利桑那州立大學的遺傳學家表明,攜帶更多 AMY1 副本的個體唾液中的澱粉酶更多,從而使他們能夠消化更多澱粉。因此,AMY1 的進化似乎既涉及基因副本的數量,也涉及其 DNA 序列的具體變化。

另一個關於飲食適應的著名例子涉及乳糖酶 (LCT) 基因,乳糖酶是一種允許哺乳動物消化碳水化合物乳糖(也稱為乳糖)的酶。在大多數物種中,只有哺乳期的嬰兒才能處理乳糖。但在大約 9000 年前(從進化角度來看,時間非常近),人類基因組的變化產生了 LCT 的變體,使成年人也能消化乳糖。改良的 LCT 在歐洲和非洲人群中獨立進化,使攜帶者能夠消化家養動物的牛奶。今天,這些古代牧民的成年後代比來自世界其他地區(包括亞洲和拉丁美洲)的成年人更可能耐受飲食中的乳糖,後者中的許多人由於擁有該基因的祖先靈長類動物版本而患有乳糖不耐症。

LCT 並不是唯一已知目前在人類中進化的基因。黑猩猩基因組計劃在從一種在我們的猿類祖先中完全正常且在其他哺乳動物中也能正常工作的版本轉變的過程中,識別出另外 15 個基因,但在舊形式中,這些基因與現代人類的阿爾茨海默病和癌症等疾病有關。其中幾種疾病僅影響人類,或在人類中的發生率高於其他靈長類動物。科學家目前正在研究所涉及基因的功能,並試圖確定為什麼這些基因的祖先版本在我們身上變得不適應。這些研究可以幫助醫生識別那些患上這些危及生命的疾病的機率更高的患者,希望能幫助他們預防疾病。這些研究也可能幫助研究人員識別和開發新的治療方法。

好事與壞事並存 為了將我們的基因傳遞給後代而與疾病作鬥爭一直是人類進化以及所有物種進化的永恆主題。在免疫系統中,這種鬥爭最為明顯。當研究人員檢查人類基因組中正向選擇的證據時,最有可能的候選者通常與免疫有關。進化如此頻繁地修改這些基因並不奇怪:在沒有抗生素和疫苗的情況下,個體傳遞其基因的最可能障礙可能是危及生命的感染,這種感染髮生在育齡結束之前。進一步加速免疫系統進化的是病原體不斷適應我們的防禦,從而導致微生物和宿主之間的進化軍備競賽。

這些鬥爭的記錄遺留在我們的 DNA 中。對於逆轉錄病毒(如 HIV)來說尤其如此,這些病毒透過將其遺傳物質插入我們的基因組中來生存和繁殖。人類 DNA 中散落著這些短逆轉錄病毒基因組的副本,其中許多來自數百萬年前引起疾病的病毒,這些病毒可能不再迴圈。隨著時間的推移,逆轉錄病毒序列像任何其他序列一樣積累隨機突變,因此不同的副本相似但不完全相同。透過檢查這些副本之間的分歧程度,研究人員可以使用分子鐘技術來確定原始逆轉錄病毒感染的日期。這些古老感染的疤痕在宿主免疫系統基因中也很明顯,這些基因不斷適應以對抗不斷進化的逆轉錄病毒。

PtERV1 就是這樣一種遺蹟病毒。在現代人類中,一種名為 TRIM5α 的蛋白質可以阻止 PtERV1 和相關逆轉錄病毒的複製。遺傳證據表明,大約在 400 萬年前,PtERV1 流行病困擾著生活在非洲的古代黑猩猩、大猩猩和人類。為了弄清楚不同的靈長類動物如何應對 PtERV1,2007 年,西雅圖弗雷德·哈欽森癌症研究中心的研究人員使用黑猩猩基因組中許多隨機突變的 PtERV1 副本重建了原始 PtERV1 序列,並重新建立了這種古老的逆轉錄病毒。然後,他們進行了實驗,以觀察人類和類人猿版本的 TRIM5α 基因在多大程度上可以限制復活的 PtERV1 病毒的活性。他們的結果表明,人類 TRIM5α 中的一個單一變化最有可能使我們的祖先比我們的靈長類動物表親更有效地對抗 PtERV1 感染。(人類 TRIM5α 的其他變化可能是在響應相關逆轉錄病毒而進化的。)其他靈長類動物在 TRIM5α 中有自己的一組變化,可能反映了它們的祖先贏得的逆轉錄病毒戰鬥。

然而,戰勝一種型別的逆轉錄病毒並不一定能保證繼續成功對抗其他病毒。儘管人類 TRIM5α 的變化可能幫助我們倖存下來 PtERV1,但這些相同的轉變使我們更難對抗 HIV。這一發現正在幫助研究人員瞭解為什麼 HIV 感染會導致人類患上艾滋病,而不是非人類靈長類動物。顯然,進化可能會進一步退兩步。有時科學研究也會有同樣的感覺。我們已經確定了許多令人興奮的候選者,可以解釋獨特人類特徵的遺傳基礎。但在大多數情況下,我們只瞭解這些基因組序列功能的基礎知識。對於 HAR1 和 HAR2 等不編碼蛋白質的區域,我們知識的空白尤其大。

這些快速進化、獨特的人類序列確實指明瞭一條前進的道路。是什麼讓我們成為人類的故事可能不會關注我們蛋白質構建塊的變化,而是關注進化如何透過改變體內不同基因的開啟和關閉時間和地點,以新的方式組裝這些構建塊。目前在世界各地數千個實驗室中進行的實驗和計算研究有望闡明我們基因組中不編碼蛋白質的 98.5% 發生了什麼。它看起來越來越不像垃圾了。

© .