最早嘗試估計人類基因組中基因數量的方法之一,涉及到醉醺醺的遺傳學家、紐約州冷泉港的一家酒吧和純粹的猜測。
那是在2000年,當時人類基因組序列草圖仍在制定中;遺傳學家們正在進行一場關於人類擁有多少基因的彩票,賭注從數萬到數十萬不等。將近二十年後,武裝了真實資料的科學家們仍然無法就這個數字達成一致——他們說,這種知識上的差距阻礙了發現與疾病相關的突變的努力。
最新的嘗試填補這一空白的方法使用了來自數百個人體組織樣本的資料,並於5月29日釋出在BioRxiv預印本伺服器上。它包括了近5,000個以前未被發現的基因——其中近1,200個攜帶著製造蛋白質的指令。而超過21,000個蛋白質編碼基因的總數,比之前的估計有了大幅躍升,之前的估計數字約為20,000個。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。
但是,許多遺傳學家仍然不相信所有新提出的基因都能經得起仔細審查。他們的批評突顯了識別新基因,甚至定義基因是多麼困難。
“人們在這方面已經努力工作了20年,但我們仍然沒有答案,”馬里蘭州巴爾的摩市約翰斯·霍普金斯大學的計算生物學家史蒂文·薩爾茨堡說,他的團隊得出了最新的計數結果。
難以確定
2000年,隨著基因組學界對將發現多少人類基因的問題議論紛紛,伊萬·伯尼發起了基因掃雷競賽。伯尼,現在是英國欣克斯頓歐洲生物資訊學研究所 (EBI) 的聯合主任,在一次年度遺傳學會議期間,在一家酒吧接受了第一批賭注,該競賽最終吸引了1000多名參與者和一個3000美元的頭獎。 關於基因數量的賭注 從超過312,000個到略低於26,000個不等,平均約為40,000個。如今,估計範圍已經縮小——現在大多數在19,000到22,000之間——但仍然存在分歧(參見“基因數量”)。
基因計數可能會因分析的資料、使用的工具以及篩選掉假陽性的標準而異。最新的計數使用了比之前的工作更大的資料集和不同的計算方法,以及更廣泛的基因定義標準。
薩爾茨堡的團隊使用了來自基因型-組織表達 (GTEx) 專案的資料,該專案對來自30多種不同組織的RNA進行了測序 從數百具屍體中提取。RNA是DNA和蛋白質之間的中間體。研究人員希望識別編碼蛋白質的基因和不編碼蛋白質但在細胞中仍然發揮重要作用的基因。因此,他們組裝了GTEx的9000億個微小的RNA片段,並將它們與人類基因組對齊。
僅僅因為一段DNA被表達為RNA,並不一定意味著它是一個基因。因此,該團隊試圖使用各種標準來過濾掉噪音。例如,他們將結果與其他物種的基因組進行比較,理由是遠親生物共享的序列很可能因進化而被保留下來,因為它們具有有用的目的,因此很可能是基因。
該團隊最終獲得了21,306個蛋白質編碼基因和21,856個非編碼基因——遠遠多於兩個最廣泛使用的人類基因資料庫中包含的基因。由EBI維護的GENCODE基因集包括19,901個蛋白質編碼基因和15,779個非編碼基因。RefSeq是美國國家生物技術資訊中心 (NCBI) 執行的資料庫,列出了20,203個蛋白質編碼基因和17,871個非編碼基因。
位於馬里蘭州貝塞斯達的NCBI基因組研究員、前RefSeq負責人金·普魯伊特說,差異很可能部分是由於薩爾茨堡團隊分析的資料量。還有另一個主要區別。GENCODE和RefSeq都依賴於手動策展——由人工審查每個基因的證據並做出最終決定。薩爾茨堡的團隊僅依靠計算機程式來篩選資料。
“如果人們喜歡我們的基因列表,那麼也許幾年後我們就會成為人類基因的仲裁者,”薩爾茨堡說。
棘手的計數
但是許多科學家表示,他們需要更多證據才能確信該列表是準確的。亞當·弗蘭基什是EBI的計算生物學家,負責協調GENCODE的手動註釋,他說他和他的小組已經掃描了薩爾茨堡團隊識別出的大約100個蛋白質編碼基因。根據他們的評估,其中只有一個似乎是真正的蛋白質編碼基因。
普魯伊特的團隊查看了薩爾茨堡小組新發現的大約十幾個蛋白質編碼基因,但沒有發現任何一個符合RefSeq的標準。其中一些與基因組區域重疊,這些區域似乎屬於入侵我們祖先基因組的逆轉錄病毒;另一些則屬於其他重複序列,這些序列很少被翻譯成蛋白質。
但薩爾茨堡表示,一些重複序列可以被認為是基因。一個例子是 ERV3-1,它出現在RefSeq中,並編碼一種在結直腸癌中過度表達的蛋白質。薩爾茨堡還承認,他的團隊列表中的新基因需要他的團隊和其他人進行驗證。
進一步混淆計數工作的是基因的不精確和不斷變化的定義。生物學家過去認為基因是編碼蛋白質的序列,但後來人們清楚地認識到,一些非編碼RNA分子在細胞中也具有重要作用。判斷哪些是重要的——並且應該被視為基因——是有爭議的,並且可以解釋薩爾茨堡的計數與其他計數之間的一些差異。
儘管如此,瑞士日內瓦大學的遺傳學家埃曼努伊爾·德米特扎基斯說,至少薩爾茨堡小組鑑定出的一些基因很可能會被證明是有效的,他也是GTEx專案的聯合主席。考慮到GTEx資料集的龐大性,蛋白質編碼基因的團隊計數比之前的計數增加了5%,他並不感到驚訝。
擁有所有人類基因的準確計數對於揭示基因與疾病之間聯絡的努力非常重要。薩爾茨堡說,未計數的基因常常被忽略,即使它們包含致病突變。但是,弗蘭基什說,倉促地將基因新增到主列表中也可能帶來風險。事實證明不正確的基因可能會轉移遺傳學家對真正問題的注意力。
儘管如此,普魯伊特說,資料庫之間基因數量的不一致對於研究人員來說仍然存在問題。“人們想要一個答案,”她補充說,“但生物學是複雜的。”
本文經許可轉載,並於 首次發表 於2018年6月19日。
