編者按: 本文最初發表於1995年2月的《大眾科學》雜誌。我們本週重新發布這篇文章是因為羅伯特·蒂詹剛剛被任命為霍華德·休斯醫學研究所所長。
哮喘、癌症、心臟病、免疫系統疾病和病毒感染看似是截然不同的病症。然而,它們卻表現出一個令人驚訝的共同特徵。所有這些疾病在很大程度上都是由於一種或多種蛋白質的過度產生或產生不足引起的,蛋白質是體內執行大多數反應的分子。這一認識最近為旨在理解並最終操縱調節蛋白質合成關鍵步驟——基因轉錄——的迷人生物化學機制的研究帶來了新的緊迫性。為了生成蛋白質,必須將指定其組成的基因從DNA轉錄或複製到信使RNA鏈中,信使RNA隨後充當蛋白質製造的模板。
甚至在治療成為目標之前,轉錄長期以來就因另一個原因吸引著科學家:瞭解這一過程如何受到調控有望闡明生命的一些核心奧秘。人體中的每個細胞都包含相同的基因組,基因組是由大約15萬個基因組成的集合,這些基因構成了人類的藍圖。一個生物體的原始細胞——受精卵——是如何產生無數種細胞型別的,每種細胞型別都使用略有不同的基因子集來產生不同的蛋白質混合物?一個完全形成的身體的細胞又是如何維持自身的,增加和減少它們製造的蛋白質數量以響應自身的需求和更宏大的生物體的需求的呢?
支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。 透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
為了回答這些問題並設計能夠調節轉錄的藥物,研究人員需要了解控制人類細胞中遺傳密碼讀取的裝置的組成。經過大約25年的探索,該裝置的總體結構正變得清晰起來。我在加州大學伯克利分校的實驗室和其他機構的工作表明,該裝置的一部分——驅動大多數(如果不是全部)人類基因轉錄的引擎——由大約50種不同的蛋白質組成。這些蛋白質必須在DNA上組裝成一個緊密的複合物,然後一種特殊的酶——RNA聚合酶——才能開始將DNA複製成信使RNA。推測的組成部分現在已在試管中組合,產生了完全可操作的轉錄引擎。還有其他蛋白質基本上插入引擎上的受體插槽中,並透過這樣做來“程式設計”它,告訴它應該轉錄哪些基因以及轉錄速度有多快。這些相互作用的關鍵細節也在不斷湧現。
來自細菌的線索 當我和我在伯克利的同事在1970年代後期開始關注人類基因時,我們對細胞中的轉錄機制知之甚少。但是,在該年代初期開始的研究已經提供了原核生物——細菌和其他缺乏明確細胞核的原始單細胞生物——中轉錄的相當清晰的圖景。這項工作最終為了解人類和其他真核(有核)細胞提供了見解,並幫助定義了幾乎適用於所有生物體的轉錄特徵。細菌研究表明,基因基本上分為兩個功能不同的區域。編碼區指定了必須連線在一起以製造特定蛋白質的氨基酸序列。該序列由DNA雙螺旋的一條鏈中的核苷酸(DNA的構建塊)拼寫出來;核苷酸透過它們攜帶的富氮鹼基——腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鳥嘌呤(G)——相互區分。基因的另一個區域具有調控職責。它控制RNA聚合酶將基因的編碼區轉錄成信使RNA的速率。
在細菌以及大多數原核生物中,調控區(稱為啟動子)位於一段核苷酸內,該核苷酸位於編碼區起始位點前(上游)很短的距離處——通常只有10個核苷酸。為了使轉錄準確有效地進行,RNA聚合酶必須附著到啟動子上。一旦它被定位,它就會滑到編碼區的起始位點,並像軌道上的火車一樣沿著DNA行進,構建編碼序列的RNA副本。除非在非常長的基因中,否則任何時刻產生的RNA分子數量主要取決於RNA聚合酶分子附著到啟動子並啟動轉錄的速率。
有趣的是,RNA聚合酶是一個相當混雜的分子,無法區分啟動子和其他DNA序列。為了將酶引導至特定基因的啟動子,細菌產生各種蛋白質,稱為sigma因子,它們與RNA聚合酶結合。由此產生的複合物能夠識別並附著到啟動子中選定的核苷酸序列。透過這種方式,sigma因子對RNA聚合酶進行程式設計,使其繞過所有非啟動子序列,並且僅在指定的啟動子處停留。
考慮到sigma因子對細菌基因差異啟用的重要性,我和我的同事開始研究人類轉錄裝置,尋找人類細胞中類似sigma分子的物質。但是我們低估了已進化出來從我們精細的基因組中檢索遺傳資訊的機制的複雜性。很快就變得明顯的是,人類sigma因子可能不存在,或者可能不具有與細菌中相同的形式。
令人驚訝的複雜性 如果真核生物中沒有簡單的sigma因子,那麼這些細胞是如何確保RNA聚合酶在正確的時間以正確的速率轉錄正確的基因的呢?一旦真核基因的不尋常設計被描繪出來,我們就開始看到答案的曙光。
到1983年,研究人員已經確定,三種遺傳元件(由離散的核苷酸序列組成)控制著RNA聚合酶在所有真核生物(從單細胞酵母到複雜的多細胞生物)中啟動轉錄的能力。這些元件之一通常位於編碼區附近,已被發現其功能很像細菌啟動子。稱為核心啟動子,它是聚合酶開始沿編碼區旅程的位點。細胞中的許多基因都具有相似的核心啟動子。
蘇黎世大學的沃爾特·沙夫納和卡內基科學研究所的史蒂文·拉尼爾·麥克奈特等人還鑑定出一種不尋常的調控元件,稱為增強子,它可以促進轉錄。這些序列可以位於核心啟動子上游或下游數千個核苷酸處——也就是說,距離核心啟動子非常遠。隨後的研究揭示了沉默子的存在,沉默子有助於抑制轉錄,並且同樣可以位於遠離核心啟動子的位置。
在一個不太完美的類比中,如果核心啟動子是汽車發動機的點火開關,那麼增強子就像加速器,而沉默子就像剎車。真核基因可以包含多個增強子和沉默子,並且兩個基因可能包含一些相同的增強子或沉默子元件,但沒有兩個基因在其攜帶的增強子和沉默子的組合中完全相同。這種安排使細胞能夠單獨控制每個基因的轉錄。
這些元件的發現導致了兩個相關的——並且在當時非常令人驚訝的——結論。顯然,增強子和沉默子本身無法控制RNA聚合酶的活性。據推測,它們充當一大類蛋白質的停靠位點。與增強子和沉默子結合的蛋白質——現在稱為啟用蛋白和阻遏蛋白——然後將刺激性或抑制性資訊直接或間接地傳遞給RNA聚合酶(即,踩下加速器或剎車)。基因的轉錄速率也可能似乎是由與其各種調控元件結合的所有蛋白質(或轉錄因子)的組合活性決定的。
人類因子的發現 然而,我們很難解釋與基因核心啟動子相距甚遠的DNA序列結合的蛋白質如何影響該基因的轉錄。與其他實驗室一樣,我們開始透過嘗試分離人類轉錄因子來解決這個難題,當時尚未發現任何人類轉錄因子(RNA聚合酶本身除外)。我們假設,一旦我們獲得了因子的純複製,我們就能夠更深入地瞭解它們的確切功能。
由於許多與DNA結合的蛋白質在讀取基因中不起作用,因此我們無法透過僅根據核蛋白與DNA結合的能力來有效地找到轉錄因子。因此,我的小組採用了一種更具辨別力的策略,尋找在試管反應中既與DNA結合又刺激轉錄的蛋白質。
1982年,我實驗室的博士後研究員威廉·S·迪南確定,核蛋白混合物中的某些蛋白質符合轉錄因子的所有要求。它與一組選定基因共有的調控元件——稱為GC盒的增強子序列(因為其富含G和C核苷酸)——結合。更重要的是,當新增到包含RNA聚合酶的核蛋白製劑中時,該物質僅顯著增加了攜帶GC盒的基因的轉錄。因此,我們鑑定了第一個能夠識別特定調控序列的人類轉錄因子。我們稱之為特異性蛋白1(Sp1)。
我們立即著手純化該分子。這項工作的一個令人生畏的方面是,轉錄因子往往僅以微小的數量出現在細胞中。通常,人類細胞總蛋白含量的千分之一以下由任何特定因子組成。1985年,我實驗室的詹姆斯·T·卡多納加找到了一種方法來克服這一重大的技術障礙——並且在此過程中引入了一種強大的新工具,此後該工具已被用於純化無數的轉錄因子和其他稀有的DNA結合蛋白。
由於Sp1選擇性地識別GC盒,卡多納加合成了完全由該盒組成的DNA分子,並將它們化學錨定到固體珠子上。然後,他將複雜的人類核蛋白混合物透過DNA,預測只有Sp1會粘附在其上。正如計劃的那樣,當他將結合的蛋白質與合成DNA分離時,他得到了純Sp1。
從馬克·普塔什內和他在哈佛大學的同事進行的研究中,我們知道細菌轉錄調控因子是模組化蛋白質,其中不同的區域執行不同的任務。因此,一旦我們瞭解了Sp1中氨基酸的序列,我們就尋找不同模組的證據,並至少注意到兩個有趣的模組。
分子的一端包含一個顯然摺疊成三個“鋅指”的區域。鋅指結構(其中蛋白質的部分圍繞鋅原子摺疊)現在已知充當將許多啟用蛋白附著到DNA的“鉤子”。但在當時,Sp1只是第二個被發現使用它們的蛋白質。亞倫·克魯格和他在英國醫學研究委員會的同事在不久之前在一個青蛙轉錄因子中發現了鋅指[參見達妮埃拉·羅茲和亞倫·克魯格的《鋅指》;《大眾科學》,1993年2月]。
Sp1的另一端包含一個結構域,該結構域由兩個離散的片段組成,這些片段充滿了過量的氨基酸谷氨醯胺。我們強烈懷疑該區域在轉錄過程中起著重要作用,因為有一個驚人的發現。在試管實驗中,缺乏該結構域的突變Sp1分子可以完美地與DNA結合,但它們未能刺激基因轉錄。這一結果表明,Sp1並非僅透過與DNA結合來影響轉錄;它的作用是透過使用其富含谷氨醯胺的片段——現在稱為啟用結構域——與其他轉錄機制的一部分相互作用來實現的。問題是,哪一部分?
1988年,當我們開始尋找Sp1的靶點時,我們對它的位置有了一些想法。我們的猜測是基於對所謂的基底轉錄複合物的新興理解,其中一部分似乎是可能的靶點。
接近靶點
在1980年代中期,洛克菲勒大學的羅伯特·G·羅德爾和他的同事表明,除非其他幾個轉錄因子——現在稱為基底因子——也聚集在核心啟動子上,否則RNA聚合酶無法轉錄真核基因。在1980年代的過程中,羅德爾的實驗室和其他實驗室已經鑑定了至少六種必需因子,稱為A、B、D、E、F和H。
在試管中,這種因子元件使RNA聚合酶能夠以基底速率(低且不變的速率)轉錄結合的基因,但它本身無法調節該速率。這就像有人制造並啟動了汽車的發動機,但失去了方向盤、加速器和剎車的使用權。例如,當我的小組將複合物的組分(包括RNA聚合酶)與包含GC盒的基因混合時,我們獲得了低且不變的轉錄水平。只有當我們將Sp1納入混合物時,我們才看到轉錄的顯著增加。
到1980年代後期,很明顯,人類細胞至少包含兩種不同的轉錄因子。基底因子是所有基因轉錄起始所必需的;其他蛋白質——啟用蛋白和阻遏蛋白——決定了基底複合物啟動轉錄的速率。不同的基因受啟用蛋白和阻遏蛋白的不同組合控制。我們現在懷疑,在體內,基底複合物僅在極少數情況下自發產生;大多數時候,細胞依賴啟用蛋白來啟動其構建。
這些不同的發現表明,Sp1富含谷氨醯胺的結構域透過接觸基底因子來增強轉錄。更具體地說,我們懷疑Sp1與因子D結合,並促進其與啟動子的附著。我們專注於這個亞基,因為麻省理工學院的菲利普·A·夏普和斯蒂芬·布拉托夫斯基已經表明,它可以先於所有其他基底因子落在核心啟動子上,並且可以促進完整基底引擎的組裝。事實上,因子D是唯一能夠識別DNA的基底組分。它選擇性地與TATA盒序列結合,TATA盒存在於許多真核基因的核心啟動子中。
為了驗證我們的假設,我們需要更多地瞭解因子D的組成,我們假設因子D是一種單獨的蛋白質。其他研究人員也想知道它的組成,因此純複製的競賽開始了。從人類細胞中分離被證明比任何人預期的都更具挑戰性。因此,許多小組最終嘗試了酵母細胞。最後,在1989年,幾個實驗室獨立成功地分離出一種酵母蛋白質,該蛋白質表現出因子D的預期特性。該蛋白質被命名為TBP(TATA結合蛋白的縮寫),它識別並選擇性地與TATA盒結合,並且當它與RNA聚合酶和基底機制的其他成分在核心啟動子處連線時,導致低水平的轉錄。
我們認為TBP蛋白本身就是因子D,我們著手在其他研究中檢驗這一想法。一旦我們這樣做了,我們打算確定Sp1和其他調控因子與TBP的確切哪些區域接觸。我們幾乎不知道我們即將完全受挫——並做出關鍵發現。
意想不到的麻煩 當我的實驗室的B·富蘭克林·普夫用純化的TBP分子代替我們以前在試管反應中使用的不純因子D製劑時,他毫不費力地複製了早期的發現,即這種替代絕不會破壞基底轉錄。然而,令我們驚訝和沮喪的是,他發現Sp1不再能夠影響基底機制。我們不得不得出結論,因子D和TBP實際上並不等價,因子D實際上由TBP和其他亞基組成。(現在已知許多轉錄因子由不止一種蛋白質組成。)顯然,這些亞基對於基底機制的運作不是必需的,但它們對於啟用蛋白對該機制的調控至關重要。
換句話說,這些額外的組分本身不是啟用蛋白,因為它們不與DNA中的特定序列結合。它們也不是基底因子,因為在沒有它們的情況下也可以實現低水平、不受調控的轉錄。它們似乎構成了第三類轉錄因子,我們稱之為共啟用因子。我們進一步提出,共啟用因子而不是TBP是啟用蛋白的蛋白質結合結構域的靶點。我們設想啟用蛋白會與選定的共啟用因子結合,以加快基底複合物啟動RNA聚合酶分子運動的速率。
我們被這種設想所吸引,因為我們很難想象單個蛋白質TBP會有足夠的結合位點來容納人類細胞製造的所有啟用蛋白。但是,如果與TBP緊密相關的共啟用因子帶有多個結合結構域,則共啟用因子可以共同提供將來自數百或數千個啟用蛋白的資訊傳遞到轉錄引擎所需的停靠位點。
最初是普夫提出共啟用因子可能充當這種介面卡分子。他的資料很快讓我相信他的說法可能是正確的,但我們實驗室並非所有人都同意。事實上,我們在1990年初的每週會議經常被激烈的討論打斷。毫不奇怪,當共啟用因子概念被呈現給該領域的其他工作人員時,他們也表示相當懷疑。在那個階段,對一個意外且複雜化的結果做出這種反應可能是合理的,因為我們的資料只是暗示性的,而不是結論性的。我們尚未分離出單個共啟用因子。
共啟用因子:缺失的環節
為了讓自己和科學界確信我們的說法是正確的,我們必須設計一個實驗程式,該程式可以明確地確定共啟用因子是否存在並按照我們設想的方式運作。在普夫提出共啟用因子假設後的大約兩年時間裡,我們一直在努力純化包含TBP和因子D所有其他相關成分的完整且功能性的複合物。我必須承認,當共啟用因子假設似乎是基於我們研究中的某些錯誤時,我經歷了一些黑暗時刻。
突破最終發生在1991年,當時我們實驗室的研究生和博士後研究員布萊恩·D·迪納赫特、蒂莫西·霍伊、直子·谷瀬和羅伯特·溫齊爾找到了一個巧妙的方法來分離因子D的純複製。隨後的生物化學分析表明,除了TBP之外,完整單元還包括八種以前未知的蛋白質。由於我們尚未獲得這些蛋白質可以充當共啟用因子的證據,因此我們更籠統地將它們稱為TBP相關因子或TAF。
在我們將結合的蛋白質與TBP分離並完成更多實驗後,我們確信TAF確實將來自啟用蛋白的分子訊號傳遞到基底轉錄裝置。例如,我們能夠證明,只有在也新增TAF的情況下,將啟用蛋白Sp1與基底因子和RNA聚合酶混合才能增強來自包含GC盒的基因的信使RNA的產生。後來,研究生金龍·陳在試管中將純化的TBP和八種分離的TAF與人類基因和基底轉錄機制的其餘部分結合在一起。各種蛋白質組裝在基因上,並被證明能夠響應幾種不同型別的啟用蛋白。我們後來表明,這些啟用蛋白透過與選定的TAF直接耦合來產生其效應。因子D中的共啟用因子確實共同構成了一種中央處理單元,該單元整合了DNA結合啟用蛋白髮出的調控訊號。
普遍主題
由啟用蛋白、共啟用因子和基底機制形成的複合物似乎是人類sigma因子的等價物;它們也以特定的速率將RNA聚合酶拉到特定的基因。在某種程度上,可以將這些複合物視為已擴充套件為多個亞基的sigma因子。令人欣慰的是,我們小組和其他小組的最新證據表明,我們已經發現了真核生物中基因調控的普遍模式。這些研究證實,共啟用因子也存在於酵母中,並且因子D在真菌以及人類中也由多個亞基組成。
儘管這些結果令人滿意,但它們並不能完全解釋啟用蛋白與增強子和共啟用因子的結合如何影響RNA聚合酶在活細胞中轉錄基因的速率。可能是啟用蛋白與增強子的連線導致DNA彎曲,從而使增強子彼此之間以及與核心啟動子更接近。這種排列可能有助於啟用蛋白(單獨或彼此協同作用)與共啟用因子對接並將因子D定位在啟動子上。反過來,這一步驟將促進完整基底複合物的組裝。該複合物的形成可能會扭曲底層的DNA,從而使RNA聚合酶能夠開始沿著編碼區的旅程。
研究人員對阻遏蛋白的功能知之甚少。然而,我們中的許多人認為阻遏蛋白有時也可能與共啟用因子結合。這種結合可以透過阻止啟用蛋白附著到共啟用因子上的常用位點來抑制轉錄。有時,阻遏蛋白可能會繞過基底機制,透過阻止啟用蛋白與增強子連線來阻止轉錄。
儘管我們的知識存在差距,但我們現在可以開始勾勒出一個解釋,說明為什麼不同的細胞在胚胎髮育和成熟生物體中產生不同的蛋白質混合物。只有當基因需要的各種啟用蛋白都存在並且可以成功克服阻遏蛋白的抑制作用時,基因才會以可測量的速率轉錄。細胞產生的蛋白質各不相同,因為它們包含不同的啟用蛋白和阻遏蛋白組。當然,這種情況引發了一個問題,即細胞最初是如何決定產生哪些轉錄因子的,但在這方面也正在取得進展。
未來的療法 研究人員如何利用我們新獲得的基因調控知識來開發藥物,以對抗涉及基因過度或不足轉錄的危及生命的疾病?從理論上講,阻止選定的啟用蛋白附著到增強子或共啟用因子應該會抑制不需要的轉錄,而穩定基因上的轉錄機制應該會抵消不希望有的弱轉錄。
可以透過將分子“塞子”裝入啟用蛋白中來實現阻斷,從而阻止其與共啟用因子相互作用,或者透過引誘啟用蛋白附著到類似於共啟用因子的誘餌來實現阻斷。可以透過部署能夠加強啟用蛋白和DNA之間或啟用蛋白和共啟用因子之間相互作用的分子來實現複合物的穩定化。這些方法在今天看來還很遙遠,但考慮到最終可能實現的應用示例,令人興奮。
例如,以人類免疫缺陷病毒(HIV)為例,它會導致艾滋病。為了在人類細胞中複製自身,HIV需要病毒轉錄因子TAT來增強HIV基因的轉錄。如果TAT可以被某種識別TAT但忽略人類轉錄因子的試劑抑制,則病毒的複製可能會停止,而不會影響患者所需蛋白質的產生。
相反,某些疾病(例如高膽固醇血癥)的治療可能涉及增強選定基因的轉錄。高膽固醇血癥會增加一個人患心臟病的風險。當低密度脂蛋白(LDL)(也稱為壞膽固醇)未被有效去除時,膽固醇會在血液中累積到破壞性水平。從理論上講,可以透過提高肝細胞中LDL受體基因的轉錄來糾正該疾病。該受體有助於清除血液中的LDL。這個想法可能很快就可以進行測試,因為德克薩斯大學健康科學中心達拉斯分校的邁克爾·S·布朗和約瑟夫·L·戈爾茨坦的研究正在梳理調節受體基因轉錄的裝置的特定分子成分。
直到最近,還沒有人投入大量精力來篩選小分子、天然產物或其他化合物以瞭解它們調節轉錄的能力。即便如此,市場上已經有許多藥物被偶然發現透過改變轉錄因子的活性而起作用。其中一種RU 486(法國“墮胎”藥)抑制特定類固醇受體(一類指導胚胎髮育的啟用蛋白)的功能。同樣,免疫抑制劑環孢素和FK506抑制免疫系統某些細胞所需的基因(其蛋白質產物)的轉錄。然而,這些藥物是間接起作用的。它們啟用一種酶,該酶會阻礙基因的轉錄因子的功能。
隨著時間的推移,調節各個基因的轉錄因子的精確組合肯定會被鑑定出來。藥物開發人員可能會利用這些資訊來設計複雜的化合物,以對抗癌症、心臟病、免疫系統疾病、病毒感染、阿爾茨海默病,甚至可能是衰老過程。這些試劑的成功程度如何,任何人都不敢妄下斷言,但未來的療法很可能會以某種方式受益於對轉錄的基礎研究——這項研究的開始並非出於設計藥物的願望,而是出於對深入瞭解控制我們基因活動的分子機制的簡單渴望。