節選自《糟糕的製藥:製藥公司如何誤導醫生和傷害患者》,作者:Ben Goldacre。由Faber and Faber, Inc.出版。© 2013 Ben Goldacre。經出版商許可摘錄。版權所有。
在我們開始之前,我們需要毫無疑問地確定一件事:與獨立資助的試驗相比,工業界資助的試驗更可能產生積極、討人喜歡的結果。這是我們的核心前提,您即將閱讀一個非常短的章節,因為這是在不斷發展的“關於研究的研究”領域中最有據可查的現象之一。近年來,由於關於申報行業資助的規則變得更加清晰,這項研究也變得容易得多。
我們可以從一些最近的研究開始:2010年,來自哈佛大學和多倫多大學的三位研究人員找到了所有關於五大類藥物(抗抑鬱藥、潰瘍藥等等)的試驗,然後測量了兩個關鍵特徵:它們是陽性的嗎?它們是由工業界資助的嗎?他們總共發現了五百多項試驗:85%的工業界資助的研究是陽性的,但只有50%的政府資助的試驗是陽性的。這是一個非常顯著的差異。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。
2007年,研究人員查看了每一項旨在探索他汀類藥物益處的已發表試驗。這些是降低膽固醇的藥物,可以降低您患心臟病的風險,它們被大量處方,並且將在本書中佔有重要地位。這項研究總共發現了192項試驗,要麼是將一種他汀類藥物與另一種他汀類藥物進行比較,要麼是將他汀類藥物與另一種治療方法進行比較。一旦研究人員控制了其他因素(我們稍後將深入探討這意味著什麼),他們發現,工業界資助的試驗給出有利於受試藥物的結果的可能性高出二十倍。同樣,這是一個非常大的差異。
我們再做一個。2006年,研究人員調查了四種學術期刊在十年期間發表的每一項精神科藥物試驗,總共發現了542個試驗結果。工業界贊助商在78%的時間裡獲得了對其自身藥物有利的結果,而獨立資助的試驗只有48%的時間給出了積極的結果。如果您是一種在試驗中與贊助商的藥物競爭的藥物,那麼您的處境將非常艱難:您只有可憐的28%的時間會獲勝。
這些是令人沮喪、令人恐懼的結果,但它們來自個別研究。當一個領域進行了大量研究時,總是可能有人——例如我——會選擇性地挑選結果,並給出片面的觀點。本質上,我可能正在做我指責製藥行業正在做的事情,只告訴您支援我的案例的研究,同時對您隱瞞那些令人放心的研究。
為了防範這種風險,研究人員發明了系統評價。我們將很快更詳細地探討這一點,因為它處於現代醫學的核心,但本質上系統評價很簡單:您不是僅僅在研究文獻中閒逛,有意識或無意識地挑選出支援您預先存在的信念的論文,而是對尋找科學證據的過程採取科學、系統的方法,確保您的證據儘可能完整且具有代表性,代表所有已完成的研究。
系統評價非常非常繁瑣。巧合的是,2003年發表了兩篇系統評價,都專門研究了我們感興趣的問題。他們收集了所有已發表的研究,這些研究調查了行業資助是否與親行業的成果相關。每篇系統評價都採用了略有不同的方法來查詢研究論文,並且都發現,總體而言,行業資助的試驗報告陽性結果的可能性大約是四倍。2007年的一項進一步綜述查看了在這兩篇早期綜述之後的四年中發表的新研究:它發現了另外二十篇著作,其中除兩篇外,所有著作都表明行業贊助的試驗更可能報告令人滿意的結果。
我詳細列出這些證據是因為我想非常清楚地表明,這個問題是毫無疑問的。行業贊助的試驗會給出有利的結果,這不是我的意見,也不是偶爾路過的研究的直覺。這是一個有據可查的問題,並且已經進行了廣泛的研究,但沒有人站出來採取有效行動,正如我們將看到的。
我想告訴您最後一項研究。事實證明,即使您不再關注已發表的學術論文,而是檢視學術會議的試驗報告(資料通常首次出現在那裡),行業資助的試驗更可能給出陽性結果的這種模式仍然存在(事實上,正如我們將看到的,有時試驗結果僅出現在學術會議上,關於研究如何進行的的資訊非常少)。
Fries和Krishnan研究了2001年美國風溼病學會會議上提交的所有研究摘要,這些摘要報告了任何型別的試驗,並承認了行業贊助,目的是找出有多少比例的結果對贊助商的藥物有利。接下來有一個小小的妙語,為了理解它,我們需要了解一下學術論文的樣子。一般來說,結果部分內容廣泛:給出了每個結果和每個可能的因果因素的原始數字,但不僅僅是原始數字。給出了“範圍”,可能探索了亞組,進行了統計檢驗,並且結果的每個細節都以表格形式描述,並在文字中以較短的敘述形式描述,解釋了最重要的結果。這個漫長的過程通常分佈在幾頁紙上。
在Fries和Krishnan [2004] 年的研究中,這種程度的細節是不必要的。結果部分是一個簡單、簡潔,而且——我喜歡想象——相當被動攻擊性的句子
每一項RCT(45項中的45項)的結果都對贊助商的藥物有利。
對於那些對節省時間的捷徑感興趣的人來說,這個極端發現有一個非常有趣的副作用。由於每一項行業贊助的試驗都取得了積極的結果,這就是您需要了解的關於一項工作的所有資訊,以預測其結果:如果它是由行業資助的,您可以絕對肯定地知道該試驗發現該藥物非常棒。
這是怎麼發生的?行業贊助的試驗如何幾乎總是設法獲得積極的結果?據任何人可以確定的,這是多種因素的結合。有時試驗在設計上存在缺陷。您可以將您的新藥與您知道是垃圾的東西進行比較——也許是劑量不足的現有藥物,或者幾乎沒有任何作用的安慰劑糖丸。您可以非常仔細地選擇您的患者,以便他們更可能在您的治療下好轉。您可以中途檢視結果,如果結果看起來不錯,您可以提前停止您的試驗(由於我們將討論的有趣原因,這在統計學上是毒藥)。等等。
但是在我們討論這些引人入勝的方法論上的曲折和怪癖,這些阻止試驗成為對治療是否有效進行公平測試的推動和障礙之前,還有一些更簡單的事情擺在眼前。
有時製藥公司會進行大量試驗,當他們看到結果不盡如人意時,他們 simplemente 不釋出這些結果。這不是一個新問題,它不僅限於醫學。事實上,負面結果丟失的問題幾乎滲透到科學的每個角落。它扭曲了腦成像和經濟學等不同領域的發現,它嘲弄了我們為排除研究中的偏見所做的一切努力,儘管監管機構、製藥公司甚至一些學者會告訴您什麼,但這是一個幾十年都未解決的問題。
事實上,這個問題根深蒂固,即使我們今天解決了它——現在,永遠徹底地解決,在我們的立法中沒有任何缺陷或漏洞——那仍然無濟於事,因為我們仍然會繼續行醫,愉快地根據幾十年來的醫學證據(正如您現在所看到的,這些證據從根本上被扭曲了)來決定哪種治療方法是最好的。
但前方還有路。
為什麼缺失資料很重要
瑞波西汀是我自己開過的一種藥。其他藥物對這位特定的患者沒有任何作用,所以我們想嘗試一些新的東西。在開處方之前,我閱讀了試驗資料,發現只有設計良好、公平的測試,結果非常積極。在頭對頭比較中,瑞波西汀優於安慰劑,並且與任何其他抗抑鬱藥一樣好。它已獲得英國藥品和保健品監管局 (MHRA) 的批准使用,但明智的是,美國選擇不批准它。(這並不能證明 FDA 比 MHRA 更聰明;美國有很多英國從未批准的藥物。)瑞波西汀顯然是一種安全有效的治療方法。我和患者簡要討論了證據,並同意這是接下來嘗試的正確治療方法。我簽署了一份處方,表示我希望我的患者服用這種藥物。
但我們都被誤導了。2010年10月,一組研究人員終於能夠彙集所有關於瑞波西汀的試驗。透過漫長的調查過程——在學術期刊中搜索,但也費力地向製造商索取資料並從監管機構收集檔案——他們能夠彙集所有資料,包括來自已發表的試驗和從未在學術論文中出現的試驗的資料。
當所有這些試驗資料放在一起時,它產生了一個令人震驚的畫面。已經進行了七項比較瑞波西汀與安慰劑的試驗。只有一項在254名患者中進行的試驗取得了整潔、積極的結果,並且該試驗發表在學術期刊上,供醫生和研究人員閱讀。但是又進行了六項試驗,患者人數幾乎是其十倍。所有這些試驗都表明,瑞波西汀不比安慰劑糖丸好。這些試驗都沒有發表。我不知道它們的存在。
情況變得更糟。比較瑞波西汀與其他藥物的試驗顯示了完全相同的畫面:三項小型研究,總共507名患者,表明瑞波西汀與任何其他藥物一樣好。這些研究都發表了。但是1,657名患者的資料被遺漏未發表,而這些未發表的資料表明,服用瑞波西汀的患者比服用其他藥物的患者情況更糟。如果所有這些還不夠糟糕,還有副作用資料。該藥物在學術文獻中出現的試驗中看起來不錯:但是當我們看到未發表的研究時,結果表明,如果患者服用瑞波西汀而不是其競爭對手之一,他們更有可能出現副作用,更有可能停止服用該藥物,並且更有可能因副作用而退出試驗。
如果您對本書中的故事是否讓我生氣有任何疑問——我向您保證,無論發生什麼,我都會堅持資料,並努力公正地描述我們所知道的一切——您只需要看看這個故事。我做了醫生應該做的一切。我閱讀了所有論文,我批判性地評估了它們,我理解了它們,我與患者討論了它們,並且我們一起根據證據做出了決定。在已發表的資料中,瑞波西汀是一種安全有效的藥物。實際上,它不比糖丸好,更糟糕的是,它弊大於利。作為一名醫生,我做了一些事情,根據所有證據的平衡,傷害了我的患者,僅僅是因為不盡如人意的資料沒有發表。
如果您覺得這令人驚訝或令人憤慨,那麼您的旅程才剛剛開始。因為在這種情況下沒有人違反任何法律,瑞波西汀仍然在市場上,並且允許這一切發生的系統仍然在發揮作用,適用於世界上所有國家的所有藥物。負面資料丟失,適用於所有治療方法,適用於科學的所有領域。我們理所當然地期望消除這種做法的監管機構和專業機構讓我們失望了。
在接下來的幾頁中,我們將回顧證明所有這一切的文獻,毫無疑問地表明“發表偏倚”——負面結果未發表的過程——在整個醫學界和學術界都很普遍;儘管有數十年的資料表明問題的嚴重性,但監管機構未能對此採取任何措施。但是在我們開始研究之前,我需要您感受到其影響,因此我們需要思考為什麼缺失資料很重要。
證據是我們唯一可能知道某種東西在醫學中是否有效——或無效——的方法。我們透過儘可能謹慎地在頭對頭試驗中測試事物,並將所有證據收集在一起。最後一步至關重要:如果我向您隱瞞一半的資料,我就很容易讓您相信一些不真實的事情。例如,如果我拋一百次硬幣,但只告訴您正面朝上的結果,我可以讓您相信這是一枚雙頭硬幣。但這並不意味著我真的有一枚雙頭硬幣:這意味著我在誤導您,而您是個傻瓜,讓我就這樣矇混過關。這正是我們在醫學中容忍的情況,並且一直如此。研究人員可以隨意進行任意數量的試驗,然後選擇釋出哪些試驗。
這造成的後果遠遠超出了僅僅誤導醫生了解干預措施對患者的益處和危害,也遠遠超出了試驗本身。醫學研究不是抽象的學術追求:它關乎人,因此每次我們未能發表一項研究時,我們都會使真實的、活著的人們遭受不必要的、可以避免的痛苦。
TGN1412
2006年3月,六名志願者抵達倫敦一家醫院參加一項試驗。這是名為 TGN1412 的新藥首次用於人體,他們每人獲得了 2,000 英鎊的報酬。在一小時內,這六名男子出現了頭痛、肌肉痠痛和不安的感覺。然後情況變得更糟:高燒、躁動不安、間歇性地忘記自己是誰以及身在何處。很快他們就開始發抖、臉紅、脈搏加快、血壓下降。然後,情況急轉直下:一人出現呼吸衰竭,隨著肺部充滿液體,他血液中的氧氣水平迅速下降。沒有人知道為什麼。另一人的血壓降至僅 65/40,停止正常呼吸,並被緊急送往重症監護室,被打昏、插管、機械通氣。一天之內,這六人病情都非常嚴重:肺部積液、呼吸困難、腎臟衰竭、血液在全身不受控制地凝結,白細胞消失。醫生對他們使用了所有可能的治療方法:類固醇、抗組胺藥、免疫系統受體阻滯劑。所有六人都接受了重症監護室的通氣治療。他們停止產生尿液;他們都被送去透析;他們的血液被替換,先緩慢地,然後迅速地;他們需要血漿、紅細胞、血小板。發燒持續不斷。一人患上了肺炎。然後血液停止流向他們的末梢。他們的手指和腳趾變得潮紅,然後變成棕色,然後變成黑色,然後開始腐爛和死亡。經過英勇的努力,所有人都得以倖免於難,至少保住了性命。
衛生部召集了一個專家科學小組,試圖瞭解發生了什麼事,並由此提出了兩個擔憂。首先:我們能否阻止此類事件再次發生?例如,如果一種新的實驗性療法的劑量完全未知,那麼同時將這種療法給予“首次人體”試驗的所有六名參與者顯然是愚蠢的。新藥應該以交錯的方式,在一天內緩慢地給予參與者。這個想法引起了監管機構和媒體的廣泛關注。
較少被注意到的是第二個擔憂:我們是否可以預見到這場災難?TGN1412 是一種分子,它附著在免疫系統白細胞上稱為 CD28 的受體上。這是一種新的實驗性治療方法,它以人們知之甚少的方式干擾免疫系統,並且很難在動物身上建模(與血壓不同,因為不同物種之間的免疫系統差異很大)。但正如最終報告所發現的那樣,有一種類似的干預措施的經驗:它只是沒有發表。一位研究人員向調查組提交了一項未發表的資料,該資料是關於他早在十年前對一名人類受試者進行的一項研究,該研究使用了附著在 CD3、CD2 和 CD28 受體上的抗體。這種抗體的作用與 TGN1412 的作用有相似之處,接受測試的受試者變得不適。但是沒有人可能知道這一點,因為這些結果從未與科學界分享。當這些結果本可以幫助六名男子免受可怕的、破壞性的、可以避免的折磨時,它們卻未發表、不為人知。
最初的研究人員無法預見他造成的具體危害,而且很難責怪他個人,因為他所處的學術文化將未發表資料視為完全正常的事情。同樣的文化今天仍然存在。關於 TGN1412 的最終報告得出結論,共享所有首次人體研究的結果至關重要:應該按慣例發表每一項研究。但 1 期試驗結果當時沒有發表,現在仍然沒有發表。2009 年,首次發表了一項專門研究有多少首次人體試驗被髮表,以及有多少試驗仍然被隱藏的研究。他們收集了一年多來一個倫理委員會批准的所有此類試驗。四年後,十分之九的試驗仍然未發表;八年後,五分之四的試驗仍然未發表。
在醫學中,正如我們將一次又一次看到的那樣,研究不是抽象的:它直接關係到生命、死亡、痛苦和疼痛。隨著每一項未發表的研究,我們都可能不必要地暴露於另一次 TGN1412 事件中。即使是一個巨大的國際新聞故事,其中有年輕人在病床上揮舞著發黑的腳和手的可怕影像,也不足以推動行動,因為缺失資料的問題太複雜,無法用一句話概括。
當我們不分享基礎研究的結果時,例如一項小型的首次人體研究,我們會在未來使人們面臨不必要的風險。這是一個極端案例嗎?問題是否僅限於早期、實驗性的新藥,在小規模的試驗參與者群體中?
在 20 世紀 80 年代,美國醫生開始給所有心臟病發作的患者服用抗心律失常藥物。這種做法在理論上是完全合理的:我們知道抗心律失常藥物有助於預防異常心律;我們也知道心臟病發作的人很可能出現異常心律;我們也知道這些異常心律通常未被注意到、未被診斷和未被治療。給所有心臟病發作的人服用抗心律失常藥物是一種簡單、明智的預防措施。
不幸的是,事實證明我們錯了。這種出於好意、基於最佳原則的處方實踐實際上害死了人。而且由於心臟病發作非常常見,它導致大量人死亡:在人們意識到對於沒有確診異常心律的患者來說,益處和風險之間的微妙平衡完全不同之前,超過 10 萬人不必要地死亡。
有人能預測到這一點嗎?可悲的是,是的,他們本可以預測到。1980 年的一項試驗在一小群心臟病發作的男性(不到一百人)中測試了一種新的抗心律失常藥物氯卡尼,以檢視它是否有效。服用氯卡尼的 48 名男性中有 9 人死亡,而服用安慰劑的 47 人中只有 1 人死亡。該藥物處於早期開發階段,在這項研究後不久,由於商業原因被放棄。由於它沒有上市,沒有人想到發表這項試驗。研究人員認為這是他們分子的特質,並沒有進一步考慮。如果他們發表了,我們本可以更加謹慎地嘗試對心臟病發作的人使用其他抗心律失常藥物,並且本可以更快地阻止驚人的死亡人數——超過 10 萬人過早入土為安。十多年後,研究人員最終發表了他們的結果,並進行了自我批評,承認他們因未早些分享結果而造成的傷害
當我們在 1980 年進行研究時,我們認為氯卡尼組死亡率的增加是偶然效應。氯卡尼的開發由於商業原因被放棄,因此這項研究從未發表;現在它是“發表偏倚”的一個很好的例子。這裡描述的結果可能已經提供了對未來麻煩的早期警告。10
正如我們稍後將看到的那樣,未發表資料的問題在整個醫學界,甚至整個學術界都很普遍,儘管問題的嚴重程度及其造成的危害已被毫無疑問地記錄在案。我們將看到關於基礎癌症研究、達菲、降膽固醇重磅炸彈藥物、肥胖症藥物、抗抑鬱藥等的案例,證據從醫學的黎明到今天,並且資料仍在被隱瞞,就在我寫作的此時此刻,關於許多閱讀本書的您今天早上已經服用過的廣泛使用的藥物。我們還將看到監管機構和學術機構如何屢次未能解決這個問題。
由於研究人員可以隨意掩埋任何他們喜歡的結果,因此患者在整個醫學領域,從研究到實踐,都面臨著驚人的危害。醫生可能不知道他們給予的治療的真正效果。這種藥物真的效果最好嗎,還是我只是被剝奪了一半的資料?沒有人能說得清。這種昂貴的藥物值得花錢嗎,還是資料只是被篡改了?沒有人能說得清。這種藥物會殺死患者嗎?有什麼證據表明它很危險嗎?沒有人能說得清。
這是一種在醫學領域出現的奇怪情況,醫學是一門一切都應該以證據為基礎的學科,日常實踐都與醫療法律焦慮息息相關。在人類行為監管最嚴格的領域之一,我們卻忽視了要點,並允許驅動實踐的證據受到汙染和扭曲。這似乎難以想象。我們現在將看到這個問題有多麼嚴重。
為什麼我們要總結資料
醫學界已經對缺失資料進行了廣泛研究。但在我闡述這些證據之前,我們需要從科學的角度準確理解為什麼它很重要。為此,我們需要理解系統評價和“薈萃分析”。兩者都是現代醫學中最強大的思想之一。它們非常簡單,但它們的發明卻出奇地晚。
當我們想知道某種東西是否有效時,我們會進行試驗。這是一個非常簡單的過程,最早有記錄的某種試驗嘗試是在《聖經》中(但以理書 1:12,如果您有興趣)。首先,您需要一個未解答的問題:例如,“給分娩早產兒的婦女服用類固醇是否會增加嬰兒的存活機會?”然後您找到一些相關的參與者,在本例中是即將分娩早產兒的母親。您將需要相當數量的參與者,例如本次試驗需要 200 名。然後您將她們隨機分為兩組,給一組母親當前最佳治療方法(無論您所在城鎮的最佳治療方法是什麼),而另一組母親則接受當前最佳治療方法加上一些類固醇。最後,當所有 200 名婦女都完成了您的試驗後,您統計每組中有多少嬰兒存活。
這是一個現實世界的問題,並且從 1972 年開始,就這個問題進行了許多試驗:兩項試驗表明類固醇可以挽救生命,但五項試驗表明沒有顯著益處。現在,您經常會聽到,當證據混雜時,醫生會有不同意見,而這正是這種情況。一位強烈預先相信類固醇有效的醫生——可能專注於某種理論分子機制,透過該機制,該藥物可能在體內發揮一些有用的作用——可能會走過來說:“看看這兩項陽性試驗!我們當然必須使用類固醇!”一位強烈預先直覺認為類固醇是垃圾的醫生可能會指著五項陰性試驗說:“總的來說,證據表明沒有益處。為什麼要冒險?”
直到最近,這基本上就是醫學進步的方式。人們會撰寫冗長、乏味的綜述文章——調查文獻的論文——在其中他們會以完全不繫統的方式引用他們遇到的試驗資料,通常反映他們自己的偏見和價值觀。然後,在 20 世紀 80 年代,人們開始做一些叫做“系統評價”的事情。這是一種清晰、系統地調查文獻的方法,其目的是獲取您可以找到的關於一個主題的所有試驗資料,而不會對任何特定的發現集產生偏見。在系統評價中,您會準確描述您如何查詢資料:您搜尋了哪些資料庫,您使用了哪些搜尋引擎和索引,甚至您搜尋了哪些詞。您預先指定可以納入您的評價的研究型別,然後您會展示您找到的所有內容,包括您拒絕的論文,並解釋原因。透過這樣做,您可以確保您的方法完全透明、可複製且可以接受批評,從而為讀者提供清晰完整的證據圖景。這聽起來可能是一個簡單的想法,但系統評價在臨床醫學之外非常罕見,並且悄然成為過去四十年中最重要和最具顛覆性的思想之一。
當您將所有試驗資料放在一個地方時,您可以進行一項名為薈萃分析的操作,其中您將所有結果彙總到一個巨大的電子表格中,彙集所有資料並獲得一個單一的摘要數字,這是關於一個臨床問題的所有資料的最準確摘要。這的輸出稱為“森林圖”,您可以在下一頁的 Cochrane 協作組織(一個全球性的非營利性學術組織,自 20 世紀 80 年代以來一直在製作關於醫學重要問題的黃金標準證據評價)的徽標中看到一個森林圖。
這張森林圖顯示了所有關於使用類固醇幫助早產兒存活的試驗結果。每條水平線代表一項試驗:如果該線更靠左,則該試驗表明類固醇是有益的並且可以挽救生命。中心的垂直線是“無效線”:如果試驗的水平線接觸到無效線,則該試驗表明沒有統計學意義的益處。有些試驗用較長的水平線表示:這些是規模較小的試驗,參與者較少,這意味著它們更容易出錯,因此對益處的估計具有更大的不確定性,因此水平線更長。最後,底部的菱形表示“摘要效應”:這是干預措施的總體益處,彙集了所有單個試驗的結果。這些比單個試驗的線條窄得多,因為估計值更準確:它總結了藥物在更多患者中的作用。在這張森林圖上,您可以看到——因為菱形遠離無效線——給予類固醇非常有益。事實上,它將早產兒死亡的機會減少了近一半。
關於這張森林圖的驚人之處在於它必須被髮明出來,而這發生在醫學史上非常晚的時候。多年來,我們掌握了所有我們需要知道的類固醇可以挽救生命的資訊,但沒有人知道它們是有效的,因為直到 1989 年才有人進行系統評價。結果,這種治療方法沒有得到廣泛應用,並且大量嬰兒不必要地死亡;不是因為我們沒有資訊,而僅僅是因為我們沒有正確地綜合這些資訊。
如果您認為這是一個孤立的案例,那麼值得仔細研究一下醫學在最近的恐怖時期之前是多麼的支離破碎。下一頁的圖表包含兩張森林圖,或“森林圖”,顯示了所有已進行的試驗,以檢視給予鏈激酶(一種溶栓藥物)是否能提高心臟病發作患者的生存率。
首先只看左側的森林圖。這是一個來自學術期刊的傳統森林圖,因此它比 Cochrane 徽標中的程式化森林圖要繁忙一些。但是,原理完全相同。每條水平線代表一項試驗,您可以看到結果混雜,有些試驗顯示有益處(它們不接觸標題為“1”的無效垂直線),而有些試驗顯示沒有益處(它們確實穿過該線)。然而,在底部,您可以看到摘要效應——這個老式森林圖上的一個點,而不是一個菱形。您可以非常清楚地看到,總的來說,鏈激酶可以挽救生命。
那麼右邊的是什麼?它被稱為累積薈萃分析。如果您檢視圖表左側的研究列表,您可以看到它們是按日期順序排列的。右側的累積薈萃分析將每個新試驗的結果(隨著它們在歷史上的到來)新增到先前試驗的結果中。這提供了每年對當時證據外觀的最佳執行估計,如果有人費心對他們可用的所有資料進行薈萃分析的話。從這張累積森林圖中,您可以看到水平線,“摘要效應”隨著收集到越來越多的資料而隨著時間推移而變窄,並且對這種治療的總體益處的估計變得更加準確。您還可以看到,這些水平線在很久以前就停止接觸無效的垂直線——而且至關重要的是,它們在很久以前就停止接觸,遠在我們開始給所有患有
心臟病發作的人服用鏈激酶之前。
如果您還沒有自己發現——公平地說,整個醫學界都反應遲鈍——這張圖表具有毀滅性的含義。心臟病發作是一種非常常見的死亡原因。我們有一種有效的治療方法,並且我們掌握了所有我們需要知道它有效的資訊,但我們再次沒有系統地將所有資訊整合在一起以獲得正確的答案。森林圖底部那些試驗中有一半的人被隨機分配到不接受鏈激酶,我認為這是不道德的,因為我們掌握了所有我們需要知道鏈激酶有效的資訊:他們被剝奪了有效的治療。但他們並不孤單,因為當時世界上大多數其他人也是如此。
我希望這些故事說明了為什麼系統評價和薈萃分析如此重要:我們需要彙集關於一個問題的所有證據,而不僅僅是選擇性地挑選我們偶然發現或憑直覺喜歡的部分。值得慶幸的是,在過去的幾十年裡,醫學界已經認識到這一點,現在系統評價和薈萃分析幾乎被普遍使用,以確保我們對特定醫學問題的所有已完成試驗進行最準確的總結。
但這些故事也說明了為什麼缺失的試驗結果如此危險。如果一位研究人員或醫生在總結現有證據時“選擇性採摘”,只關注那些支援他們預想的試驗,那麼他們可能會對研究產生誤導性的描述。這對於那個個體(以及任何不幸或不明智地受其影響的人)來說是一個問題。但是,如果我們所有人都錯過了陰性試驗,包括全世界的整個醫學和學術界,那麼當我們彙集證據以儘可能最好地瞭解哪些方法有效時——這是我們必須做的——我們都會被完全誤導。我們會對治療的有效性產生誤導性的印象:我們不正確地誇大了它的益處;或者甚至可能錯誤地發現干預措施是有益的,而實際上它造成了傷害。
既然您瞭解了系統綜述的重要性,您就可以明白為什麼缺失資料很重要。但您也可以理解,當我解釋有多少試驗資料缺失時,我正在給您一個清晰的文獻概述,因為我將使用系統綜述來解釋這些證據。
究竟有多少資料缺失了呢?
如果您想證明試驗結果被隱瞞未發表,您會遇到一個有趣的問題:您需要證明您無法訪問的研究的存在。為了解決這個問題,人們開發了一種簡單的方法:您確定一組您知道已經進行並完成的試驗,然後檢查它們是否已發表。找到已完成試驗的列表是這項工作中棘手的部分,為了實現這一目標,人們使用了各種策略:例如,梳理倫理委員會(或美國的“機構審查委員會”)批准的試驗列表;或追查研究人員在會議上討論的試驗。
2008 年,一組研究人員決定檢查美國食品和藥物管理局報告過的所有抗抑鬱藥試驗的發表情況,這些抗抑鬱藥是在 1987 年至 2004 年間上市的。這是一項不小的任務。FDA 檔案包含大量關於提交給監管機構以獲得新藥許可的所有試驗的資訊。但這並不是全部試驗,因為藥物上市後進行的試驗不會出現在那裡;而且 FDA 提供的資訊難以搜尋,而且通常很簡略。但它是試驗的一個重要子集,並且足以讓我們開始探索試驗丟失的頻率以及原因。它也是所有主要製藥公司試驗的代表性切片。
研究人員總共發現了 74 項研究,代表了 12,500 名患者的資料。其中 38 項試驗結果為陽性,發現新藥有效;36 項為陰性。因此,實際上,這些藥物的成功與失敗結果各佔一半。然後,研究人員開始在已發表的學術文獻中尋找這些試驗,這些文獻是醫生和患者可以獲得的資料。這提供了一個非常不同的畫面。37 項陽性試驗——除了一項之外——都完整發表了,通常還伴隨著大張旗鼓的宣傳。但陰性結果的試驗卻命運迥異:只有 3 項發表了。22 項完全消失在歷史長河中,除了在那些佈滿灰塵、雜亂無章、薄薄的 FDA 檔案中之外,從未在任何地方出現過。其餘 11 項在 FDA 摘要中顯示為陰性結果的試驗確實出現在學術文獻中,但卻被寫成藥物是成功的。如果您覺得這聽起來很荒謬,我同意:我們將在關於“不良試驗”的第 4 章中看到,如何對研究結果進行修改和潤色,以歪曲和誇大其發現。
這是一項傑出的工作,涵蓋了所有主要製造商的 12 種藥物,沒有明顯的壞人。它非常清楚地揭示了一個破碎的系統:實際上我們有 38 項陽性試驗和 37 項陰性試驗;在學術文獻中,我們有 48 項陽性試驗和 3 項陰性試驗。花點時間在您的腦海中來回切換這些數字:“38 項陽性試驗,37 項陰性”;或“48 項陽性試驗,只有 3 項陰性”。
如果我們談論的是一項單一的研究,來自一個單一的研究小組,他們決定刪除一半的結果,因為這些結果沒有給出他們想要的總體情況,那麼我們會非常正確地將這種行為稱為“研究不端行為”。然而,不知何故,當完全相同的現象發生時,但整個研究都消失了,由世界各地公共和私營部門的成千上萬個人之手造成,我們卻將其視為生活中的正常現象。它在監管機構和專業機構的注視下悄然發生,他們無所作為,將其視為例行公事,儘管它對患者產生了不可否認的影響。
更奇怪的是:我們幾乎在人們開始認真進行科學研究時就知道了陰性研究消失的問題。
這最早是由一位名叫西奧多·斯特林 (Theodore Sterling) 的美國心理學家在 1959 年正式記錄下來的。他翻閱了當時四大心理學期刊上發表的每一篇論文,發現 294 篇論文中有 286 篇報告了具有統計學意義的結果。他解釋說,這顯然很可疑:這不可能公平地代表所有已進行的研究,因為如果我們相信這一點,我們就不得不相信心理學家在實驗中測試的幾乎每個理論都被證明是正確的。如果心理學家真的如此擅長預測結果,那麼根本沒必要費心進行實驗。1995 年,在他職業生涯的末期,這位研究人員在半個世紀後又回到了同樣的問題,發現幾乎沒有任何變化。
斯特林是第一個將這些想法放入正式學術背景的人,但基本事實在幾個世紀前就已被認識到。弗朗西斯·培根在 1620 年解釋說,我們常常只記住事情成功的時候,而忘記事情失敗的時候,從而誤導自己。托馬斯·福勒醫生在 1786 年列出了他見過的用砷治療的病例,並指出他本可以像其他人可能被誘惑做的那樣,掩蓋失敗的病例,但他還是將其包括在內了。他解釋說,否則就會產生誤導。
然而,直到三十年前,人們才開始意識到缺失的試驗對醫學構成了嚴重的問題。1980 年,埃琳娜·海明基 (Elina Hemminki) 發現,20 世紀 70 年代中期在芬蘭和瑞典進行的大約一半的試驗都未發表。然後,在 1986 年,一位名叫羅伯特·西姆斯 (Robert Simes) 的美國研究人員決定調查一項針對卵巢癌新療法的試驗。這是一項重要的研究,因為它關注的是生死攸關的問題。這種癌症的聯合化療具有非常嚴重的副作用,考慮到這一點,許多研究人員曾希望,最好先使用一種單一的“烷化劑”藥物,然後再進行全面的化療。西姆斯查閱了學術文獻中發表的所有關於這個問題的試驗,這些文獻是醫生和學者閱讀的。從這方面來看,首先給予單一藥物似乎是個好主意:患有晚期卵巢癌(這不是一個好的診斷結果)的女性,單獨使用烷化劑的女性,更有可能存活更長時間。
然後西姆斯有了一個聰明的想法。他知道有時試驗可能會未發表,並且他聽說結果“不那麼令人興奮”的論文最有可能丟失。然而,要證明這種情況已經發生,這是一項棘手的工作:您需要找到所有已進行試驗的公平、有代表性的樣本,然後將它們的結果與已發表的較小試驗庫進行比較,看看是否存在任何令人尷尬的差異。沒有簡單的方法可以從藥品監管機構獲得此資訊(我們將在稍後詳細討論這個問題),因此他轉而求助於國際癌症研究資料銀行。該資料庫包含美國正在進行的有趣試驗的登記冊,包括大多數由政府資助的試驗,以及來自世界各地的許多其他試驗。它絕不是一個完整的列表,但它確實有一個關鍵特徵:試驗是在結果出來之前註冊的,因此從該來源編制的任何列表,即使不是完整的,至少也是所有已完成研究的代表性樣本,並且不會因其結果是陽性還是陰性而產生偏差。
當西姆斯將已發表試驗的結果與預先註冊的試驗進行比較時,結果令人不安。檢視學術文獻——研究人員和期刊編輯選擇發表的研究——單獨使用烷化劑似乎是個好主意,可以顯著降低晚期卵巢癌的死亡率。但是,當您僅檢視預先註冊的試驗時——所有已進行試驗的公正、公平的樣本——新療法並不比老式的化療更好。
西姆斯立即意識到——我希望您也會意識到——與他即將引爆醫學文獻的深水炸彈相比,一種癌症治療方法是否優於另一種癌症治療方法的問題只是小菜一碟。我們過去認為我們瞭解的關於治療是否有效的一切都可能被扭曲了,扭曲的程度可能難以衡量,但肯定會對患者護理產生重大影響。我們看到了陽性結果,卻錯過了陰性結果。關於這一點,我們應該做一件明確的事情:啟動所有臨床試驗的註冊系統,要求人們在開始研究之前註冊他們的研究,並堅持要求他們在最後發表結果。
那是 1986 年。自那時以來,一代人過去了,我們做得非常糟糕。在這本書中,我保證我不會用資料淹沒您。但與此同時,我不希望任何製藥公司、政府監管機構、專業機構或任何懷疑整個故事的人有任何推諉的空間。因此,我現在將盡可能簡短地回顧所有關於缺失試驗的證據,展示已使用的主要方法。您即將閱讀的所有內容均來自關於該主題的最新系統綜述,因此您可以確信它是對結果的公平和公正的總結。
一種研究方法是從藥品監管機構記錄的所有試驗中獲取資訊,從為獲得新藥許可而進行的早期試驗開始,然後檢查它們是否都出現在學術文獻中。這就是我們在上面提到的論文中看到的採用的方法,研究人員在那篇論文中尋找了關於 12 種抗抑鬱藥的每一篇論文,發現陽性和陰性結果各佔一半,變成了 48 篇陽性論文和僅 3 篇陰性論文。這種方法已在醫學的幾個不同領域得到廣泛應用。
例如,Lee 及其同事查找了 2001 年至 2002 年間上市的所有 90 種新藥的營銷申請中提交的所有 909 項試驗:他們發現,66% 具有顯著結果的試驗已發表,而其餘試驗中只有 36% 已發表。
Melander 在 2003 年查找了在獲得營銷授權過程中提交給瑞典藥品監管機構的關於五種抗抑鬱藥的所有 42 項試驗:所有 21 項具有顯著結果的研究都已發表;只有 81% 的未發現益處的研究已發表。
Rising 等人在 2008 年發現了更多我們將稍後剖析的扭曲的撰寫:他們查找了兩年內批准的藥物的所有試驗。在 FDA 的結果摘要中,一旦可以找到這些摘要,就有 164 項試驗。結果有利的試驗在學術論文中發表的可能性是結果不利的試驗的整整四倍。最重要的是,一旦出現在學術文獻中,四項結果不利的試驗就發生了改變,轉而支援該藥物。
如果您願意,您可以檢視會議簡報:大量研究在會議上展示,但我們目前最好的估計是,只有大約一半的研究最終出現在學術文獻中。僅在會議上展示的研究幾乎不可能找到或引用,而且特別難以評估,因為關於研究中使用的具體方法的資訊很少(通常只有一段話)。正如您很快就會看到的,並非每項試驗都是對治療方法的公平測試。有些可能會因設計而產生偏差,因此這些細節很重要。
關於會議論文發生了什麼情況的最新系統綜述是在 2010 年完成的,它發現了 30 項獨立的研究,這些研究調查了陰性會議簡報——涉及美學、囊性纖維化、腫瘤學和急診室等不同領域——是否會在成為成熟的學術論文之前消失。絕大多數情況下,不討人喜歡的結果更有可能消失。
如果您非常幸運,您可以追蹤到在試驗開始之前公開記錄其存在的一系列試驗列表,可能是在為探索該問題而建立的註冊系統上。從製藥行業來看,直到最近,您都很幸運能在公共領域找到這樣的列表。對於公共資助的研究,情況略有不同,在這裡我們開始學習一個新的教訓:儘管絕大多數試驗是由行業進行的,結果是他們為社群定下了基調,但這種現象並不侷限於商業領域。
到 1997 年,已經有四項研究被納入關於這種方法的系統綜述中。他們發現,具有顯著結果的研究發表的可能性是沒有顯著結果的研究的 2.5 倍。
1998 年的一篇論文調查了美國國立衛生研究院贊助的兩個試驗小組在過去十年中的所有試驗,再次發現,具有顯著結果的研究更有可能發表。
另一項研究調查了向芬蘭國家機構通報的藥物試驗,發現 47% 的陽性結果已發表,但只有 11% 的陰性結果已發表。
另一項研究調查了自 1963 年以來透過眼科醫院藥房部門的所有試驗:93% 的顯著結果已發表,但只有 70% 的陰性結果已發表。
在這堆資料中提出的重點很簡單:這不是一個研究不足的領域;證據已經存在於美國很長時間了,而且既不矛盾也不模稜兩可。
2005 年和 2006 年的兩項法國研究採取了一種新方法:他們去了倫理委員會,獲得了他們批准的所有研究的列表,然後從研究人員那裡瞭解到試驗是否產生了陽性或陰性結果,最後追蹤到已發表的學術論文。第一項研究發現,顯著結果發表的可能性是原來的兩倍;第二項研究發現,顯著結果發表的可能性是原來的四倍。在英國,兩位研究人員向 NHS R&D 資助的 101 個專案的所有首席研究員傳送了一份問卷:這不是行業研究,但無論如何都值得注意。這產生了一個不尋常的結果:陽性和陰性論文的發表率沒有統計學上的顯著差異。
但僅僅列出研究是不夠的。系統地收集我們目前掌握的所有證據,我們總體上看到了什麼?
將所有此類研究都放在一個巨大的電子表格中,以生成關於發表偏倚的彙總資料,這並不理想,因為它們在不同領域、使用不同方法方面都非常不同。這是許多薈萃分析中的一個擔憂(儘管不應誇大:例如,如果有許多試驗將一種治療方法與安慰劑進行比較,並且它們都使用相同的結局測量,那麼您可能可以簡單地將它們全部放在一起)。
但是您可以合理地將其中一些研究分組。來自 2010 年的關於發表偏倚的最新系統綜述(上述示例取自該綜述)彙集了來自各個領域的證據。十二項可比較的研究跟蹤了會議簡報,並將它們放在一起,他們發現具有顯著發現的研究發表的可能性是原來的 1.62 倍。對於從試驗開始前獲取試驗列表的四項研究,總體而言,顯著結果發表的可能性是原來的 2.4 倍。這些是我們對問題規模的最佳估計。它們是最新的,而且是具有確鑿證據的。
所有這些缺失的資料不僅僅是一個抽象的學術問題:在現實世界的醫學中,已發表的證據被用來制定治療決策。這個問題觸及了醫生所做一切工作的核心,因此值得詳細考慮它對醫療實踐的影響。首先,正如我們在瑞波西汀案例中看到的那樣,醫生和患者被他們使用的藥物的效果所誤導,最終可能會做出導致本可避免的痛苦甚至死亡的決定。我們也可能選擇不必要地昂貴的治療方法,因為我們被誤導地認為它們比更便宜的舊藥更有效。這浪費了金錢,最終剝奪了患者獲得其他治療的機會,因為醫療保健的資金永遠不是無限的。
同樣值得明確的是,這些資料對醫學界的每個人都是保密的,從上到下都是如此。大多數國家都有組織來建立關於新療法的所有證據的仔細、公正的摘要,以確定它們是否具有成本效益。在英國,該組織被稱為 NICE(國家健康與臨床最佳化研究所);在德國,它被稱為 IQWiG,而在美國,保險公司可能會進行自己的評估。但是這些組織都無法識別或訪問研究人員或公司隱瞞的關於藥物有效性的資料;他們對這些資料的合法權利並不比您或我多。事實上,正如我們將看到的,一些監管機構儘管可以訪問這些資訊,但卻拒絕與公眾或醫生分享。另一些則將他們掌握的資訊隱藏在混亂的壁壘之後。這是一個非同尋常且反常的情況。
因此,當醫生被矇在鼓裡時,患者就會接觸到較差的治療、無效的治療、不必要的治療以及不必要地昂貴但並不比廉價治療更好的治療;政府為不必要地昂貴的治療付費,並承擔因不充分或有害治療造成的損害的成本;而試驗的個別參與者,例如 TGN1412 研究中的那些參與者,則會遭受可怕的、危及生命的折磨,導致終身傷疤,同樣是完全不必要的。
與此同時,醫學研究的整個專案都受到了阻礙,因為重要的陰性結果被那些可以利用它們的人所隱瞞。這影響著每個人,但在“孤兒病”領域尤其令人震驚,“孤兒病”是影響少數患者的醫學問題,因為這些醫學領域已經資源短缺,並且被大多數製藥公司的研究部門所忽視,因為收入機會較少。研究孤兒病的人員通常會研究已在其他情況下嘗試過但失敗的現有藥物,但這些藥物對孤兒病具有理論上的潛力。如果早期關於這些藥物在其他疾病中的作用的資料缺失,那麼研究它們在孤兒病中的作用既更加困難也更加危險:也許它們已經被證明具有益處或作用,可以幫助加速研究;也許它們已經被證明在用於其他疾病時具有積極的危害,並且存在重要的安全訊號,可以幫助保護未來的研究參與者免受傷害。沒有人能告訴你。
最後,也許最可恥的是,當我們允許不討人喜歡的資料不發表時,我們背叛了參與這些研究的患者:這些人貢獻了自己的身體,有時甚至是生命,他們隱含地相信他們正在做一些創造新知識的事情,這將使未來處於與他們相同境地的其他人受益。事實上,他們的信念並非隱含的:通常這正是我們作為研究人員告訴他們的,這是一個謊言,因為資料可能會被隱瞞,而且我們知道這一點。