本文是“創新領域:健康公平解決方案”專題報道的一部分,這是一份編輯上獨立的特別報告,由武田製藥公司提供資金支援製作。
M梅蘭妮·霍尼格正在教一年級醫學生如何評估腎功能,這時其中一位學生卡梅倫·納特舉手提問。他問道,為什麼診斷演算法中要對黑人患者進行調整?在美國,黑人患腎病和腎衰竭的比率較高,而且與白人相比,獲得腎移植的可能性較低,但這種調整卻讓人覺得黑人的腎功能比其他種族具有相同檢測結果的人更好。
好問題,霍尼格心想,她是一位在波士頓貝斯以色列女執事醫療中心工作的腎臟專科醫生。她從未想過這可能是為什麼。“我說,‘你說得對。這沒有任何道理,’”霍尼格回憶起2016年的課堂對話時說道。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和想法的有影響力的故事。
這種腎功能值,稱為估計腎小球濾過率 (eGFR),有助於醫生確定何時將患者轉診給專科醫生,何時開始透析,何時患者有資格加入腎移植等待名單,以及他們的名字在該名單上的位置。為黑人患者調整演算法降低了他們獲得治療和移植的機會。
醫生依賴的方程式和儀器充滿了歷史偏見。長期以來,醫學一直將種族視為提供關於疾病潛在生物學和遺傳學重要資訊的依據,這種策略對診斷和治療產生了巨大影響。人們僅僅因為膚色而被錯失腎移植機會,被拒絕治療,以及疾病診斷晚於必要時間。
種族是一種社會建構,它很少揭示祖先資訊。種族群體內部的遺傳變異比群體之間更大。“在大型資料集中發現的種族差異很可能經常反映種族主義的影響——也就是說,在美國成為黑人的經歷,而不是黑人本身,”研究人員在2020年《新英格蘭醫學雜誌》上發表的一篇文章中寫道,該文章概述了種族調整演算法的危害。
為了消除這種偏見,研究人員正在改變演算法和儀器,並尋找新的模型來減少差距。
K腎臟透過稱為腎小球的微小結構從血液中過濾廢物和多餘的水分。直接測量這些腎小球的功能是可能的,但很麻煩,因此醫生轉而依賴血液中一種稱為肌酐的分子水平來估計腎小球濾過率 (GFR)。肌酐是肌肉產生的廢物,也是蛋白質代謝的副產品。當腎臟功能良好時,它們會濾出肌酐;如果腎臟開始衰竭,肌酐水平就會升高。對於實驗室來說,測量這種分子既容易又廉價。*
第一個評估腎功能的方程式是在 1970 年代開發的,它依賴於年齡、性別、體重和血液中的肌酐水平。但該公式並不精確。因此,在 1990 年代後期,一組研究人員著手開發一個更準確的公式。他們使用了來自一項關於 1,600 多人的肌酐和 GFR 研究的現有資料,然後將這兩項測量值關聯起來。該團隊研究了 16 種可能影響這種關係的不同因素。(例如,隨著年齡的增長,我們的肌肉量會減少,因此老年人的肌酐水平低於年輕人。)作者注意到,對於任何給定的 GFR,黑人的肌酐水平高於白人。為什麼會這樣尚不清楚。他們推測,可能是因為黑人的肌肉量更高。研究人群中只有 12% 是黑人,但這種差異感覺太大了,不容忽視。
為了解釋這種差異,研究人員為黑人患者添加了一個調整項:高達 1.21 的乘法因子,這實際上將他們的估計腎功能誇大了高達 21%。2009 年,研究人員釋出了一個更新的方程式,但黑人校正因子仍然存在,儘管降低了,高達 1.16。“我們一直認識到,種族不是非洲裔美國人在 GFR 和肌酐之間關係中與非裔美國人不同的生物學過程,”安德魯·萊維後來解釋說,他曾致力於開發這兩個方程式,後來解釋說。但“它代表了重要的東西。”
“實驗室報告的寫法是,如果你的肌酐是 4.0,你的腎功能是 19%。哦,除非你是非裔美國人;那麼就是 22%,”貝斯以色列女執事醫院的腎臟病專家瑪莎·帕夫拉基斯說。“這毫無意義。” 對於腎臟健康的人來說,微小的差異無關緊要。但是,當腎功能下降時,eGFR(隨著血液肌酐水平升高而降低)變得至關重要。這個數字有助於確定患者是否被轉診給腎臟病專家、診斷出腎臟疾病或被認為有資格加入腎移植等待名單。
“移植名單上的一半黑人患者因為這個專案獲得了額外的優先權。”
——瑪莎·帕夫拉基斯貝斯以色列女執事醫療中心
霍尼格開始與哈佛醫學院種族公正聯盟的一個小組學生合作,遊說取消校正因子,2017 年,貝斯以色列女執事醫療中心成為第一個這樣做的醫療中心。其他地方的努力基本上停滯不前,直到喬治·弗洛伊德、艾哈邁德·阿伯裡和布倫娜·泰勒三位黑人美國人的死亡事件成為全國新聞。帕夫拉基斯說,在他們的遇害事件發生後,關於種族問題的討論在整個醫學界蔓延開來。
隨著抗議活動在全國各地爆發,許多主要大學的醫學生和教職員工開始散發請願書,呼籲停止在 eGFR 中使用種族校正。一些主要的學術醫療系統開始從方程式中刪除種族因素,但他們的方法並不一致。扎克伯格舊金山綜合醫院和創傷中心的醫學主任尼爾·鮑厄和其他專家擔憂地關注著這些變化。診斷腎臟疾病沒有統一的方法。“你可能在一家醫院被診斷出患有腎臟疾病。你走到街對面的[另一家醫院],你就不會患有腎臟疾病,”鮑厄說。“那簡直是一片混亂。”
2020 年夏天,國家腎臟基金會和美國腎臟病學會成立了一個特別工作組,以評估如何最好地向前推進。“他們認為我們會在一夜之間解決這個問題,但我們花了大約 10 到 11 個月才完成這項工作,”擔任特別工作組聯合負責人的鮑厄說。最終,他們選擇了一個使用相同 2009 年資料但消除了種族作為變數的方程式,然後將曲線重新擬合到整個資料集。
器官獲取和移植網路 (OPTN) 也在進行關於種族問題的討論,該網路管理已故捐贈者的移植。腎臟等待名單很長。患者必須滿足某些標準才能有資格加入;這些標準在不同的移植中心可能有所不同,但所有候選人的 eGFR 必須為 20% 或更低。而且由於 eGFR 校正因子,黑人患者需要比其他種族的人更高的肌酐水平才能透過該閾值。“沒有人提出這個公式的人會說,讓我們把黑人排除在名單之外。但實際上,這就是結果,”帕夫拉基斯說。
2022 年 7 月,器官分配中明確禁止使用種族變數。帕夫拉基斯認為這只是第一步。她想幫助已經在名單上的黑人患者以及之前因腎功能數值而被拒絕加入名單的患者。
2023 年 1 月,OPTN 決定移植中心應回顧名單上的黑人患者的實驗室報告,並使用種族中性方程式重新計算他們的 eGFR,以檢視他們是否應該被轉診進行移植。“基本上,移植名單上的一半黑人患者因為這個專案獲得了額外的優先權,”帕夫拉基斯說。
帕夫拉基斯承認,這一改變並不能解決腎臟分配中的所有差距。但她也認為這是恢復性司法。“這並不完美,”她說,“但我認為這可能是目前存在的修復種族差距的最大例子。”
肺科醫生一直在努力解決類似的問題。為了評估肺功能,醫生會要求患者對著一種稱為肺活量計的裝置吹氣,該裝置測量一個人可以撥出的最大空氣量以及他們在一秒鐘內可以從肺部撥出多少空氣。肺活量計將這些數字與“正常”肺功能的參考值進行比較。結果有助於醫生診斷肺氣腫和慢性阻塞性肺疾病等疾病,評估這些疾病的嚴重程度,並監測肺功能的下降。
構成“正常”的因素因年齡、性別、身高以及直到最近,種族而異。為什麼是種族?1800 年代後期和 1900 年代早期收集的資料表明,不同種族具有不同的肺活量,研究人員將這種現象歸因於先天生物學,而不是社會、經濟或環境因素。布朗大學研究員倫迪·布勞恩在 2015 年一篇關於種族在肺活量測定法中的歷史使用的文章中寫道,到 20 世紀初,肺活量在種族群體之間存在差異的想法已成為“表面上的事實”。專家們忽略的是,種族可能只是其他因素的代表,例如空氣質量、營養和其他影響肺部健康和發育的因素。
當歐洲呼吸學會的全球肺功能倡議在 2012 年制定肺活量測定法的參考值時,它使用了來自 33 個國家/地區的 160,000 多個肺活量測定結果。研究人員觀察到“種族群體之間肺功能的比例差異”,並決定為四個群體制定單獨的值:高加索人、非洲裔美國人、北亞人和東南亞人。他們還為不屬於其他類別的人使用了“其他”類別。該模型假設,與白人成年人相比,黑人成年人的肺活量小約 10% 到 15%,亞洲血統成年人的肺活量小 4% 到 6%。因此,黑人、亞洲人和白人相同的肺活量測定結果導致了對健康的不同解釋。結果,某些人群的肺部疾病一直未被診斷和治療。
按種族劃分參考值在很多方面都存在問題。“我們是一個大熔爐,”明尼蘇達州梅奧診所的肺病學家亞歷山大·尼文說。因此,即使存在“一組特定的基因使人們更容易或更不容易患肺功能障礙,但在當今全球化的世界中,這種基因簇也不太可能保持純粹。”
更重要的是,尼文說,肺部不斷與外界接觸,並在整個童年時期和成年早期持續發育。“不可能將種族與所有其他因素分開,不幸的是,這些因素與我們社會中不同的群體不可思議地聯絡在一起,其中許多因素可能正在影響我們在不同社會群體中看到的肺功能變化。”
在實踐中,當涉及到重要的結果時,基於種族的模型似乎並沒有提高預測能力。“你無法更好地判斷誰會去醫院。你無法更好地判斷誰會死亡。你無法更好地判斷誰有嚴重症狀,誰沒有。在某些情況下,你實際上會透過新增種族來降低你的預測能力,”加州大學舊金山分校的肺和重症監護醫師亞倫·鮑說。
2023 年,全球肺功能倡議用種族中性方程式取代了基於種族的方程式。同年,美國胸科學會和歐洲呼吸學會建議所有醫療保健提供者都改用新公式。
這種轉變正在發生,研究人員才剛剛開始揭示這種轉變的廣泛影響。“長話短說,影響深遠,”哈佛醫學院的生物資訊學研究員阿瓊·曼萊說。肺功能有助於確定殘疾賠償金、某些職業的候選資格、肺移植的優先權等等。曼萊和他的同事發現,美國約有 1000 萬人的診斷或疾病嚴重程度將被重新分類。殘疾賠償金可能會增加超過 10 億美元。這種變化並非總是有利的。新的診斷可能會使某人沒有資格從事某些工作,例如消防員。患有肺癌的黑人可能不會被認為是手術的合適人選,因為他們的肺功能可能太差,無法切除部分肺部。“基本上,這些重新分類都附帶權衡,”曼萊說。
新方程式與原始公式來自相同的 2012 年資料,它並不完美。“我們有點確定我們現在擁有的種族中性方程式是目前最好的選擇,並且知道未來可能會出現更好的方程式,”鮑說。
曼萊一直在思考傳統演算法如何操作種族,調整任何特定患者的“正常”構成,以及如何將這些演算法的經驗教訓融入到生產更復雜的機器學習演算法中。“它們可能存在偏見,並且它們可能會傳播完全相同的基於種族的醫學,”他說。“但它們是一種工具,這種工具也可以反向使用:減輕現有的差距,並有可能減少醫療保健系統中的現有偏見。”
人工智慧如何幫助改善健康公平的一個例子在膝蓋疼痛差異的研究中顯而易見。之前的研究表明,黑人通常比其他種族的人報告的關節炎引起的膝蓋疼痛更劇烈。但通常這種疼痛無法用 X 光片中可見的結構性損傷來解釋。因此,它經常被忽視或歸因於心理壓力等外部因素。
康奈爾大學研究機器學習和醫療保健不公平現象的艾瑪·皮爾森和她的同事想了解膝蓋本身是否可能存在可以解釋這種疼痛差異的物理跡象。他們使用了來自 4,000 多名患有骨關節炎或有患病風險的人的膝蓋 X 光片和患者疼痛評分來訓練機器學習模型。
令人驚訝的是,該模型對疼痛的預測優於傳統的關節炎評分系統。皮爾森特別指出,“它似乎正在捕捉那些不成比例地影響服務不足患者的因素。” 這些因素可能是什麼尚不清楚,皮爾森強調需要謹慎。“總的來說,這些模型的能力往往超過了我們理解它們如何實現這些能力的能力,”她說。
有時,診斷儀器會引入偏見。例如,醫生用來測量血液中氧氣水平的指尖夾透過測量不同波長的光的吸收來估計血氧水平。但是,這種稱為脈搏血氧儀的裝置往往會高估膚色較深的人的氧飽和度。
研究人員幾十年前就知道了這個問題,但製造商並沒有感到太多壓力來解決這個問題。這種影響相對較小,並且在低氧飽和度下最為突出。“這種差異可能被正確地認為在生理上無關緊要,”加州大學舊金山分校麻醉師邁克爾·利普尼克說,他領導一個研究專案來評估脈搏血氧儀的效能。“如果某人的氧飽和度真的比真實值高或低 1% 甚至 2%,則不會造成傷害。”
然而,當新冠疫情使數百萬人患病時,微小的偏見產生了巨大的影響。“臨床決策是根據這個數字做出的,”利普尼克說。2023 年,一個研究小組查看了疫情最初 19 個月內 24,000 多名因新冠住院患者的健康記錄。他們重點關注那些同時進行了脈搏血氧儀讀數和動脈血氣測試(測量血液中氧飽和度的金標準)的人。脈搏血氧儀讀數始終高估了黑人和西班牙裔患者的氧氣水平。黑人患者也比白人患者更有可能因不準確的脈搏血氧儀讀數而被低估對新冠療法的需求。這種疏忽具有臨床後果:被忽略新冠治療平均導致護理延遲一小時,並增加再次入院的風險。
利普尼克是開放式血氧儀專案的一部分,該專案一直在不同人群中測試不同的脈搏血氧儀,以瞭解它們的實際效能。他和他的同事已經看到了一系列變異性。大多數裝置在膚色較深的人身上使用時往往表現更差,但有些裝置表現更好。
研究人員正在努力開發更準確的工具,監管機構正在考慮更大規模的、具有各種膚色的人群的測試。利普尼克想要更好的脈搏血氧儀,但擔心某些修復可能會增加成本。“這是一個很大的擔憂,尤其是在中低收入國家,世界上大多數膚色較深的人都生活在這些國家,”他說。
利普尼克說,在短期內,臨床醫生應該重新思考他們如何使用來自脈搏血氧儀的資料。“它給出一個數字,我們假設這個數字是真理。” 實際上,這個數字可能偏差高達 5%。如果醫生認識到誤差率,他們就可以做出旨在最大限度地減少醫療保健差距的決策。“我認為很多解決方案將在於我們如何使用這項技術,”他說。
帕夫拉基斯也認為臨床醫生需要進行更多的批判性思考。她對自己多年來依賴 eGFR 方程式而沒有停下來仔細考慮其種族校正的理由感到沮喪。“當我們被教導這個公式時,我們想,‘這是資料驅動的。這是來自一項研究。這一定是準確的,’”她說。然而,循證並不總是意味著公平,而這才是真正的目標。霍尼格的學生和其他認識到偏見的人正在使所有人的醫療保健變得更好。
*編者注(2024 年 12 月 31 日):此段在釋出後進行了編輯,以更正對肌酐的描述。
