當雷吉娜·巴茲萊在 40 歲出頭進行常規乳房 X 光檢查時,影像顯示她的乳房組織中有一系列複雜的白色斑點。這些標記可能是正常的,也可能是癌變的——即使是最好的放射科醫生也常常難以區分。她的醫生認為這些斑點並不立即令人擔憂。事後看來,她說,“我已經得了癌症,但他們沒有看到。”
在接下來的兩年裡,巴茲萊接受了第二次乳房 X 光檢查、乳房 MRI 和活組織檢查,所有這些檢查都繼續產生模稜兩可或相互矛盾的結果。最終她在 2014 年被診斷出患有乳腺癌,但獲得診斷的道路令人難以置信地沮喪。“你怎麼做三項測試並得到三個不同的結果?”她想知道。
巴茲萊接受了治療並康復良好。但她仍然對閱讀乳房 X 光片的不確定性可能會延誤治療感到震驚。“我意識到我們在當前方法中是多麼缺乏保護,”她說,因此她做出了一個改變職業生涯的決定:“我絕對必須改變它。”
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
巴茲萊是麻省理工學院的計算機科學家,以前從未研究過健康。她的研究使用機器學習技術——一種人工智慧形式——進行自然語言處理。但她一直在尋找新的研究方向,並決定與放射科醫生合作開發機器學習演算法,利用計算機卓越的視覺分析來發現乳房 X 光片中人眼可能遺漏的細微模式。
在接下來的四年裡,該團隊教會了一個計算機程式分析來自約 32,000 名不同年齡和種族的女性的乳房 X 光片,並告訴它哪些女性在掃描後五年內被診斷出患有癌症。然後,他們對另外 3,800 名患者進行了計算機匹配能力的測試。他們由此產生的演算法於去年五月發表在《放射學》雜誌上,在預測癌症或無癌症方面,比診所中常用的方法顯著更準確。當巴茲萊的團隊在她 2012 年的乳房 X 光片(她的醫生已清除)上執行該程式時,該演算法正確地預測,與 98% 的患者相比,她在五年內患乳腺癌的風險更高。
人工智慧演算法不僅能發現人眼難以察覺的細節。它們還可以開發全新的醫學影像解讀方式,有時以人類無法理解的方式。眾多研究人員、初創公司和掃描儀制造商都在設計人工智慧程式,他們希望這些程式可以提高診斷的準確性和及時性,為缺乏放射科醫生的發展中國家和偏遠地區提供更好的治療,揭示生物學和疾病之間的新聯絡,甚至有助於預測一個人何時死亡。
人工智慧應用正在快速進入診所,醫生們對這項技術既興奮於它可能減輕他們的工作量,又擔心失去工作給機器。演算法還引發了前所未有的問題,即如何監管一臺不斷學習和變化的機器,以及如果演算法診斷錯誤,該由誰來承擔責任。儘管如此,許多醫生對人工智慧程式的前景感到興奮。“如果這些模型能夠得到充分的審查,並且我們能夠提高對它們工作原理的理解水平,這可以幫助提高所有人的醫療保健水平,”斯坦福大學放射科醫生馬修·倫格倫說。
“一個非常非常熱門的話題”
使用計算機閱讀放射掃描的想法並不新鮮。在 20 世紀 90 年代,放射科醫生開始使用一種名為計算機輔助診斷 (CAD) 的程式來檢測乳房 X 光片中的乳腺癌。這項技術被譽為革命性的,診所迅速採用了它。但事實證明,CAD 比現有方法更耗時且更難使用,並且根據一些研究,使用 CAD 的診所比不使用 CAD 的診所犯了更多的錯誤。費城傑斐遜大學放射科醫生維傑·拉奧說,這次失敗讓許多醫生對計算機輔助診斷產生了懷疑。
然而,在過去的十年中,計算機視覺取得了飛躍式的進步——在人臉識別等日常應用和醫學領域都是如此。這一進步很大程度上歸功於深度學習方法的開發,在這種方法中,計算機被賦予一組影像,然後任其在影像之間建立自己的聯絡,最終形成一個關聯網路。在醫學成像中,例如,這可能涉及告訴計算機哪些影像包含癌症,並讓它自由地尋找那些影像中常見的但在無癌影像中不存在的特徵。
人工智慧技術在放射學中的開發和應用迅速蔓延。“去年,在我參加的每一次大型會議上,主題都是人工智慧和成像,”北美放射學會前任主席拉奧說。“顯然,這是一個非常非常熱門的話題。”
美國食品和藥物管理局表示,它沒有儲存已批准的人工智慧產品清單。但加利福尼亞州拉霍亞斯克裡普斯研究所的數字醫學研究員埃裡克·託波爾估計,該機構每月批准不止一種醫學影像演算法。市場情報公司 Reaction Data 在 2018 年進行的一項調查發現,84% 的美國放射科診所已經採用或計劃採用人工智慧程式。該領域在中國發展尤其迅速,中國有 100 多家公司正在為醫療保健設計人工智慧應用。
“現在是進入這個市場的絕佳時機,”特拉維夫初創公司 Aidoc 的執行長埃拉德·瓦拉赫說。該公司開發演算法來分析 CT 掃描中的異常情況,並將這些患者移至醫生優先列表的頂部。Aidoc 還跟蹤醫生使用該程式的頻率以及他們花多少時間來質疑其結論。“最初他們持懷疑態度,但兩個月後他們就習慣了並且非常信任它,”瓦拉赫說。
節省時間對於挽救患者至關重要。最近一項關於胸部 X 射線檢查肺塌陷的研究發現,放射科醫生將他們訂購的掃描中有 60% 以上標記為高優先順序,這表明他們可能花費數小時在處理不嚴重的病例,然後才處理那些真正緊急的病例。“我交談過的每位醫生都有一個因肺塌陷而失去患者的故事,”總部位於波士頓的 GE 醫療集團人工智慧副總裁兼總經理卡莉·約德說,該公司是主要的醫療影像裝置製造商之一。去年 9 月,FDA 批准了一套人工智慧工具,這些工具現在將嵌入 GE 掃描器中,自動標記最緊急的病例。
由於計算機可以處理海量資料,因此它們可以執行超出人類能力的分析任務。例如,谷歌正在利用其計算能力開發人工智慧演算法,將肺部的二維 CT 影像構建成三維肺部,並檢視整個結構以確定是否存在癌症。相比之下,放射科醫生必須單獨檢視這些影像,並嘗試在腦海中重建它們。谷歌的另一種演算法可以做放射科醫生根本無法做到的事情:透過檢視患者的視網膜掃描,檢測與血壓、膽固醇、吸菸史和衰老相關的細微變化,從而確定患者患心血管疾病的風險。“那裡存在超出先前已知範圍的潛在訊號,”谷歌產品經理丹尼爾·謝說。
黑匣子問題
人工智慧程式最終可能會揭示生物學特徵和患者結局之間全新的聯絡。《JAMA Network Open》雜誌 2019 年發表的一篇論文描述了一種深度學習演算法,該演算法在來自兩項大型臨床試驗中招募的 85,000 多名受試者的胸部 X 射線片上進行了訓練,這些試驗跟蹤了他們 12 年以上。該演算法對每位患者在此期間的死亡風險進行了評分。研究人員發現,人工智慧歸類為高風險類別的人中有 53% 在 12 年內死亡,而低風險類別的人中只有 4% 死亡。該演算法沒有關於誰死亡或死亡原因的資訊。首席研究員、馬薩諸塞州總醫院放射科醫生邁克爾·盧說,如果將該演算法與醫生的評估和其他資料(如遺傳學)相結合,它可能成為評估患者健康的有用工具。
為了理解演算法的工作原理,研究人員確定了演算法用於計算的影像部分。有些部分,如腰圍和女性乳房的結構,是有道理的,因為這些區域可以暗示某些疾病的已知風險因素。但該演算法也關注患者肩胛骨下方的區域,該區域沒有已知的醫學意義。盧猜測,靈活性可能是壽命縮短的預測因素之一。進行胸部 X 射線檢查通常需要患者擁抱機器,而無法完全環抱機器的健康狀況較差的人可能會以不同的方式放置他們的肩膀。“這些不是我會從頭開始想到的事情,也可能不理解,”盧說。
計算機和人類思維方式之間的脫節被稱為黑匣子問題:計算機大腦在人類無法進入的模糊空間中執行的想法。專家們對於這是否會在醫學成像中造成問題存在分歧。一方面,如果演算法持續提高醫生的表現和患者的健康,醫生就不需要知道它是如何工作的。畢竟,研究人員仍然沒有完全理解許多藥物的作用機制,例如自 20 世紀 50 年代以來一直用於治療抑鬱症的鋰。“也許我們不應該如此執著,因為人類在醫學中的工作方式就像黑匣子一樣,”託波爾說。“我們是否對機器提出了更高的標準?”
儘管如此,不可否認的是,黑匣子為人類與人工智慧的誤解提供了充足的機會。例如,西奈山伊坎醫學院的研究人員對他們開發的一種用於識別肺部 X 射線片中肺炎的深度學習演算法的效能差異感到非常困惑。它在西奈山產生的 X 射線片上的準確率超過 90%,但在其他機構的掃描片上的準確率要低得多。他們最終發現,該演算法不僅分析影像,還考慮了每個機構肺炎的常見程度,從而計算了陽性發現的機率——這不是他們期望或希望程式做的事情。
哈佛醫學院研究機器學習生物醫學應用的塞繆爾·芬萊森擔心諸如此類的混淆因素。他指出,人工智慧訓練的資料集可能存在開發者未能考慮到的偏差。例如,在急診室拍攝的影像或在半夜拍攝的影像可能比在常規檢查期間拍攝的影像更可能顯示病人。演算法也可能學會檢視指示先前健康問題的疤痕或醫療器械植入物,並斷定沒有這些標記的人沒有患上這種疾病。甚至機構標記影像的方式也可能使人工智慧演算法感到困惑,並阻止模型在具有不同標記系統的另一個機構中良好地執行。“如果你天真地在[演算法]在一個地點、一個時間和一個人群的醫院進行訓練,你不會意識到模型正在考慮的所有數千個小因素。如果其中任何一個發生變化,你可能會陷入困境,”芬萊森警告說。
芬萊森說,解決方案是使用來自多個地點和不同患者群體的資料來訓練演算法,然後在新的患者群體中進行前瞻性測試——不進行任何修改。但很少有演算法以這種方式進行測試。根據託波爾最近在《自然醫學》雜誌上發表的評論,在數十項聲稱人工智慧比放射科醫生表現更好的研究中,只有少數研究是在與其開發人群不同的人群中進行測試的。“演算法非常非常脆弱,”杜克大學計算機科學家辛西婭·魯丁說。“如果你嘗試在訓練集[影像]之外使用一個演算法,它並不總是有效。”
隨著研究人員意識到這個問題,更多在新環境中進行的前瞻性研究可能會在醞釀之中。巴茲萊的團隊最近完成了在瑞典卡羅林斯卡學院對 10,000 張掃描片進行的乳房 X 光片人工智慧測試,發現它在那裡的表現與在馬薩諸塞州一樣好。該小組現在正在與臺灣和底特律的醫院合作,在更多不同的患者群體中對其進行測試。巴茲萊說,該團隊發現,目前評估乳腺癌風險的標準在非裔美國女性中遠不如白人女性準確,因為這些標準主要是使用白人女性的掃描片制定的:“我認為我們真的有能力改變這種可悲的狀況。”
法律上的未知領域
即使人工智慧的結論在醫學上是相關的,黑匣子仍然從法律角度提出了一些擔憂。如果人工智慧診斷錯誤,可能很難確定是醫生還是程式有過錯。“醫療保健中會發生很多不好的事情,你並不一定知道為什麼會發生不好的事情,”密歇根大學的健康法專家尼科爾森·普賴斯說。如果人工智慧系統導致醫生做出不正確的診斷,醫生可能無法解釋原因,並且公司關於測試方法的資料很可能屬於嚴密保護的商業秘密。
醫療人工智慧系統仍然太新,尚未在醫療事故訴訟中受到挑戰,因此尚不清楚法院將如何確定責任以及應要求何種透明度。
構建黑匣子演算法的趨勢讓魯丁感到沮喪。這個問題來自於大多數醫學演算法都是透過改編為其他型別的影像分析開發的深度學習工具而構建的。“沒有理由不能構建一個可以自我解釋的機器人,”她堅稱。但是,從頭開始構建透明演算法比重新利用現有的黑匣子演算法來檢視醫學資料要困難得多。這就是為什麼魯丁懷疑大多數研究人員讓演算法執行,然後嘗試在稍後理解它是如何得出結論的原因。
魯丁正在開發透明的人工智慧演算法,該演算法分析乳房 X 光片以查詢可疑腫瘤,並不斷告知研究人員它們正在做什麼。但她的研究因缺乏可用於訓練演算法的可用影像而受阻。魯丁說,公開可用的影像往往標記不佳或使用不再使用的舊機器拍攝,而且如果沒有龐大而多樣化的資料集,演算法往往會拾取混淆因素。
黑匣子以及人工智慧演算法從經驗中學習的能力也給監管機構帶來了挑戰。與始終以相同方式工作的藥物不同,機器學習演算法會隨著時間的推移而變化和改進,因為它們可以訪問更多患者資料。由於演算法從如此多種輸入中提取含義,看似無害的更改(例如醫院的新 IT 系統)可能會突然破壞人工智慧程式。“機器可能會像人類生病一樣生病,並且可能會感染惡意軟體,”託波爾說。“當你的手中掌握著別人的生命時,你不能信任演算法。”
去年 4 月,FDA 提出了一套管理隨時間推移而演變的演算法的指南。其中包括期望生產者密切關注他們的演算法如何變化,以確保它們繼續按設計工作,並要求他們如果發現可能促使重新評估的意外變化,則通知該機構。該機構還在制定最佳生產規範,並可能要求公司明確說明他們對演算法可能如何變化的期望以及如何管理這些變化的協議。“我們需要理解,沒有一種尺寸適合所有情況,”FDA 數字健康主管巴庫爾·帕特爾說。
機器會取代醫生嗎?
人工智慧的侷限性應該讓擔心機器搶走他們工作的放射科醫生放心。2012 年,技術風險投資家兼太陽微系統公司聯合創始人維諾德·科斯拉預測演算法將取代 80% 的醫生,這讓醫學界人士感到震驚,最近他聲稱 10 年後仍在執業的放射科醫生將“殺死患者”。拉奧說,這些言論在放射學領域引起了恐慌和強烈反對。“我認為炒作正在製造很多期望。”
但這種擔憂也產生了實際影響。2015 年,美國只有 86% 的放射科住院醫師職位被填補,而前一年為 94%,儘管這些數字在過去幾年中有所改善。根據 2018 年對 322 名加拿大醫學生的調查,68% 的人認為人工智慧會減少對放射科醫生的需求。
儘管如此,大多數專家和人工智慧製造商都懷疑人工智慧會在短期內取代醫生。“人工智慧解決方案在非常擅長做一件事情方面變得非常出色,”瓦拉赫說。但由於人類生物學是複雜的,他說,“你通常必須擁有不止一項真正擅長的人類。”換句話說,即使演算法在診斷特定問題方面更好,將其與醫生的經驗和對患者個人病史的瞭解相結合將導致更好的結果。
一種可以很好地完成單項任務的人工智慧可以將放射科醫生從繁瑣的工作中解放出來,讓他們有更多時間與患者互動。“他們可以從地下室裡走出來,那裡是他們生活在黑暗中的地方,”託波爾說。“我們在醫學中需要的是更多的人際接觸和聯絡。”
儘管如此,拉奧和其他人認為,由於人工智慧演算法,放射科醫生接受的工具和培訓,包括他們的日常工作,將在未來幾年發生巨大變化。“人工智慧不會取代放射科醫生,但使用人工智慧的放射科醫生會取代不使用人工智慧的放射科醫生,”斯坦福大學放射科醫生柯蒂斯·朗洛茨說。
然而,也有一些例外。2018 年,FDA 批准了第一個可以在無需醫生檢視影像的情況下做出醫療決策的演算法。該程式由愛荷華州科勒爾維爾的 IDx Technology 開發,用於檢視視網膜影像以檢測糖尿病視網膜病變,根據該公司的資料,準確率達到 87%。IDx 執行長邁克爾·阿布拉莫夫表示,由於沒有醫生參與,該公司已承擔任何醫療錯誤的法律責任。
在短期內,人工智慧演算法更有可能協助醫生而不是取代他們。例如,在發展中國家工作的醫生可能無法獲得與美國或歐洲主要醫療機構相同的掃描器或可以解讀掃描結果的訓練有素的放射科醫生。隨著醫學變得越來越專業化,並且越來越依賴影像分析,富裕地區和貧困地區提供的護理標準之間的差距正在擴大,倫格倫說。執行演算法可能是縮小差距的一種廉價方法,甚至可以在手機上完成。
倫格倫的小組正在開發一種工具,使醫生可以使用手機拍攝 X 射線膠片的照片——而不是富裕國家標準的數字掃描——並在照片上執行演算法,檢測肺結核等問題。“它沒有取代任何人,”他說——許多發展中國家根本沒有放射科醫生。“我們正在增強非放射科醫生的能力,將專業知識帶到他們的指尖。”
人工智慧的另一個短期目標可能是檢查醫療記錄,以確定患者是否首先需要掃描,拉奧說。許多醫學經濟學家認為影像學被過度使用——僅在美國每年就進行超過 8000 萬次 CT 掃描。儘管大量資料有助於研究人員使用它來訓練演算法,但掃描非常昂貴,並且可能使患者暴露於不必要的輻射量。同樣,朗洛茨補充說,演算法有一天可以在患者仍在掃描器中時分析影像並預測最終結果,從而減少獲得良好影像所需的時間和輻射暴露。
巴茲萊最終表示,當人工智慧作為一位目光敏銳的合作伙伴,幫助解決醫生無法單獨檢測和解決的問題時,它將是最有用的。“如果存在方便且可描述的模式,”她指出,“人類將已經能夠做到這一點。”她親身經歷過,在很多情況下,情況並非如此。
