讓癌症患者為艱難的決定做好準備是腫瘤醫生的工作。然而,他們並不總是記得這樣做。在賓夕法尼亞大學健康系統,醫生會受到人工智慧演算法的提示,與患者討論他們的治療和臨終偏好,該演算法可以預測死亡的機率。
但這遠非一勞永逸的工具。一項例行的技術檢查顯示,該演算法在新冠肺炎疫情期間衰退,在預測誰會死亡方面下降了 7 個百分點,根據 2022 年的一項研究。
這可能產生了實際影響。埃默裡大學腫瘤學家 Ravi Parikh 是該研究的主要作者,他告訴 KFF Health News,該工具數百次未能提示醫生與需要它的患者發起重要的討論——可能避免了不必要的化療。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。
Parikh 認為,在疫情期間,許多旨在加強醫療保健的演算法都減弱了,不僅僅是賓夕法尼亞大學醫學中心的演算法。“許多機構沒有例行監控其產品的效能,”Parikh 說。
演算法故障是計算機科學家和醫生長期以來承認,但醫院管理者和研究人員開始感到困惑的困境的一個方面:人工智慧系統需要持續的監控和人員配置才能部署並保持良好執行。
本質上:您需要人員和更多機器來確保新工具不會出錯。
“每個人都認為人工智慧將幫助我們提高可及性和容量,並改善護理等等,”斯坦福大學醫療保健首席資料科學家 Nigam Shah 說。“所有這些都很好,但是如果它使護理成本增加 20%,那是否可行?”
政府官員擔心醫院缺乏資源來全面測試這些技術。“我已經廣泛考察過了,”FDA 局長 Robert Califf 在最近一次關於人工智慧的機構小組會議上說。“我不相信美國有一個單一的醫療系統有能力驗證臨床護理系統中部署的人工智慧演算法。”
人工智慧已在醫療保健領域廣泛應用。演算法用於預測患者的死亡或病情惡化風險、建議診斷或分診患者、記錄和總結就診情況以節省醫生工作,以及批准保險索賠。
如果技術福音傳道者是對的,這項技術將變得無處不在——並且有利可圖。投資公司 Bessemer Venture Partners 已經確定了大約 20 家專注於健康的 AI 初創公司,有望在一年內實現 1000 萬美元的收入。FDA 已經批准了近一千種人工智慧產品。
評估這些產品是否有效具有挑戰性。評估它們是否繼續有效——或者是否已經開發出軟體等同於墊圈 blown 或發動機洩漏——則更棘手。
以耶魯大學醫學院最近一項評估六種“早期預警系統”的研究為例,這些系統在患者可能迅速惡化時提醒臨床醫生。芝加哥大學的醫生 Dana Edelson 說,一臺超級計算機運行了幾天的資料,她也是一家為該研究提供一種演算法的公司的聯合創始人。這個過程富有成果,顯示了這六種產品在效能方面的巨大差異。
醫院和供應商不容易為他們的需求選擇最佳演算法。普通醫生沒有超級計算機,也沒有人工智慧的《消費者報告》。
美國醫學協會前任主席 Jesse Ehrenfeld 說:“我們沒有標準。” “今天我無法向您指出任何關於如何評估、監控、檢視演算法模型(無論是否啟用人工智慧)在部署時的效能的標準。”
醫生辦公室裡最常見的人工智慧產品可能是環境文件,這是一種技術支援的助手,可以傾聽和總結患者就診情況。去年,Rock Health 的投資者追蹤到 3.53 億美元流入這些文件公司。但是,Ehrenfeld 說,“目前還沒有比較這些工具輸出的標準。”
當即使是小錯誤也可能造成毀滅性影響時,這就是一個問題。斯坦福大學的一個團隊嘗試使用大型語言模型——ChatGPT 等流行的 AI 工具背後的技術——來總結患者的病史。他們將結果與醫生會寫的內容進行了比較。
斯坦福大學的 Shah 說:“即使在最好的情況下,模型的錯誤率也達到了 35%。” 在醫學領域,“當您編寫摘要並忘記一個詞,比如‘發燒’——我的意思是,那是個問題,對吧?”
有時演算法失敗的原因相當合乎邏輯。例如,基礎資料的更改可能會削弱其有效性,例如當醫院更換實驗室供應商時。
然而,有時,即使沒有明顯的原因,陷阱也會張開。
波士頓麻省總醫院布萊根婦女醫院個性化醫療計劃的技術主管 Sandy Aronson 說,當他的團隊測試一個旨在幫助遺傳諮詢師查詢有關 DNA 變異的相關文獻的應用程式時,該產品遭受了“非確定性”——也就是說,在短時間內多次詢問同一個問題時,它給出了不同的結果。
Aronson 對大型語言模型在為負擔過重的遺傳諮詢師總結知識方面的潛力感到興奮,但“這項技術需要改進。”
如果指標和標準稀少,並且錯誤可能會因奇怪的原因而出現,那麼機構應該怎麼做?投入大量資源。Shah 說,在斯坦福大學,僅稽核兩個模型的公平性和可靠性就花費了 8 到 10 個月和 115 個工時。
接受 KFF Health News 採訪的專家提出了人工智慧監控人工智慧的想法,並由一些(人類)資料專家監控兩者。所有人都承認,這將要求組織花費更多的錢——考慮到醫院預算的現實和人工智慧技術專家的有限供應,這是一個艱難的要求。
“有一個願景,我們正在融化冰山,以便讓模型監控他們的模型,這很棒,”Shah 說。“但這真的是我想要的嗎?我們還需要多少人?”
KFF Health News,前身為 Kaiser Health News (KHN),是一個全國性的新聞編輯室,製作關於健康問題的深度新聞報道,並且是 KFF 的核心運營專案之一——KFF 是健康政策研究、民意調查和新聞報道的獨立來源。
