人工智慧正 стремительно 進入患者護理領域——並可能 повысить 風險

人工智慧系統不像其他醫療裝置那樣經過嚴格測試,並且已經犯下 серьезные 錯誤


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。透過購買訂閱,您將幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事能夠擁有未來。


人工智慧或 AI 驅動的健康產品正湧入我們的生活,從虛擬醫生應用程式可穿戴感測器藥店聊天機器人

IBM 誇口說其 AI 可以“超越癌症的思考能力。” 其他人則表示,閱讀 X 射線片的計算機系統將使放射科醫生過時。

“在我研究醫學 30 多年的時間裡,我沒有見過任何像 AI 這樣具有影響力和變革性的東西,”加利福尼亞州拉霍亞斯克裡普斯研究所的心臟病專家兼執行副總裁埃裡克·託波爾說。 AI 可以幫助醫生解讀心臟核磁共振成像頭部 CT 掃描照片眼底,並有可能接管許多平凡的醫療雜務,讓醫生有更多時間與患者交談,託波爾說。

甚至美國食品和藥物管理局——在過去五年中批准了超過 40 種人工智慧產品——也表示“數字健康的潛力簡直是革命性的。”

然而,許多健康產業專家擔心,基於 AI 的產品將無法達到宣傳的高度。許多醫生消費者權益倡導者擔心,科技行業奉行“快速失敗,稍後修復”的信條,將患者置於風險之中——並且監管機構在保護消費者安全方面做得不夠。

斯坦福大學生物醫學倫理中心兒科教授米爾德里德·喬說,AI 的早期實驗提供了謹慎的理由。

喬說,在一個醫院開發的系統在部署到另一個機構時經常失敗。 用於數百萬美國人護理的軟體已被證明歧視少數族裔。 人工智慧系統有時會學習根據與疾病關係較小的因素進行預測,例如使用的 核磁共振機器品牌血液檢測時間或者患者是否被 牧師探望過。 在一個案例中,人工智慧軟體錯誤地得出結論,患有肺炎的人如果患有哮喘,死亡的可能性較低,這是一個可能導致醫生剝奪哮喘患者所需額外護理的錯誤。

克利夫蘭診所心臟病學主席史蒂文·尼森說:“這種情況導致嚴重的健康問題只是時間問題。”

研究公司 Gartner 7 月份的一份報告總結說,僅在第三季度就吸引了 16 億美元風險投資的醫療 AI “幾乎處於過高期望的頂峰”。 “隨著現實受到考驗,可能會出現一個艱難的滑坡,陷入幻滅的低谷。”

當 AI 產品被引入現實世界時,現實檢驗可能會以令人失望的結果的形式出現。 即使是《深度醫學:人工智慧如何使醫療保健重煥人性》一書的作者託波爾也承認,許多 AI 產品只不過是誇大其詞。“這是一個混合體,”他說。

風險投資公司 Venrock 的合夥人鮑勃·科赫等專家更加直言不諱。“大多數 AI 產品都幾乎沒有證據支援,”科赫說。 一些風險在 AI 系統被大量患者使用之前不會變得明顯。“我們將不斷發現將 AI 應用於醫療資料所帶來的一系列風險和意想不到的後果,”科赫說。

託波爾說,美國銷售的所有 AI 產品都沒有在隨機臨床試驗中進行過測試,而隨機臨床試驗是醫學證據的最有力來源。 在 10 月線上發表的第一個也是唯一一個 AI 系統的隨機試驗——該試驗發現,與標準結腸鏡檢查相比,計算機輔助診斷的結腸鏡檢查發現了更多的小息肉。

根據《歐洲臨床研究雜誌》1 月份的一篇文章,很少有科技初創公司在同行評審期刊上發表他們的研究,同行評審期刊允許其他科學家仔細審查他們的工作。 這種“隱形研究”——僅在新聞稿或宣傳活動中描述——常常誇大公司的成就。

儘管軟體開發人員可能會吹噓其 AI 裝置的準確性,但專家指出,AI 模型主要在計算機上進行測試,而不是在醫院或其他醫療機構中進行測試。 斯坦福醫療保健公司 AI 臨床整合醫療資訊主任羅恩·李說,使用未經證實的軟體“可能會使患者成為不知情的豚鼠”。

學習識別資料模式的 AI 系統通常被描述為“黑匣子”,因為即使是它們的開發人員也不知道它們是如何得出結論的。 威斯康星大學麥迪遜分校法律和生物倫理學教授皮拉爾·奧索里奧說,鑑於 AI 是如此新穎——而且其許多風險尚不為人所知——該領域需要仔細的監督

然而,大多數 AI 裝置不需要 FDA 批准。

科赫說:“我投資的公司中,沒有一家受 FDA 法規的約束。”

2016 年國會透過的立法——並受到科技行業的擁護——豁免了許多型別的醫療軟體的聯邦審查,包括某些健身應用程式、電子健康記錄和幫助醫生做出醫療決策的工具。

根據 美國國家醫學院 12 月 17 日釋出的一份關於 AI 的報告,關於目前使用的 320,000 個醫療應用程式是否真的能改善健康,研究甚少

賓夕法尼亞大學佩雷爾曼醫學院醫學倫理學和健康政策教授以西結·伊曼紐爾說:“幾乎沒有[AI]產品是真正面向患者的。”

FDA 長期以來一直關注對患者構成最大威脅的裝置。 消費者權益倡導者承認,某些裝置——例如幫助人們計算每日步數的裝置——比診斷或治療疾病的裝置需要更少的審查。

根據 2018 年《內科學年鑑》上的一項研究,即使在法律要求的情況下,一些軟體開發人員也不願意申請 FDA 批准或授權。

行業分析師表示,AI 開發人員對進行昂貴且耗時的試驗興趣不大。 技術諮詢公司 Booz Allen Hamilton 的負責人,以及國家科學院報告的合著者約阿希姆·羅斯基說:“讓這些公司接受將在同行評審期刊上發表的嚴格評估,並不是這些公司的主要關注點。” “美國的經濟運作方式不是這樣的。”

但西雅圖艾倫人工智慧研究所執行長奧倫·埃齊奧尼表示,AI 開發人員有經濟動機來確保其醫療產品的安全。

埃齊奧尼說:“如果快速失敗意味著一大群人會死亡,我認為我們不希望快速失敗。” “如果有人死亡或受到重傷,包括投資者在內,沒有人會高興。”

FDA 放鬆 AI 標準

近年來,FDA 因允許銷售危險醫療裝置而受到抨擊,國際調查記者同盟已將這些裝置與過去十年中 80,000 人死亡和 170 萬人受傷聯絡起來。

這些裝置中的許多裝置都是透過一個有爭議的流程(稱為 510(k) 通道)獲得批准使用的,該流程允許公司在沒有臨床測試的情況下銷售“中等風險”產品,只要這些產品被認為與現有裝置相似即可。
2011 年,美國國家醫學院的一個委員會得出結論,510(k) 流程存在根本性缺陷,FDA 應該廢棄它並重新開始。

相反,FDA 正在使用該流程來批准 AI 裝置。

根據 JAMA 11 月份的一篇文章,在 2017 年和 2018 年獲得 FDA 授權的 14 種 AI 產品中,有 11 種是透過 510(k) 流程獲得批准的。 該研究稱,這些產品似乎都沒有進行新的臨床測試。 FDA 在 2018 年批准了一種 AI 裝置,旨在幫助診斷肝癌和肺癌,原因是它與 20 年前批准的 成像軟體 相似。 該軟體本身獲得批准是因為它被認為與 1976 年之前銷售的產品“基本等效”。

FDA 數字健康中心裝置和放射健康部門主任巴庫爾·帕特爾說,今天 FDA 批准的 AI 產品在很大程度上是“鎖定的”,因此它們的計算和結果在進入市場後不會發生變化。 FDA 尚未批准“未鎖定”的 AI 裝置,其結果可能會逐月變化,而開發人員無法預測。

為了應對 AI 產品的湧入,FDA 正在測試一種截然不同的數字裝置監管方法,重點是評估公司,而不是產品。

FDA 的試點“預認證”計劃於 2017 年啟動,旨在“減少軟體開發人員的市場準入時間和成本”,實施“最不繁重”的系統。 FDA 官員表示,他們希望與 AI 軟體開發人員保持同步,後者更新其產品的頻率遠高於 X 射線機等傳統裝置的製造商。

斯科特·戈特利布在 2017 年擔任 FDA 局長時表示,政府監管機構需要確保其創新產品方法“高效,並且能夠促進創新,而不是阻礙創新。”

根據該計劃,FDA 將對“展示質量文化和卓越組織”的公司進行預認證,這將允許他們提供關於裝置的較少的前期資料

然後,經過預認證的公司可以釋出具有“簡化”審查或根本無需 FDA 審查的裝置。 一旦產品上市,公司將負責監控自己產品的安全性並向 FDA 報告。九家公司已被選中參加試點計劃:蘋果、FitBit、三星、強生、Pear Therapeutics、Phosphorus、羅氏、Tidepool 和 Verily Life Sciences。

高風險產品,例如起搏器中使用的軟體,仍將接受全面的 FDA 評估。 帕特爾說:“我們絕對不希望患者受到傷害”,他指出,透過預認證批准的裝置可以在需要時召回。“仍然有很多保障措施到位。”

但國家健康研究中心主席戴安娜·祖克曼說,研究表明,即使是低風險和中等風險的裝置也因對患者造成嚴重風險而被召回。 “人們可能會因某些東西在使用前未被要求證明是準確或安全的而受到傷害。”

例如,強生公司召回了髖關節植入物手術網片

致 FDA 的一系列信函中,美國醫學會和其他機構質疑允許公司監控自己的績效和產品安全的明智性。

該醫生團體的董事會主席傑西·埃倫菲爾德說:“榮譽制度不是監管制度。”
10 月份致 FDA 的信函中,參議員伊麗莎白·沃倫(馬薩諸塞州民主黨)、蒂娜·史密斯(明尼蘇達州民主黨)和帕蒂·默裡(華盛頓州民主黨)質疑該機構確保公司安全報告“準確、及時且基於所有可用資訊”的能力。

當好的演算法變壞時

一些 AI 裝置比其他裝置經過更仔細的測試。

一種用於糖尿病眼病的人工智慧驅動篩查工具在 10 個初級保健診所的 900 名患者中進行了研究,然後於 2018 年獲得批准。 製造商 IDx Technologies 與 FDA 合作了八年,以使產品達到正確狀態,該公司創始人兼執行董事長邁克爾·阿布拉莫夫說。

該測試以 IDx-DR 的名義銷售,篩查患者是否患有糖尿病視網膜病變(一種主要的致盲原因),並將高危患者轉診給眼科專家,由眼科專家做出明確診斷。

IDx-DR 是第一個“自主”AI 產品——一種無需醫生即可做出篩查決定的產品。 該公司目前正在初級保健診所和雜貨店安裝該產品,在那裡,受過高中教育的員工即可操作該產品。 阿布拉莫夫的公司已採取不同尋常的措施,購買了責任保險,以承保任何患者傷害。

然而,一些旨在改善護理的基於 AI 的創新卻產生了相反的效果。

例如,一家加拿大公司開發了 AI 軟體,根據一個人的言語來預測其患阿爾茨海默病的風險。 對於某些患者,預測比其他患者更準確。 多倫多大學計算機科學副教授弗蘭克·魯德齊克說:“找不到合適的詞語可能是因為不熟悉英語,而不是認知障礙。”

紐約西奈山醫院的醫生希望 AI 可以幫助他們使用胸部 X 射線片來預測哪些患者患肺炎的風險較高。 儘管該系統根據在西奈山拍攝的 X 射線片做出了準確的預測,但在其他醫院拍攝的影像上進行測試時,該技術卻失敗了。 最終,研究人員意識到,計算機僅僅學會了區分該醫院的行動式胸部 X 射線片(在患者床邊拍攝)與放射科拍攝的胸部 X 射線片。 醫生傾向於對病情嚴重到無法離開房間的患者使用行動式胸部 X 射線片,因此這些患者患肺部感染的風險更高也就不足為奇了。

谷歌旗下公司 DeepMind 開發了一款基於 AI 的移動應用程式,可以提前 48 小時預測哪些住院患者將發展為急性腎功能衰竭DeepMind 網站上的一篇博文將該系統描述為“遊戲規則改變者”,該系統已在倫敦一家醫院使用。 但是,根據 7 月份《自然》雜誌上的一項研究,AI 系統還為每個正確結果產生了兩次誤報Saurabh Jha是賓夕法尼亞大學醫院放射學副教授,他說,這或許可以解釋為什麼患者的腎功能沒有改善。 Jha 說,早期發現嚴重腎臟問題可能帶來的任何好處都可能被高“過度診斷率”所沖淡,在這種情況下,AI 系統標記了不需要治療的臨界腎臟問題。 谷歌對 Jha 的結論未予置評。

Jha 說,假陽性會促使醫生開出不必要的檢查或拒絕推薦的治療方法,從而損害患者。 例如,擔心患者腎臟的醫生可能會停止開具布洛芬(一種通常安全的止痛藥,對腎功能有輕微風險),而轉而開具阿片類藥物,阿片類藥物會帶來嚴重的成癮風險。

正如這些研究表明的那樣,斯坦福大學的喬說,在計算機實驗室中取得令人印象深刻的結果的軟體在即時測試時可能會失敗。 這是因為疾病比許多計算機科學家預期的要複雜得多,而醫療保健系統也遠比他們預期的要失調得多。

喬說,許多 AI 開發人員梳理電子健康記錄,因為它們包含大量詳細資料。 但這些開發人員通常沒有意識到他們正在一個嚴重損壞的系統之上構建。 電子健康記錄是為計費而非患者護理而開發的,並且充滿了錯誤或資料缺失

KHN 的一項調查(於 3 月份釋出)發現,患者的用藥清單、實驗室檢查和過敏症中有時存在危及生命的錯誤。

考慮到所涉及的風險,倡導更廣泛地獲得醫療保健的非營利組織 Lown Institute 的心臟病專家兼總裁維卡斯·賽尼說,醫生需要介入以保護患者的利益。

賽尼說:“雖然企業家的工作是放眼長遠、承擔風險,但醫生的工作是保護他們的患者。”

凱撒健康新聞 (KHN) 是一家報道健康問題的非營利新聞服務機構。 它是凱撒家庭基金會的一個編輯上獨立的計劃,與凱撒永久醫療集團無關。

Liz Szabo 是一位資深的健康和科學記者,曾在今日美國和其他新聞編輯室工作過。

更多作者:Liz Szabo

KFF 健康新聞,前身為凱撒健康新聞 (KHN),是一個全國性新聞編輯部,負責製作關於健康問題的深度新聞報道,並且是 KFF 的核心運營計劃之一——KFF 是健康政策研究、民意調查和新聞報道的獨立來源。

更多作者:KFF 健康新聞
© .