人工智慧在醫學領域被過度炒作

用於預測疾病的醫療保健人工智慧模型並不像報告可能暗示的那樣準確。以下是原因

Programming code with abstract technical background in blue

我們每天都在使用依賴於人工智慧 (AI) 的工具,其中像 Alexa 和 Siri 這樣的語音助手是最常見的。這些消費產品執行得相當好——Siri 大部分時候都能理解我們說的話——但它們絕非完美。我們接受它們的侷限性,並調整我們使用它們的方式,直到它們給出正確的答案,或者我們放棄。畢竟,Siri 或 Alexa 誤解使用者請求的後果通常是輕微的。

然而,支援醫生臨床決策的人工智慧模型的錯誤可能意味著生死攸關。因此,在我們部署這些模型之前,至關重要的是我們要了解這些模型的工作效果如何。目前已發表的關於這項技術的報告對其準確性描繪了一幅過於樂觀的圖景,這有時會轉化為媒體上的聳人聽聞的故事。媒體充斥著關於演算法的討論,這些演算法可以以高達 74% 的準確率診斷早期阿爾茨海默病,或者比臨床醫生更準確。詳細描述這些進展的科學論文可能成為新公司、新投資和研究方向以及醫院系統大規模實施的基礎。在大多數情況下,該技術尚未準備好部署。

原因如下:當研究人員將資料輸入人工智慧模型時,模型有望變得更準確,或者至少不會變得更糟。然而,我們的工作其他人的工作已經發現了相反的情況,即已發表模型中報告的準確率隨著資料集規模的增加而降低。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們今天世界的發現和想法的具有影響力的故事的未來。


這種違反直覺的情況的原因在於科學家如何估計和報告模型的報告準確率。在最佳實踐下,研究人員在他們資料集的一部分上訓練他們的人工智慧模型,將剩餘部分儲存在“保險箱”中。然後,他們使用該“保留”資料來測試其模型的準確性。例如,假設正在開發一個人工智慧程式,透過分析痴呆症患者與非痴呆症患者的說話方式來區分他們。該模型使用訓練資料進行開發,訓練資料由口語樣本和痴呆症診斷標籤組成,以預測一個人是否從他們的言語中患有痴呆症。然後,針對相同型別的保留資料對其進行測試,以估計其執行的準確程度。然後,該準確率估計值在學術出版物中報告;保留資料的準確率越高,科學家們就認為該演算法的效能越好。

為什麼研究表明,報告的準確率會隨著資料集規模的增加而降低?理想情況下,在模型完成並固定之前,科學家永遠不會看到保留資料。然而,科學家可能會偷看資料,有時是無意中,並修改模型,直到它產生高準確率,這種現象被稱為資料洩露。透過使用保留資料來修改他們的模型,然後對其進行測試,研究人員實際上是在保證系統將正確預測保留資料,從而導致模型真實準確率的虛高估計。相反,他們需要使用新的資料集進行測試,以檢視模型是否真正在學習,並且可以檢視相當不熟悉的事物來得出正確的診斷。

雖然這些過於樂觀的準確率估計值發表在科學文獻中,但效能較低的模型卻被塞進了諺語中的“檔案抽屜”中,永遠不會被其他研究人員看到;或者,如果它們被提交出版,則不太可能被接受。資料洩露和發表偏倚的影響對於在小型資料集上訓練和評估的模型來說尤其巨大。也就是說,用小型資料集訓練的模型更有可能報告虛高的準確率估計值;因此,我們在已發表的文獻中看到了這種奇特的趨勢,即用小型資料集訓練的模型報告的準確率高於用大型資料集訓練的模型。

我們可以透過更嚴格地對待我們驗證模型的方式以及結果在文獻中的報告方式來防止這些問題。在確定人工智慧模型的開發對於特定應用是合乎道德的之後,演算法設計者應該問的第一個問題是“我們是否有足夠的資料來建模像人類健康這樣複雜的結構?” 如果答案是肯定的,那麼科學家應該花更多時間在模型的可靠評估上,而花更少時間試圖從模型中擠出每一盎司的“準確率”。模型的可靠驗證始於確保我們擁有代表性資料。人工智慧模型開發中最具挑戰性的問題是訓練和測試資料本身的設計。雖然消費者人工智慧公司會伺機收集資料,但臨床人工智慧模型由於風險較高,因此需要更加謹慎。演算法設計者應定期質疑用於訓練模型的資料的大小和組成,以確保它們代表了疾病表現範圍和使用者人口統計資料。所有資料集在某些方面都是不完美的。研究人員應力求瞭解用於訓練和評估模型的資料的侷限性,以及這些侷限性對模型效能的影響。

不幸的是,沒有可靠驗證臨床人工智慧模型的靈丹妙藥。每種工具和每個臨床人群都不同。為了獲得考慮到真實世界條件的令人滿意的驗證計劃,臨床醫生和患者需要儘早參與設計過程,並聽取食品和藥物管理局等利益相關者的意見。更廣泛的對話更有可能確保訓練資料集具有代表性;瞭解模型工作原理的引數是相關的;以及人工智慧告訴臨床醫生什麼是合適的。臨床研究中的可重複性危機可以吸取教訓,其中像預註冊和以患者為中心的研究策略被提議作為提高透明度和促進信任的手段。同樣,人工智慧模型設計的社會技術方法認識到,為臨床應用構建值得信賴和負責任的人工智慧模型不僅僅是一個技術問題。它需要深入瞭解潛在的臨床應用領域,認識到這些模型存在於更大的系統中,並瞭解如果模型效能在部署時下降可能造成的危害。

如果沒有這種整體方法,人工智慧炒作將繼續存在。這是不幸的,因為技術確實有可能改善臨床結果並將臨床覆蓋範圍擴充套件到服務欠缺的社群。採用更全面的方法來開發和測試臨床人工智慧模型將導致關於這些模型的工作效果及其侷限性的更細緻的討論。我們認為,這將最終使該技術充分發揮其潛力,並使人們從中受益。

作者感謝 Gautam Dasarathy、Pouria Saidi 和 Shira Hahn 就此主題進行的啟發性對話。他們幫助闡明瞭文章中討論的一些要點。

這是一篇觀點和分析文章,作者或作者表達的觀點不一定代表《大眾科學》的觀點。

Visar Berisha is an associate professor in the College of Engineering and the College of Health Solutions at Arizona State University and a co-founder of Aural Analytics. He is an expert in practical and theoretical machine learning and signal processing with applications to health care.

More by Visar Berisha

Julie Liss is a professor and associate dean in the College of Health Solutions at Arizona State University and co-founder of Aural Analytics. She is an expert on speech analytics in the context of neurological health and disease.

More by Julie Liss
© .