AI 聊天機器人可以在家診斷疾病。 它們有多好?

隨著越來越多的人轉向基於聊天的 AI 尋求醫療建議,這些工具與人類醫生相比如何,或者如何能補充人類醫生,仍有待觀察

A conceptual illustration of a human and smart phone with medical icons.

耶魯大學的神經學家和倫理學家 Benjamin Tolchin 已經習慣於看到在他接診前在網際網路上搜索症狀的患者——醫生長期以來一直試圖勸阻這種做法。“谷歌醫生”以缺乏背景知識和容易引用不可靠來源而臭名昭著。

但近幾個月來,Tolchin 開始看到一些患者正在使用一種新的、更強大的工具進行自我診斷:人工智慧聊天機器人,例如 OpenAI 的 ChatGPT、最新版本的微軟搜尋引擎 Bing(基於 OpenAI 的軟體)和谷歌的 Med-PaLM。這些大型語言模型 (LLM) 在網際網路上的文字上進行訓練,預測序列中的下一個詞,以類似人類的風格回答問題。面對醫療保健工作者嚴重短缺的問題,研究人員和醫療專業人員希望機器人能夠介入,幫助回答人們的問題。研究人員的初步測試表明,這些 AI 程式比谷歌搜尋準確得多。一些研究人員預測,在一年之內,一家大型醫療中心將宣佈一項合作,使用 LLM 聊天機器人與患者互動並診斷疾病。

ChatGPT 僅在去年 11 月釋出,但 Tolchin 說,至少有兩位患者已經告訴他,他們使用它來自我診斷症狀或查詢藥物的副作用。他說,答案是合理的。“就未來的潛力而言,這非常令人印象深刻,非常令人鼓舞,”他補充道。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您將有助於確保未來能夠繼續報道關於發現和塑造我們當今世界的想法的具有影響力的故事。


儘管如此,Tolchin 和其他人擔心聊天機器人存在許多缺陷,包括它們提供的資訊的準確性不確定、隱私威脅以及演算法從中提取文字中固有的種族和性別偏見。他還質疑人們將如何解讀這些資訊。Tolchin 說,與簡單的谷歌搜尋或症狀檢查器相比,現在存在一種新的潛在危害。

AI 輔助診斷

近年來,醫療實踐越來越多地轉向線上。在 COVID 大流行期間,患者透過數字入口網站向醫生髮送的訊息數量增加了 50% 以上。許多醫療系統已經使用更簡單的聊天機器人來執行諸如安排預約和向人們提供一般健康資訊等任務。“這是一個複雜的領域,因為它發展得如此迅速,”紐約大學研究醫學 AI 的醫學生 Nina Singh 說。

但是,博覽群書的 LLM 聊天機器人可能會將醫生與 AI 的協作——甚至診斷——提升到一個新的水平。在 2 月份釋出在預印本伺服器 medRxiv 上的一項尚未經過同行評審的研究中,哈佛大學的流行病學家 Andrew Beam 和他的同事編寫了 48 個提示,措辭為患者症狀的描述。當他們將這些提示輸入到 OpenAI 的 GPT-3(當時為 ChatGPT 提供支援的演算法版本)時,LLM 對每個案例的前三個潛在診斷中都包含了正確的診斷,準確率達到 88%。相比之下,醫生在獲得相同的提示時可以做到 96% 的準確率,而沒有醫學培訓的人則可以做到 54% 的準確率。

“這些自動完成的東西能夠如此出色地進行症狀檢查,這讓我感到非常驚訝,”Beam 說。之前的研究發現,線上症狀檢查器——幫助患者進行自我診斷的計算機演算法——在前三個可能性中僅產生 51% 的正確診斷。

聊天機器人也比線上症狀檢查器更容易使用,因為人們可以簡單地描述他們的體驗,而不是將其硬塞到計算疾病統計可能性的程式中。“人們關注 AI,但突破是介面——即英語,”Beam 說。此外,機器人可以像醫生一樣,向患者詢問後續問題。不過,他承認研究中的症狀描述是經過仔細編寫的,並且只有一個正確的診斷——如果患者的描述措辭不當或缺乏關鍵資訊,準確率可能會降低。

解決 AI 的缺陷

Beam 擔心 LLM 聊天機器人可能容易受到錯誤資訊的影響。它們的演算法根據線上文字中出現的可能性來預測系列中的下一個詞,這可能會對來自美國疾病控制與預防中心的資訊和 Facebook 上的隨機帖子賦予同等權重。OpenAI 的一位發言人告訴大眾科學,該公司對其模型進行“預訓練”以確保其回答符合使用者的意圖,但她沒有詳細說明是否對某些來源賦予更多權重。* 她補充說,各個高風險領域的專業人士幫助 GPT-4 避免了“幻覺”,即模型透過建立不存在的新資訊來猜測答案的響應。由於這種風險,該公司包含免責宣告,宣告 ChatGPT 不應用於診斷嚴重疾病、提供有關如何治癒疾病或管理危及生命的問題的說明。

儘管 ChatGPT 僅在 2021 年 9 月之前可用的資訊上進行訓練,但例如,一心想傳播有關疫苗的虛假資訊的人可能會在網際網路上充斥旨在在未來被 LLM 拾取的內容。谷歌的聊天機器人會繼續從網際網路上的新內容中學習。“我們預計這將是試圖引導對話的新戰線之一,”紐約大學的計算機工程師 Oded Nov 說。

強制聊天機器人鏈接到其來源(如微軟的 Bing 引擎所做的那樣)可能提供一種解決方案。儘管如此,許多研究和使用者體驗表明,LLM 可能會產生不存在的來源,並將其格式化為看起來像可靠的引文。確定引用的來源是否合法將給使用者帶來沉重的負擔。其他解決方案可能包括 LLM 開發人員控制機器人提取的來源,或由事實核查人員大軍手動處理他們看到的虛假資訊,這將阻止機器人將來給出這些答案。然而,這對於 AI 生成內容的數量來說很難擴充套件。

谷歌正在對其 LLM 聊天機器人 Med-PaLM 採取不同的方法,該機器人從患者和提供者的真實問題和答案以及儲存在各種資料庫中的醫療執照考試的大型資料集中提取資訊。當谷歌的研究人員在一個預印本研究中測試 Med-PaLM 在不同“軸”上的表現時,包括與醫療共識的一致性、完整性和潛在危害,其答案與醫療和科學共識的吻合度為 92.6%。人類臨床醫生的總體得分率為 92.9%。與人類答案相比,聊天機器人的答案更可能缺少內容,但答案對使用者身心健康的危害可能性略低。

聊天機器人回答醫療問題的能力並沒有讓研究人員感到驚訝。早期版本的 MedPaLM 和 ChatGPT 都通過了美國醫療執照考試。但谷歌的臨床研究科學家兼 MedPaLM 研究的作者 Alan Karthikesalingam 表示,瞭解患者和提供者的問題和答案的實際情況使 AI 能夠從更廣闊的角度看待一個人的健康。“現實不是選擇題考試,”他說。“這是患者、提供者和社會背景之間微妙的平衡。”

LLM 聊天機器人進入醫療領域的速度之快讓一些研究人員感到擔憂——即使是那些對這項新技術的潛力感到興奮的人。“他們在監管機構趕上之前就部署了[這項技術],”麻省理工學院的計算機科學家 Marzyeh Ghassemi 說。

延續偏見和種族主義

Ghassemi 特別擔心聊天機器人會延續醫學界和整個網際網路上長期存在的種族主義、性別歧視和其他型別的偏見。“它們是在人類產生的資料上訓練的,因此它們具有人們可能想象到的各種偏見,”她說。例如,女性比男性更不可能被處方止痛藥,黑人比白人更可能被診斷出患有精神分裂症,而更不可能被診斷出患有抑鬱症——這是醫學教育和 AI 可以從其訓練中獲取的社會刻板印象偏見的遺蹟。在一項未發表的研究中,Beam 發現,當他詢問 ChatGPT 是否信任某人對其症狀的描述時,它不太可能信任某些種族和性別群體。OpenAI 在截稿前未就其如何或是否解決醫學中的這種偏見做出回應。

從網際網路上清除種族主義是不可能的,但 Ghassemi 說,開發人員或許能夠進行先發制人的審計,以檢視聊天機器人在哪裡給出有偏見的答案,並告訴它停止或識別其與使用者的對話中出現的常見偏見。

相反,答案可能在於人類心理學。當 Ghassemi 的團隊建立了一個“邪惡”的 LLM 聊天機器人,該機器人對關於急診醫學的問題給出了有偏見的答案時,他們發現,如果聊天機器人將其答案措辭為指示,醫生和非專業人士都更可能遵循其歧視性建議。當 AI 只是陳述資訊時,使用者不太可能表現出這種歧視。

Karthikesalingam 說,在谷歌培訓和評估 MedPaLM 的開發人員是多元化的,這可能有助於公司識別和解決聊天機器人中的偏見。但他補充說,解決偏見是一個持續的過程,這將取決於系統的使用方式。

確保 LLM 公平對待患者對於讓人們信任聊天機器人至關重要——這本身就是一個挑戰。例如,在谷歌搜尋中篩選答案是否比聊天機器人直接提供答案更能讓人們辨別是非,這是未知的。

Tolchin 擔心聊天機器人友好的舉止可能會導致人們過度信任它,並提供可能使他們面臨風險的個人身份資訊。“存在一定程度的信任和情感聯絡,”他說。根據 OpenAI 網站上的免責宣告,ChatGPT 會收集使用者的資訊,例如他們的位置和 IP 地址。Tolchin 說,新增看似無害的關於家庭成員或愛好的陳述可能會威脅到個人的隱私。

人們是否會容忍從聊天機器人而不是醫生那裡獲得醫療資訊,這一點也不清楚。今年 1 月,心理健康應用程式 Koko 允許志願者提供免費和保密建議,它嘗試使用 GPT-3 為大約 4,000 名使用者編寫鼓勵資訊。據 Koko 聯合創始人 Rob Morris 稱,機器人幫助志願者編寫資訊的速度遠快於他們自己撰寫資訊的速度。但是,一旦人們知道他們正在與機器人交談,這些資訊的效果就會降低,公司很快就停止了這項實驗。“模擬的同理心感覺很奇怪、空洞,”Morris 在一條推文中說。該實驗也引起了強烈反對,並引發了人們對其在未經使用者同意的情況下對人們進行實驗的擔憂。

皮尤研究中心最近進行的一項調查發現,大約 60% 的美國人“如果他們自己的醫療服務提供者依賴人工智慧來做諸如診斷疾病和推薦治療方案之類的事情,會感到不舒服”。然而,人們並不總是擅長區分機器人和人類——而且隨著技術的進步,這種模糊性只會增加。在最近的一項預印本研究中,Nov、Singh 和他們的同事設計了一個醫學圖靈測試,以檢視 430 名志願者是否可以區分 ChatGPT 和醫生。研究人員沒有指示 ChatGPT 特別有同情心或像醫生一樣說話。他們只是要求它用一定數量的詞語回答一組來自患者的 10 個預先確定的問題。志願者平均只有 65% 的時間正確識別出醫生和機器人。

紐約大學朗格尼健康中心的醫生兼資訊學研究員 Devin Mann 是該研究的作者之一,他懷疑志願者不僅注意到了人類措辭的特殊性,還注意到了答案的細節。AI 系統擁有無限的時間和耐心,可能會更緩慢、更完整地解釋事情,而忙碌的醫生可能會給出更簡潔的答案。他說,額外的背景和資訊可能非常適合某些患者。

研究人員還發現,使用者信任聊天機器人來回答簡單的問題。但是,問題越複雜——以及涉及的風險或複雜性越高——他們就越不願意信任聊天機器人的診斷。

Mann 說,AI 系統最終將管理一部分診斷和治療可能是不可避免的。他說,關鍵是人們知道,如果他們對聊天機器人不滿意,可以聯絡醫生。“他們希望有那個電話號碼可以撥打,以獲得更高層次的服務,”他說。

Mann 預測,一家大型醫療中心將很快宣佈推出一種有助於診斷疾病的 AI 聊天機器人。這種合作關係將引發一系列新問題:患者和保險公司是否會為此項服務付費,如何確保患者的資料受到保護,以及如果有人因聊天機器人的建議而受到傷害,誰將負責。“我們還在考慮下一步措施,以及如何培訓醫療保健提供者在 AI、醫生和患者之間的三方互動中發揮自己的作用,”Nov 說。

與此同時,研究人員希望推廣速度會放緩——或許暫時僅限於臨床研究,同時開發人員和醫學專家解決缺陷。但 Tolchin 發現一件事令人鼓舞:“當我測試它時,我很高興看到它相當一致地建議由醫生進行評估,”他說。

本文是關於醫學中生成式 AI 的系列文章的一部分。

*編者注(2023 年 4 月 3 日):此句已更新,以澄清 OpenAI 如何預訓練其聊天機器人模型以提供更可靠的答案。

© .