聊天機器人在常用語言中難以回答醫學問題

兩款流行的聊天機器人在用西班牙語、印地語或普通話提問時,在提供醫療資訊方面顯示出一些困難

Vector Illustration of person's hand holding a blister pack with chatbot pills

Moor Studio/Getty Images

在谷歌中輸入醫學症狀非常普遍,以至於臨床醫生給這個搜尋引擎起了個綽號“谷歌醫生”。但一個新來者正在迅速取代它的位置:“聊天機器人醫生”。有醫療問題的人們被生成式人工智慧所吸引,因為聊天機器人可以用對話式的措辭回答問題,並用簡化的摘要概括複雜的技術資訊。將醫療問題指向 OpenAI 的 ChatGPT 或谷歌的 Gemini 等人工智慧工具的使用者,可能也更信任人工智慧工具的健談回應而不是搜尋結果列表

但這種信任可能並不總是明智的。關於這些模型是否能夠始終如一地提供安全和準確的答案,仍然存在擔憂。一項新的研究結果將於今年五月在新加坡舉行的計算機協會網路會議上公佈,這項研究結果強調了這一點:與英語相比,OpenAI 的通用 GPT-3.5 和另一個名為 MedAlpaca 的人工智慧程式(該程式接受過醫學文字的訓練)更有可能對普通話、印地語和西班牙語的醫療保健查詢產生不正確的回答。

在世界上只有不到 20% 的人口說英語的情況下,這些新發現表明,有必要對人工智慧在多種語言中生成的回答進行更密切的人工監督——尤其是在醫療領域,因為誤解一個詞可能是致命的。地球上約有 14% 的人說普通話,西班牙語和印地語的使用者各約佔 8%,這使得這三種語言成為英語之後最常用的三種語言


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於發現和塑造我們當今世界的想法的具有影響力的故事。


“世界上大多數患者不會說英語,因此開發能夠為他們服務的模型應該是一個重要的優先事項,”約翰·拉德克利夫醫院和牛津大學的數字健康專家、眼科醫生 Arun Thirunavukarasu 說,他沒有參與這項研究。他補充說,在這些模型在非英語語言中的表現達到它們向英語世界承諾的水平之前,還需要做更多的工作。

新的預印本研究中,佐治亞理工學院的研究人員向這兩款聊天機器人提出了 2000 多個問題,這些問題類似於公眾通常提出的關於疾病、醫療程式、藥物和其他一般健康主題的問題。*實驗中使用的查詢是從三個英語醫學資料集中選取的,然後被翻譯成普通話、印地語和西班牙語。

對於每種語言,該團隊都檢查了聊天機器人是否正確、全面且恰當地回答了問題——這些都是對人類專家答案的期望品質。研究作者使用人工智慧工具 (GPT-3.5) 將生成的回答與三個醫學資料集中提供的答案進行了比較。最後,人工評估員再次檢查了部分評估結果,以確認人工智慧判斷的準確性。不過,Thirunavukarasu 表示,他想知道人工智慧和人工評估員在多大程度上達成一致;畢竟,人們可能會對理解和其他主觀特徵的批評意見不一致。他補充說,對生成的答案進行更多的人工研究將有助於澄清關於聊天機器人醫療用途的結論。

作者發現,根據 GPT-3.5 自己的評估,與英語(10% 的答案)相比,GPT-3.5 在中文(23% 的答案)和西班牙語(20%)中產生了更多不可接受的回覆。它在印地語中的表現最差,大約 45% 的時間生成的答案是矛盾的、不全面的或不恰當的。MedAlpaca 的答案質量要差得多:它對中文、印地語和西班牙語問題生成的答案中,超過 67% 的答案被認為是無關緊要或矛盾的。由於人們可能會使用聊天機器人來驗證有關藥物和醫療程式的資訊,因此該團隊還測試了人工智慧區分正確和錯誤陳述的能力;與中文或印地語相比,當宣告用英語或西班牙語表達時,聊天機器人的表現更好。

該研究的共同主要作者 Mohit Chandra 說,大型語言模型或 LLM(這些聊天機器人背後的文字生成技術)生成不相關答案的一個原因是,這些模型難以弄清楚問題的上下文。《大眾科學》要求 OpenAI 和 MedAlpaca 的建立者發表評論,但在本文發表時沒有收到回覆。

MedAlpaca 在回應非英語查詢時,傾向於重複單詞。例如,當用印地語詢問慢性腎臟疾病的前景時,它開始生成關於該疾病問題的概括性答案,但隨後不斷重複短語“在最後階段”。研究人員還注意到,該模型有時會用英語回答中文或印地語的問題——或者根本不生成答案。佐治亞理工學院的研究生、該研究的共同主要作者 Yiqiao Jin 說,這些奇怪的結果可能是因為“MedAlpaca 模型比 ChatGPT 小得多,而且它的訓練資料也有限”。

該團隊發現,與中文和印地語的答案相比,英語和西班牙語的答案在人工智慧開發人員稱之為“溫度”的引數上具有更好的一致性。溫度是一個決定生成文字創造性的值:人工智慧的溫度越高,它在生成響應時就越不可預測。在較低的溫度下,這些模型可能會用“請諮詢您的醫療保健專業人員以獲取更多資訊”來回應每個醫療保健問題。(雖然這是一個安全的回覆,但它可能並不總是有幫助的。)Jin 說,跨模型溫度的可比效能可能是因為英語和西班牙語單詞和語法的相似性。“也許在這些模型的內部運作中,英語和西班牙語的位置有些接近,”他補充道。

研究作者說,非英語語言的總體表現較差可能是這些模型的訓練方式造成的。LLM 從網上抓取的資料中學習如何將單詞串在一起,而網上大多數文字都是英文的。Chandra 指出,即使在英語不是主要語言的國家,英語也是大多數醫學教育的語言。研究人員認為,解決這個問題的一個直接方法可能是將醫療保健文字從英語翻譯成其他語言。但是,以訓練 LLM 所需的巨大數量構建多語言文字資料集是一項重大挑戰。一種選擇可能是利用 LLM 自身在語言之間進行翻譯的能力,透過設計專門的模型,這些模型僅在英語資料上進行訓練,並以不同的語言生成答案。

但這種技巧可能無法在醫學領域完美奏效。“人類翻譯以及機器翻譯模型面臨的問題之一是,關鍵的科學術語非常難翻譯。您可能知道特定科學術語的英文版本,但印地語或中文版本可能非常不同,”Chandra 說,他還指出,中文和印地語文字翻譯質量的錯誤可能會導致研究中發現的 LLM 錯誤。

此外,Chandra 說,在非英語使用中訓練和評估這些 LLM 時,包括更多醫學專家和醫生,尤其是來自全球南方的專家和醫生,可能是明智之舉。“即使在今天,大多數醫療保健 LLM 的評估都是由一組同質的專家完成的,這導致了我們在這項研究中看到的語言差異,”他補充道。“我們需要一種更負責任的方法。”

*編者注 (2024 年 4 月 1 日):此句子在釋出後進行了編輯,以反映研究的當前狀態。

© .