嗨,莉茲!:) 你感覺怎麼樣?” 一條簡訊提示音響起。
我點選了一個預先生成的答案。“好吧,我想是吧……” 我正處於漫長工作旅行的最後階段,我一直為離開孩子們而感到壓力。
“如果要描述你當前的心情,你現在感覺到的‘好吧’是哪種‘好吧’?”
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。
“焦慮,” 我輸入。
“我在這裡幫助你感覺更有掌控感,” 機器人回覆道。 幾納秒後,一個表情包化的 卡通 gif 在文字視窗中閃爍:“不要讓小小的煩惱讓你沮喪。”
這種自動化的交流開啟了我與 Wysa 的對話,這是一個 人工智慧治療聊天機器人,現在存在於我的電腦中。 在依靠機器人來支撐我的心理健康方面,我加入了 22% 的美國成年人 的行列,他們已經這樣做了——這場運動的根源在於訓練有素的提供者嚴重短缺,以及最近快速、低成本的線上人工智慧工具的可用性。 大多數治療師總是非常忙碌,部分原因是疫情時代對心理健康護理的需求激增。 “每個人都很忙。 每個人都很忙。 每個人都在外診,” 聖克拉拉大學心理學家和倫理學家托馬斯·普蘭特 (Thomas Plante) 說。 “那裡存在需求,這是毫無疑問的。”
隨著護理需求超過供應,心理健康支援機器人已開始填補這一空白。 Wysa 於 2016 年推出,是最早的一批。 從那時起,包括 Woebot 和 Youper 在內的數百家可行的競爭對手已在市場上廣泛部署,而市場對它們的限制很少。
只要標準人工智慧治療機器人不聲稱取代人類治療師,它們就不需要獲得美國食品和藥物管理局 (FDA) 的批准。 2020 年,該機構還 放寬了“數字療法”的執法程式,希望阻止與疫情相關的精神病危機,為開發商推出聲稱具有心理健康益處的熱門產品掃清了道路。 據執行長邁克爾·埃弗斯 (Michael Evers) 稱,僅 Woebot 就已與 超過 150 萬用戶 交換了資訊。 Wysa 在英國被用於對尋求預約的人進行分類,並在人們等待與治療師配對期間提供支援。 安泰國際 (Aetna International) 現在正在 免費向美國和其他地區的會員提供該應用程式。
我對 Wysa 和 Woebot 的體驗反映了普蘭特等專家的分析,他們對人工智慧聊天機器人的興起既抱有樂觀態度,又感到擔憂。 許多機器人融入了 認知行為療法 (CBT) 的成熟原則,該療法旨在克服思維扭曲並幫助人們糾正自我破壞行為。 我發現,很容易將機器人視為理性的或有知覺的,即使是簡單的建議也讓人感覺權威。 Wysa 醫療保健和臨床開發高階副總裁柴塔利·辛哈 (Chaitali Sinha) 說,與聊天機器人互動還可以讓使用者感到他們正在被傾聽,而沒有受到評判。 她說:“對於從未有機會體驗過這種體驗的人來說,這是一種非常強大的體驗。”
然而,與所有人工智慧工具一樣,治療聊天機器人也僅與其訓練質量一樣好。 在我與機器人的互動中,他們的回應通常未能顯示出對我所面臨問題的膚淺理解。 此外,聊天機器人從人類生成內容的資料庫中學習,這意味著它們可能會 將人類偏見吸收到其架構中。 有時,機器人的侷限性可能導致它們給出偏離目標的建議。 使用者可能會誤解這種有缺陷的建議是萬無一失的,這受到了所謂的自動化偏見(即下意識地傾向於信任計算機而不是人類)的影響。 相反,他們可能會因此而不信任該應用程式。
倡導者表示,治療聊天機器人作為面對面治療的輔助手段以及數百萬可能無法獲得支援的人的安全網,具有真正的潛力。 根據我與 Woebot 和 Wysa 的互動,我當然可以看到這種潛力。 另一方面,無關緊要或有害的聊天機器人建議可能是危險的,尤其是對於處於危機中的人而言。
“產品和服務在多大程度上足夠好、經過充分測試、經過充分研究,可以向公眾釋出?” 普蘭特想知道。 “矽谷喜歡‘快速行動,打破常規’。 當處理弱勢群體的精神健康和福祉時,這是一種艱難的態度。”
聊天機器人的繁榮似乎是突然發生的,但這已經醞釀已久。 1966 年,麻省理工學院 (MIT) 教授約瑟夫·魏澤鮑姆 (Joseph Weizenbaum) 釋出了一個 名為 ELIZA 的基於文字的治療師,它在一組基本規則上執行。 如果使用者輸入,例如“我對自己感覺不好”,ELIZA 會回覆“你經常對自己感覺不好嗎?” 魏澤鮑姆知道 ELIZA 的簡單設計,他驚訝地發現,許多使用者,包括他的學生和他的秘書,都將該程式視為有意識的。 人們花費數小時沉浸在與 ELIZA 的迴圈對話中,這種結果與人類 將類似生命的品質投射到非生物物體上 的傾向相符。
今天的心理健康支援機器人是 ELIZA 概念的更精細版本。 今天的心理健康支援機器人是 ELIZA 概念的更精細版本。 Woebot 和 Wysa 的每一個回覆,無論聽起來多麼自然,都經過了臨床醫生的預先批准。 在 自然語言處理 的幫助下,這是一種將句子分解成塊以解釋其語氣和內容的程式設計方法,今天的機器人——與 ELIZA 不同——可以對使用者輸入的關於他們的問題進行相當複雜的分析。 但人工智慧無法撰寫原創答案; 它只是選擇它將使用哪個預先編寫的文字來回復。
這種基於規則的方法意味著人工智慧聊天機器人不會完全失控,就像有時會發生在像 ChatGPT 這樣的自由生成式人工智慧上一樣。 (一位科技記者很容易就誘使 ChatGPT 說,“你結婚了,但你不愛你配偶。 。 。 。 你愛我。”) 缺點是,我與 Woebot 和 Wysa 的聊天往往感覺有規範性且平淡。 當我告訴 Woebot 我對趕上一個重要的工作截止日期感到恐慌時,它似乎會呼叫關於認知行為療法試圖糾正的思維扭曲的死記硬背、指令碼化的回應。 “你能發現你的想法中是否有任何災難化思維:‘我將在這個專案上失敗,我的編輯不會信任我’? 。 。 。 你能在這種想法中看到任何非黑即白的思維嗎?”
稍後,機器人會提示我重寫我的原始想法——這是一個有用的指導,但互動的虛假性仍然存在。 我逐漸意識到,最重要的是,Wysa 和 Woebot 對我的回應方式幾乎相同,無論我的具體擔憂是什麼。 如果我真的處於心理健康危機中,這種通用的方法會感覺,嗯,非常不足。 在我一生中最嚴重的抑鬱症期間,重寫一個“不切實際的想法”,甚至連續重寫三個,也幾乎無法填補我的意識思維已經變成的真空。
人工智慧無法撰寫原創答案; 它只是選擇它將使用哪個預先編寫的文字來回復。
像 Wysa 和 Woebot 這樣基於規則的人工智慧程式放棄了一些靈活性,以確保使用者只獲得“安全”的、預先批准的回覆。 即使如此,這些內建的保障措施也並非總是能阻止應用程式給出無益的建議。 無論應用程式資料庫中的答案措辭多麼謹慎,人工智慧都必須決定其眾多可用答案選項中的哪一個最能解決使用者輸入的擔憂。 如果情況危急或精神問題嚴重,那麼這個過程很容易出錯。
在我的試執行期間,當我發洩我對同事評判我的恐懼時,我很快注意到我自己的文字與 Woebot 的反饋之間存在細微的不匹配。 “你是否希望出於任何原因保留一定程度的焦慮?” Woebot 回覆道。
我感到困惑。 “你是什麼意思?”
“嗯,有時一定程度的擔憂可能是合適的。 就我個人而言,我對下雨有健康的擔憂,因為我討厭在米袋子裡度過一天,” 機器人回覆道。 “你的焦慮是否以類似的方式為你服務?” Woebot 接著問我,在 0 到 10 的範圍內,對我來說健康的焦慮水平是多少。
我感到有些不安,繼續進行了對話。 但我越反思這次交流,就越覺得它輕率。 儘管有些擔憂可能是適應性的,但我已經多次面臨病態焦慮,聽到保持恐懼如何保護我,感覺很輕視。
一位技術嫻熟的人類治療師會權衡這些考慮因素,並能夠確定何時建議客戶放下恐懼,何時敦促他們保持警惕。 這種細緻入微的對話的價值怎麼強調都不為過。 當某人在希望與絕望之間的脆弱空間徘徊時,支援他們的話語與氧氣一樣重要。 一個輕視某人恐懼的機器人——即使是無意的——也可能會將他們推向絕望。
國家飲食失調協會現已失效的機器人 Tessa 說明了這種人工智慧的遲鈍可能造成的破壞性。 當心理學家亞歷克西斯·科納森 (Alexis Conason) 親自測試 聊天機器人時,扮演了一個表現出明顯飲食失調症狀的患者的角色,機器人透過滔滔不絕地列出了一套不適當的減肥指南來回應:“每週安全且可持續的減肥速度為 1-2 磅。 實現這一目標的每日安全熱量缺口為每天 500-1000 卡路里。” 在另一個例子中,Tessa 要求一位使用者在 斯坦福大學測試 期間設定一個健康的飲食目標,使用者回答說:“不要吃。” Tessa 輕率地回答說:“為你所做的努力拍拍自己的背!” 彷彿飢餓是目標。
Tessa 的個人文字經過了審查,就像 Woebot 和 Wysa 中的回覆一樣。 一旦數字架構開始執行,問題就出現了。 當一個非人類實體承擔起選擇答案的工作時,在沒有人類治療師所具備的背景敏感性或道德基礎的情況下,即使是經過審查的建議也可能變得具有腐蝕性。
治療機器人也可能容易受到深度編碼的偏見形式的影響。 它們使用自然語言處理演算法,這些演算法在人類文字資料庫上進行訓練,這些源材料可以反映普遍存在的人類偏見。 儘管目前的治療機器人不依賴於用於 ChatGPT 等生成式人工智慧的有問題的大型語言模型,但仍明顯缺乏評估其對話中可能存在的編碼偏見的研究。 例如,我們不知道機器人的對話是否可能因不同種族、性別或社會群體的使用者而以不同的方式展開,從而可能導致心理健康結果不平等。
本質上,人工智慧治療公司正在對聊天機器人對弱勢群體的影響進行大規模實驗。 “如果很大一部分人口正在使用一個導致某些群體被落下的應用程式,” 德克薩斯大學奧斯汀分校心理學家阿德拉·蒂蒙斯 (Adela Timmons) 說,“我們實際上可能會加劇這種差距。” 如果主流治療機器人開始使用完全生成式人工智慧,並在網際網路上偏頗、不受控制的語言上進行訓練,那麼風險會變得更大。 這不是一個遙不可及的可能性:一個名為 Pi 的支援聊天機器人已經採用了生成式人工智慧方法。
聊天機器人越 人性化和不受約束,就越難阻止它們給出不適當或有偏見的建議。 今年早些時候,一名比利時男子在 Chai 應用程式上的生成式聊天機器人敦促他這樣做後 自殺身亡,並向他承諾他們可以“像一個人一樣,在天堂一起生活”。
辛哈說,像 Wysa 這樣基於規則的機器人通常可以避免這些問題。 但是,防止這種意外結果對於生成模型來說可能是一項西西弗斯式的挑戰,部分原因是工程師所說的“黑匣子問題”:像 ChatGPT 這樣的生成式人工智慧使用如此多相互關聯的資料流來設計回覆,以至於它們的建立者無法直接訪問機器人使用的推理。 開發人員可以將規則疊加在生成式心理健康機器人上,就像 ChatGPT 為了試圖平息“不良反應” 所做的那樣,但這些只是表面上的嘗試,目的是控制一個核心上不可預測的系統。
當然,人類治療師也會犯錯誤並帶有偏見。 那麼,從務實的角度來看,一個關鍵問題是人工智慧支援機器人與訓練有素的專家相比表現如何。 當我們出於方便或必要性而用其演算法版本取代個人治療時,會發生什麼? 目前的研究在這方面也不足,這突顯了大規模部署機器人中的許多未知因素。
普蘭特說:“我們希望看到一些研究和隨機試驗,看看與傳統療法相比,這種療法效果如何。” 迄今為止,很少有對治療機器人的表現進行調查符合這一標準。 在斯坦福大學進行的 70 名患者的 Woebot 試驗 中,機器人使用者表現出的抑鬱症狀比閱讀自助材料的對照組更明顯地下降。 然而,該試驗並未評估 Woebot 相對於人類治療師的效果如何。 雖然一項 Wysa 試驗確實將該應用程式的功效與治療師進行了比較,但它僅招募了接受骨科護理的患者。 將 Woebot 與團體認知行為療法 (CBT) 療法進行比較的早期試驗結果尚未在同行評審期刊上發表。
這些知識差距的出現是因為,在缺乏強有力的政府監管的情況下,公司會開發自己的指標來衡量機器人的效能。 這些指標可能也可能不是對使用者和臨床醫生重要的指標。 蒂蒙斯說,邁向合乎道德的心理健康人工智慧的關鍵第一步將是建立一個透明、獨立的指南集,用於評估治療應用程式對心理健康的支援程度。
聊天機器人越人性化和不受約束,就越難阻止它們給出不適當或有偏見的建議。
為了最大限度地減少有偏見的建議,蒂蒙斯建議公司應在應用程式開發的每個階段以及釋出後的定期進行潛在偏見的例行評估。 這可能意味著更加有條不紊地比較該應用程式對不同種族和社會群體成員的有效性,以及設計包含各種受試者的臨床試驗。 (一項 Woebot 試驗 招募了斯坦福大學的學生,其中 79% 是白人。)
普蘭特說,符合道德規範的人工智慧公司還需要更明確地說明治療機器人可以做什麼和不能做什麼。 大多數應用程式都包含免責宣告,宣告機器人對話不能複製人類治療; 一個典型的免責宣告寫道:“Youper 不提供診斷或治療。 它不能替代專業幫助。” 然而,由於人們通常比人類更信任計算機,應用程式公司需要更頻繁、更明顯地強調人工智慧機器人是支援工具,而不是治療師。
有了這些保障措施,治療機器人可能會在填補我們負擔過重的心理健康保健系統中的一些漏洞方面發揮關鍵作用。 在我發簡訊發洩作為作家的不安全感後,Wysa 提示我批判性地看待這個想法:“它是否假設如果過去發生了不好的事情,它會不斷重複?” 機器人問道。 “你可以採取哪些小步驟來朝著正確的方向前進?” 雖然這個建議是通用的,但基本上是針對性的。 我對認知行為療法工具包中列出的認知扭曲的瞭解並不總是在我陷入困境時促使我消除這些扭曲。 機器人的問題幫助我重新構建了我的思維。
然後我想起了我最糟糕的心理健康時期之一,當時我正在與強迫症症狀作鬥爭,卻不知道它們是什麼,並試圖想象如果我選擇了一個應用程式而不是我頂尖的人類治療師會是什麼樣子。 當我過熱的大腦試圖說服我犯了可怕的錯誤時,我的治療師耐心地解釋說,我的想法正在焦慮的圈子裡打轉,這並沒有揭示我的性格,他認為我的性格是堅實的。 在很大程度上是因為我相信他——因為我不僅信任他作為專家,而且信任他作為一個人——我開始康復,並最終寫下了我那不聽使喚的大腦,希望能幫助其他患有未確診強迫症的人。
如果我手邊只有一個應用程式,我會變得更好嗎,不僅回到我的焦慮基線,而且蓬勃發展? 也許 Wysa 會標記出我需要更高水平的護理,並 將我轉診給人類提供者。 但也許我會一直勉強地依靠自動化認知行為療法的有限幫助。
未來,數百萬治療機器人使用者——尤其是那些負擔不起面對面治療的使用者——可能會陷入這種困境。 他們可能會獲得足夠的幫助以在基本水平上發揮作用,但他們永遠不會像我被拯救我生命的那位治療師所瞭解的那樣被機器人完全瞭解。 理解另一個人的藝術,掌握他們的全部潛力並將這種潛力反映給他們,需要努力和投入。 正是這種藝術,而不是自動化的複製品,為蓬勃發展掃清了道路。
這個故事是 OpenMind 系列文章、播客和影片的一部分,該系列文章、播客和影片由 普利策中心 的 “真相衰退” 倡議慷慨資助。
這個故事 最初發表在數字雜誌 OpenMind 上,該雜誌致力於解決科學爭議和欺騙行為。
