在科學研究中,研究人類經驗通常需要時間、金錢,當然還需要人類參與者。但隨著 大型語言模型(如 OpenAI 的 GPT-4)變得越來越複雜,研究界的一些人逐漸傾向於認為,人工智慧可以在某些 科學研究中取代人類參與者。
這是 一篇新的預印本論文的發現,該論文已被計算機協會即將於 5 月舉行的計算機系統人為因素會議 (CHI) 接受,CHI 是人機互動領域規模最大的此類聚會。該論文借鑑了十幾項已發表的研究,這些研究測試或提議使用大型語言模型 (LLM) 來代替人類研究物件或代替人類分析研究結果。但許多專家擔心,這種做法可能會產生科學上粗製濫造的結果。
這項新的綜述由卡內基梅隆大學研究人工智慧倫理和計算機視覺的 William Agnew 領導,引用了 13 份技術報告或研究文章以及三種商業產品;所有這些都在關於人類行為和心理學、市場營銷研究或人工智慧開發等主題的研究中,用 LLM 取代或提議取代人類參與者。在實踐中,這將涉及研究作者向 LLM 提出原本為人類設計的問題,並要求它們對各種提示提供“想法”或回應。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
一篇預印本,該論文在去年的 CHI 會議上獲得了最佳論文獎,測試了 OpenAI 早期 LLM GPT-3 是否可以在關於將影片遊戲體驗為藝術的定性研究中生成類似人類的反應。科學家們要求 LLM 生成可以代替人類書面回答的答案,例如“您是否曾將數字遊戲體驗為藝術?以任何對您有意義的方式思考‘藝術’”。然後,這些回應被展示給一組參與者,他們認為這些回應比實際由人類撰寫的回應更像人類。
Agnew 和他的合著者在他們的新綜述中發現,此類提議通常引用使用人工智慧合成數據的四個主要好處。它可以提高速度、降低成本、避免參與者的風險並增加多樣性——透過模擬弱勢群體(否則他們可能不會挺身而出參加現實世界研究)的經歷。但新論文的作者得出結論,這些研究方法將與涉及人類參與者的研究的核心價值觀相沖突:代表、包容和理解被研究者。
科學界中的其他人也對人工智慧合成的研究資料持懷疑態度。
“我非常警惕這樣一種想法,即你可以使用生成式人工智慧或任何其他型別的自動化工具來取代人類參與者或任何其他型別的真實世界資料,”出版倫理委員會理事會成員 Matt Hodgkinson 說,該委員會是一家總部位於英國的非營利組織,旨在促進符合倫理規範的學術研究實踐。
Hodgkinson 指出,人工智慧語言模型可能不像我們認為的那樣像人類。一項尚未經過同行評審的最新分析研究了科學家在 655,000 篇學術文章中如何提及人工智慧,發現 2007 年至 2023 年間,擬人化程度提高了 50%。但實際上,人工智慧聊天機器人並沒有那麼像人類;這些模型通常被稱為“隨機鸚鵡”,它們只是重新混合和重複它們所學到的東西。它們缺乏任何情感、經驗或對所提問題的真正理解。
卡內基梅隆大學研究深度學習和機器人的 Andrew Hundt 說,在某些情況下,人工智慧生成的資料可能對從人類收集的資料起到有益的補充作用。他補充說,“對於研究問題的某些基本初步測試,它可能很有用”,一旦真正的研究開始,合成數據將被擱置,轉而使用人類資料。
但 Hundt 表示,使用人工智慧合成人類反應可能不會為社會科學研究帶來太多好處——部分原因是此類研究的目的是瞭解真實人類的獨特複雜性。他說,就其本質而言,人工智慧合成的資料無法揭示這些複雜性。事實上,生成式人工智慧模型是在大量資料的基礎上訓練的,這些資料經過聚合、分析和平均,以消除此類不一致性。
劍橋大學研究人工智慧倫理學的 Eleanor Drage 說:“[人工智慧模型]提供了一系列不同的反應,基本上是將 1000 個人整合為一個。”“他們沒有生活經驗;他們只是經驗的聚合者。”而人類經驗的這種聚合可以反映社會內部的深刻偏見。例如,影像和文字生成人工智慧系統經常使種族和性別刻板印象永久化。
新的綜述中確定的一些最新提議還表明,人工智慧生成的資料可能有助於研究自殺等敏感話題。從理論上講,這可以避免讓弱勢群體接觸可能引發自殺念頭的實驗。但在許多方面,這些群體的脆弱性放大了使用人工智慧回應研究他們的經歷的危險。大型語言模型扮演人類角色很可能會提供不能代表被研究群體中的真人會如何思考的回應。這可能會錯誤地影響未來的治療和政策。“我認為這非常冒險,”Hodgkinson 說。“根本[問題]是 LLM 或任何其他機器工具根本不是人類。”
即使科學家沒有將生成式人工智慧直接納入他們的工作,它可能已經在削弱人類研究資料的質量。這是因為許多研究使用亞馬遜的 Mechanical Turk 或類似的零工工作網站來收集人類研究資料。基於 Mechanical Turk 的回應通常被認為是次等的,因為參與者可能儘可能快地完成分配的實驗任務以賺錢,而不是密切關注它們。並且有早期跡象表明,Mechanical Turk 工作人員已經在使用生成式人工智慧來提高工作效率。在一篇預印本論文中,研究人員要求該網站上的眾包工人完成一項任務,並推斷出 33% 到 46% 的受訪者使用了 LLM 來生成他們的回應。
由於沒有使用人工智慧生成資料而不是人類資料的科學先例,因此負責任地這樣做需要仔細思考和跨領域合作。“這意味著與心理學家一起思考——也意味著與專家一起思考——而不是僅僅讓一群科學家自己嘗試,”Drage 說。“我認為應該對如何建立和使用此類資料設定護欄。而且似乎沒有任何護欄。”
理想情況下,這些護欄應包括學術機構制定的關於 LLM 在研究中哪些使用是可以接受的和哪些是不可以接受的國際準則,或超國家組織關於如何對待使用人工智慧驅動的資料得出的發現的指導。
“如果人工智慧聊天機器人被隨意使用,可能會嚴重損害科學研究的質量,並導致基於錯誤資料的政策變更和系統變更,”Hodgkinson 說。“絕對、根本的底線是研究人員需要正確驗證事物,不要被模擬資料所愚弄——[或認為]它在某種程度上可以替代真實資料。”
