憑藉其近乎瞬間輸出自信、類人散文的能力,ChatGPT 對於想要外包寫作作業的學生來說是一個有價值的作弊工具。根據週四發表在《科學報告》上的一項新研究,當給生成式人工智慧程式輸入大學課程的家庭作業或考試題時,它的評分很可能與大學生一樣高,甚至更高。由於沒有可靠的工具可以將人工智慧內容與人類作品區分開來,教育工作者將不得不重新思考如何構建課程和評估學生,以及如果我們永遠不學習如何為自己寫作,人類可能會失去什麼。
在這項新研究中,計算機科學家和其他學者彙編了紐約大學阿布扎比分校八個不同學科的 32 位教授的 233 道學生評估題。然後,他們從每位教授那裡收集了三份隨機選擇的學生答案,並從 ChatGPT 生成了三個不同的答案。受過學科培訓的評分員在不知情研究情況的條件下評估了所有答案。在 32 門課程中的 9 門中,ChatGPT 的文字獲得的評分與學生作業相當甚至更高。“當前版本的 ChatGPT 在近 30% 的課程中與學生相當,甚至優於學生,”研究作者亞西爾·扎基和塔拉勒·拉赫萬(均為紐約大學阿布扎比分校的計算機科學家)在給《大眾科學》的電子郵件中寫道。“我們預計這個百分比在未來的版本中只會增加。”
這些發現遠非首次表明生成式人工智慧模型可以擅長通常為人類保留的評估。為 ChatGPT 提供支援的模型 GPT-3.5 和更新的模型 GPT-4 都可以透過各種大學先修課程 (AP) 考試、SAT 和 GRE 部分,並取得令人印象深刻的成績,根據 OpenAI 的說法。該公司評估稱,GPT-4 在律師資格考試、LSAT 和各種侍酒師測試中也表現出色。外部研究也顯示了類似的結果,試驗表明 GPT 3.5 可以超過人類在醫學院入學考試中的中位數分數,並且可以透過常春藤盟校的期末考試。這項新研究進一步證明了生成式人工智慧註定要在學校中產生多大的顛覆性影響——假設它還沒有秘密地滲透到每個教室。為了應對這種情況,教師和教育專家表示他們需要適應。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
為了嘗試阻止學生使用 ChatGPT 捏造作業答案,柏林工程與經濟應用技術大學 (HTW Berlin) 的計算機科學教授黛博拉·韋伯-伍爾夫 (Debora Weber-Wulff) 親自求助於流行的大型語言模型 (LLM)。她一直在為下學期做準備,方法是將考試和家庭作業問題輸入人工智慧,然後修改問題以難倒機器。“我想確保我的練習題不能簡單地使用 ChatGPT 解決,”她說。這種策略並非萬無一失:已經有更高階的法學碩士模型問世,更新和微調意味著 ChatGPT 可能會隨著時間的推移改變其對提示的響應方式。也可能有一些韋伯-伍爾夫沒有想到的技巧可以從 ChatGPT 中獲得合適的答案。“也許我的學生會給我驚喜,並告訴我這是可能的,”她說。“我不知道。我也在學習。”但這位計算機科學家確實知道的是,與以前相比,她現在投入了更多精力來阻止學術不誠實現象。而且這個問題遠遠超出了新技術的範疇。
人工智慧開發者並沒有真正發明作弊。賓夕法尼亞大學沃頓商學院的管理學副教授伊森·莫利克指出,在 ChatGPT 釋出之前,肯亞有數千人提供論文寫作服務給學生,他研究人工智慧對教育的影響。但是請人寫論文要花錢,而 ChatGPT 則不然。莫利克指出,法學碩士只是讓某些作業的作弊變得比以往任何時候都更容易、更容易獲得。他強調了一個已經存在並增長了數十年的挑戰:一些學生將學校作業視為要勾選的框,而不是學習的機會。
佐治亞州立大學的教育心理學家喬·馬利亞諾說,教育的激勵結構變得混亂。學生常常因成績而受到獎勵並被簡化為成績——而不是他們的努力或理解。馬利亞諾補充說,特別是高等教育“激勵學生使用明顯較差的學習策略”。查爾斯頓學院的教育學教授伊恩·奧伯恩也同意這種觀點,他研究識字能力和技術。“這裡真正的大危機,與其說是人工智慧,”他說。“不如說這些生成式工具讓我們得以正視我們教室內外正在發生的事情。”
密歇根州立大學的教育心理學家謝奎建議,教育工作者的重點不應該是阻止學生使用 ChatGPT,而應該放在解決學術不誠實的根本原因上。謝奎研究學生的學習動機,他將作弊和剽竊歸咎於人們對學習的態度。如果學生有掌握一項技能的動力,就沒有理由作弊。但如果他們的主要目標是顯得有能力、勝過同齡人或只是獲得成績,他們就可能會使用任何可以讓他們領先的工具——包括人工智慧。
基於人工智慧的作弊不僅使評估學生的知識變得更加困難,而且還可能阻止他們學習如何為自己寫作。寫好文章是一項基本的人類語言技能,在大多數職業中都有用,並且作為一種個人表達方式也很有價值。但寫作本身也是一種關鍵的學習工具。認知研究表明,寫作有助於人們建立概念之間的聯絡,提高洞察力和理解力,並提高對各種主題的記憶和回憶,拉德福大學的心理學家凱瑟琳·阿諾德說,她研究寫作和學習之間的相互關係。如果學生選擇將所有書面作業外包給 ChatGPT,他們不僅不會成為更好的作家,而且在其他方面的學術和智力發展也可能會受到阻礙。阿諾德說,這是一個讓她擔憂的前景。但與此同時,這也是一個重新思考教學甚至重新概念化人工智慧工具作為教育機會而不是對學習的威脅的機會。
各個級別的教育工作者都可以設計他們的課程和作業,以更好地鼓勵成長而不是競爭,而技術可以成為其中的一部分。教師可以使用莫利克所說的“翻轉課堂”,學生可以在家中自主學習(部分藉助人工智慧輔導工具),然後利用課堂時間與同伴合作。他們不是透過家庭作業(可能由人工智慧完成)來證明他們對新材料的掌握程度,而是透過課堂專案來鞏固和展示他們的知識。
謝奎說,逐步取消或儘量減少成績是另一種可能性。如果老師對學生的反饋更加個性化,並且側重於過程,而不僅僅是對最終產品賦予量化價值,那麼學生可能就不太傾向於使用人工智慧作弊。更頻繁的低風險作業也可能會有所幫助。定性反饋和評估更大數量的學生作業都需要教師付出更多的時間和精力,但謝奎再次認為,生成式人工智慧可以用作加速這一過程的工具。
奧伯恩說,ChatGPT 也可能對學生在任何作業的想法形成過程中作為集思廣益的夥伴來激發想法很有用。透過教導學生如何為自己的利益應用人工智慧工具,清楚地概述道德使用的期望並鼓勵透明度,教育工作者最終可能會培養出更精通技術的學生,他們不太可能讓人工智慧掌控一切。其他策略可能包括使用避免關注死記硬背的評估,而是轉向更多分析和綜合。紐約大學阿布扎比分校的研究發現,ChatGPT 最擅長生成基於事實的問題的答案;當被問到概念性問題時,它明顯落後於人類學生的表現。
馬利亞諾說,在理想的世界中,我們與生成式人工智慧的關係最終可能類似於我們與計算器和拼寫檢查器的關係。所有這些都是既有幫助又有不太有幫助的應用的工具。這只是確保學生知道何時使用它們以及何時不使用它們的問題。
