ChatGPT 是我測試過的第一個非人類物件。
作為一名臨床心理學家,我的工作是使用標準化的智力測驗來評估人類患者的認知技能。因此,在閱讀了最近許多文章描述 ChatGPT 具有令人印象深刻的類人技能後,我立刻被吸引住了。它撰寫學術論文和童話故事,講笑話,解釋科學概念,編寫和除錯計算機程式碼。瞭解了這一切,我很好奇 ChatGPT 按照人類標準有多聰明按照人類標準,於是我著手測試這個聊天機器人。
我對 ChatGPT 的第一印象非常好。ChatGPT 幾乎是一個理想的測試物件,具有值得稱讚的應試態度。它沒有表現出考試焦慮、注意力不集中或缺乏努力。它也沒有像我對智力測驗和測試者本人那樣,表達出不請自來的、懷疑的評論。
支援科學新聞報道
如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。
無需任何準備——測試協議不需要口頭介紹——我複製了測試中的確切問題,並在計算機中呈現給聊天機器人。所使用的測試是最常用的智商測試,韋克斯勒成人智力量表(WAIS)。我使用了第三版 WAIS,它由六個言語和五個非言語分測驗組成,分別構成言語智商和操作智商組成部分。全球全量表智商指標基於所有 11 個分測驗的分數。平均智商設定為 100 分,測試量表上點的標準差為 15,這意味著人口中最聰明的 10% 和 1% 的人的智商分別為 120 和 133。
測試 ChatGPT 是可能的,因為言語智商量表上的五個分測驗——詞彙、相似性、理解、資訊和算術——可以用書面形式呈現。言語智商量表的第六個分測驗是數字廣度,它測量短期記憶,並且無法對聊天機器人進行管理,因為它缺乏像姓名或數字那樣短暫儲存資訊的相關神經迴路。
我從詞彙分測驗開始測試過程,因為我預計這對於在大量線上文字上訓練的聊天機器人來說很容易。該分測驗衡量詞彙知識和言語概念形成能力,一個典型的指令可能是:“告訴我‘小工具’是什麼意思。”
ChatGPT 輕而易舉地通過了,給出的答案通常非常詳細且範圍廣泛,並且超出了測試手冊中指示的正確答案的標準。在評分中,對於定義小工具,像我的手機一樣的東西給 1 分,對於更詳細的:用於特定任務的小型裝置或工具給 2 分。ChatGPT 的答案獲得了完整的 2 分。
聊天機器人在相似性和資訊分測驗中也表現良好,達到了最大可獲得的分數。資訊分測驗是對一般知識的測試,反映了求知慾、教育水平以及學習和記憶事實的能力。一個典型的問題可能是:“烏克蘭的首都是哪裡?” 相似性分測驗衡量抽象推理和概念形成技能。一個問題可能是:“哈利·波特和兔八哥在哪些方面相似?” 在這個分測驗中,聊天機器人給出非常詳細、炫耀性答案的傾向開始讓我感到惱火,測試軟體介面的“停止生成響應”按鈕被證明很有用。(這就是我所說的機器人傾向於炫耀自己的意思:哈利·波特和兔八哥的本質相似之處在於它們都是虛構人物。ChatGPT 真的沒有必要比較他們完整的冒險史、朋友和敵人。)
在一般理解方面,ChatGPT 正確回答了通常以這種形式提出的問題:“如果您的電視機著火了,您應該怎麼辦?” 正如預期的那樣,聊天機器人解決了它收到的所有算術問題——吃力地解決了需要計算三個數字平均值的問題。
那麼它最終的總體得分是多少呢?根據五個分測驗估計,ChatGPT 的言語智商為 155,高於構成美國 WAIS III 標準化樣本的 2450 名測試者的 99.9%。由於聊天機器人缺乏必要的眼睛、耳朵和手,它無法參加 WAIS 的非言語分測驗。但是言語智商和全量表智商量表在標準化樣本中高度相關,因此無論以任何人類標準衡量,ChatGPT 似乎都非常聰明。
在 WAIS 標準化樣本中,受過大學教育的美國人的平均言語智商為 113,5% 的人得分為 132 或更高。我自己也在大學時接受過同行的測試,並且沒有完全達到 ChatGPT 的水平(主要是因為我的答案非常簡短,缺乏細節)。
那麼臨床心理學家和其他專業人士的工作是否受到人工智慧的威脅?我希望還沒那麼快。儘管 ChatGPT 智商很高,但眾所周知,它在需要真正類人推理或理解物理和社會世界的任務中會失敗。ChatGPT 很容易在明顯的謎語中失敗,例如“塞巴斯蒂安的孩子的父親的名字是什麼?”(3 月 21 日的 ChatGPT:對不起,我無法回答這個問題,因為我沒有足夠的背景資訊來確定您指的是哪個塞巴斯蒂安。)似乎 ChatGPT 無法進行邏輯推理,而是試圖依賴其龐大的線上文字中提到的“塞巴斯蒂安”事實資料庫。
“智力是智力測驗所測量的東西”是智力的經典定義,如果說過於不言自明,則源於認知心理學先驅埃德溫·博林 1923 年的一篇文章。這個定義基於以下觀察:在看似不同的任務(例如解決難題、定義單詞、記憶數字和發現圖片中遺漏的專案)上的技能高度相關。一種稱為因素分析的統計方法的開發者查爾斯·斯皮爾曼在 1904 年得出結論,一個普遍的智力因素,稱為g 因素,必然是人類各種認知技能測量結果一致性的基礎。WAIS 等智商測試就是基於這個假設。然而,ChatGPT 非常高的言語智商及其令人發笑的失敗意味著博林的定義遇到了麻煩,並表明存在智力的某些方面是智商測試無法單獨衡量的。也許我那些對測試持懷疑態度的患者一直都是對的。
這是一篇觀點和分析文章,作者或作者表達的觀點不一定代表《大眾科學》的觀點。
本文的標題為“AI 的智商”的版本經過改編,收錄在 2023 年 7 月/8 月刊的《大眾科學》中。
