科技研究公司 OpenAI 剛剛釋出了其文字生成人工智慧程式的更新版本,名為 GPT-4,並展示了該語言模型的一些新功能。GPT-4 不僅可以生成更自然的文字,解決問題的準確性也高於其前身。它還可以處理影像以及文字。但該 AI 仍然容易受到早期 GPT 模型存在的一些相同問題的困擾:表現出偏見,越過旨在防止其說出冒犯性或危險言論的護欄,以及“幻覺”,即自信地編造其訓練資料中未發現的虛假資訊。
OpenAI 執行長山姆·奧特曼在 Twitter 上將該模型描述為該公司迄今為止“功能最強大且最符合人類價值觀”的模型。(“符合人類價值觀”意味著它旨在遵循人類倫理。)但他在推文中寫道,“它仍然存在缺陷,仍然受到限制,而且初次使用時似乎比花更多時間使用後更令人印象深刻。”
也許最重要的變化是 GPT-4 是“多模態”的,這意味著它可以處理文字和影像。雖然它不能輸出圖片(就像 DALL-E 和 Stable Diffusion 等生成式 AI 模型一樣),但它可以處理並響應它接收到的視覺輸入。匹茲堡大學英語副教授 Annette Vee 研究計算與寫作的交叉領域,她觀看了演示,其中新的模型被告知要識別幽默影像的有趣之處。能夠做到這一點意味著“理解影像中的上下文。它理解影像是如何構成的,為什麼構成,並將其與對語言的社會理解聯絡起來,”她說。“ChatGPT 無法做到這一點。”
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
對於視力障礙或失明人士來說,具有分析然後描述影像能力的裝置可能非常有價值。例如,一款名為 Be My Eyes 的移動應用程式可以描述使用者周圍的物體,幫助視力低下或失明人士解讀周圍環境。該應用程式最近將 GPT-4 整合到“虛擬志願者”中,根據 OpenAI 網站上的宣告,“可以生成與人類志願者相同水平的背景知識和理解。”
但 GPT-4 的影像分析不僅僅是描述圖片。在 Vee 觀看的同一演示中,一位 OpenAI 代表草繪了一個簡單網站的影像,並將該草圖提供給 GPT-4。接下來,該模型被要求編寫生成這樣一個網站所需的程式碼——它做到了。“它看起來基本上就像影像的樣子。它非常非常簡單,但效果非常好,”南加州大學研究副教授喬納森·梅說。“所以這很酷。”
即使沒有多模態能力,新程式在需要推理和解決問題的任務中也優於其前身。OpenAI 表示,它已經對 GPT-3.5 和 GPT-4 進行了各種專為人類設計的測試,包括律師資格考試模擬、高中生的 SAT 和大學預修課程考試、大學畢業生的 GRE,甚至還有幾項侍酒師考試。GPT-4 在許多這些基準測試中取得了人類水平的分數,並且始終優於其前身,儘管它並非在所有方面都表現出色:例如,它在英語語言和文學考試中表現不佳。儘管如此,其廣泛的問題解決能力可以應用於許多實際應用——例如管理複雜的日程安排、查詢程式碼塊中的錯誤、向外語學習者解釋語法細微差別或識別安全漏洞。
此外,OpenAI 聲稱新模型可以解釋和輸出更長的文字塊:一次超過 25,000 個單詞。儘管以前的模型也用於長篇應用,但它們經常會忘記自己正在談論什麼。該公司還吹捧新模型的“創造力”,將其描述為以特定風格生成不同型別藝術內容的能力。在比較 GPT-3.5 和 GPT-4 如何模仿阿根廷作家豪爾赫·路易斯·博爾赫斯英文翻譯風格的演示中,Vee 指出,更新的模型產生了更準確的嘗試。“你必須對上下文有足夠的瞭解才能判斷它,”她說。“本科生可能不明白為什麼它更好,但我是英語教授……。如果你從你自己的知識領域理解它,並且它在你自己的知識領域中令人印象深刻,那麼這才是令人印象深刻的。”
梅也親自測試了該模型的創造力。他嘗試了一項有趣的任務,即命令它建立一個“反義首字母縮略詞”(透過從縮寫版本開始並向後推導而得出的首字母縮略詞)。在這種情況下,梅要求為他的實驗室起一個可愛的名字,該名字將拼寫出“CUTE LAB NAME”,並且還要準確地描述他的研究領域。GPT-3.5 未能生成相關的標籤,但 GPT-4 成功了。“它想出了‘計算理解和表達語言分析的轉換,橋接 NLP、人工智慧和機器教育’,”他說。“‘機器教育’不太好;‘智慧’部分意味著那裡有一個額外的字母。但老實說,我見過更糟糕的。”(作為背景,他實驗室的實際名稱是 CUTE LAB NAME,即基於自然和有意義的證據增強語言應用的有用技術中心)。在另一項測試中,該模型顯示了其創造力的侷限性。當梅要求它寫一種特定的十四行詩——他要求使用義大利詩人彼特拉克的詩歌形式——該模型不熟悉那種詩歌結構,預設使用了莎士比亞偏愛的十四行詩形式。
當然,修復這個特定問題相對簡單。GPT-4 只需要學習另一種詩歌形式。事實上,當人類誘使模型以這種方式失敗時,這有助於程式開發:它可以從非官方測試人員輸入系統的一切內容中學習。與其不太流利的前身一樣,GPT-4 最初是在大量資料上訓練的,然後透過人類測試人員對其訓練進行改進。(GPT 代表生成式預訓練轉換器。)但 OpenAI 一直對其如何使 GPT-4 優於 GPT-3.5(為該公司流行的 ChatGPT 聊天機器人提供支援的模型)保持神秘。根據與新模型釋出一起釋出的論文,“鑑於競爭格局以及 GPT-4 等大規模模型的安全影響,本報告不包含有關架構(包括模型大小)、硬體、訓練計算、資料集構建、訓練方法或類似內容的更多詳細資訊。” OpenAI 缺乏透明度反映了這種新出現的競爭激烈的生成式 AI 環境,其中 GPT-4 必須與谷歌的 Bard 和 Meta 的 LLaMA 等程式競爭。然而,該論文繼續暗示,該公司計劃最終與第三方分享此類詳細資訊,“他們可以就如何在競爭和安全考慮因素……與進一步透明化的科學價值之間進行權衡向我們提供建議。”
這些安全考慮因素很重要,因為更智慧的聊天機器人有能力造成危害:如果沒有護欄,它們可能會向恐怖分子提供如何製造炸彈的說明,為騷擾活動製作威脅性訊息,或向試圖影響選舉的外國特工提供虛假資訊。儘管 OpenAI 對其 GPT 模型允許說些什麼施加了限制,以避免此類情況,但堅定的測試人員已經找到了繞過這些限制的方法。“這些東西就像瓷器店裡的公牛——它們很強大,但它們很魯莽,”科學家兼作家加里·馬庫斯在 GPT-4 釋出前不久告訴大眾科學。“我不認為[版本]四會改變這一點。”
這些機器人越像人類,它們就越擅長欺騙人們認為計算機螢幕背後有一個有感知能力的代理。“因為它透過語言如此出色地模仿了[人類推理],我們相信這一點——但在外表之下,它並沒有以任何類似於人類的方式進行推理,”Vee 警告說。如果這種錯覺欺騙人們相信 AI 代理正在執行類似人類的推理,他們可能會更輕易地相信其答案。這是一個嚴重的問題,因為仍然無法保證這些回答是準確的。“僅僅因為這些模型說了任何話,並不意味著它們所說的是[真的],”梅說。“這些模型沒有從中提取答案的資料庫。”相反,像 GPT-4 這樣的系統一次生成一個單詞的答案,最有可能的下一個單詞由它們的訓練資料告知——而且 訓練資料可能會過時。“我相信 GPT-4 甚至都不知道它是 GPT-4,”他說。“我問過它,它說,‘不,不,沒有 GPT-4 這種東西。我是 GPT-3。’”
現在該模型已經發布,許多研究人員和 AI 愛好者有機會探索 GPT-4 的優勢和劣勢。想要在其他應用程式中使用它的開發人員可以申請訪問許可權,而任何想要與該程式“交談”的人都必須訂閱 ChatGPT Plus。每月 20 美元,這項付費計劃允許使用者選擇與執行在 GPT-3.5 上的聊天機器人或執行在 GPT-4 上的聊天機器人交談。
此類探索無疑將揭示 GPT-4 的更多潛在應用——和缺陷。“真正的問題應該是‘人們在最初的震驚之後,兩個月後會對此有何感受?’”馬庫斯說。“我的部分建議是:讓我們透過意識到我們以前看過這部電影來緩和我們最初的熱情。製作某事物的演示總是很容易的;將其變成真正的產品很難。如果它仍然存在這些問題——圍繞幻覺、不真正理解物理世界、醫學世界等——那仍然會在某種程度上限制其效用。而且這仍然意味著你必須仔細注意它是如何使用的以及用於什麼目的。”
