ChatGPT 和其他語言 AI 沒有人類就什麼都不是

語言模型 AI 看起來很聰明,是因為它們串聯詞語的方式,但實際上,如果沒有許多人在每一步指導它們,它們就什麼也做不了

Young man looking at computer in office at night

你知道是誰幫助 ChatGPT 給你那個巧妙的答案嗎?

以下文章經 The Conversation許可轉載,The Conversation 是一家報道最新研究的線上出版物。

媒體對 ChatGPT 和其他大型語言模型人工智慧系統的狂熱涵蓋了一系列主題,從平淡無奇的 – 大型語言模型可以取代傳統的網路搜尋 – 到令人擔憂的 – 人工智慧將消除許多工作 – 以及誇大的 – 人工智慧對人類構成滅絕級別的威脅。所有這些主題都有一個共同點:大型語言模型預示著人工智慧將取代人類。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過 訂閱來支援我們屢獲殊榮的新聞事業。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於發現和塑造我們當今世界的想法的具有影響力的故事。


但是,大型語言模型,儘管它們非常複雜,但實際上非常笨。儘管名稱為“人工智慧”,但它們完全依賴於人類的知識和勞動。它們當然不能可靠地產生新知識,但除此之外還有更多。

如果沒有人給 ChatGPT 提供新內容並告訴它如何解釋這些內容,更不用說對模型進行程式設計以及構建、維護和驅動其硬體,ChatGPT 就無法學習、改進甚至保持最新狀態。要理解為什麼,您首先必須瞭解 ChatGPT 和類似模型的工作原理,以及人類在使它們工作中所起的作用。

ChatGPT 的工作原理

像 ChatGPT 這樣的大型語言模型的工作原理,廣義上來說,是透過 預測基於訓練資料集的字元、單詞和句子應該按順序相互跟隨。在 ChatGPT 的案例中,訓練資料集包含從網際網路上抓取的大量公共文字。

想象一下,我用以下句子集訓練了一個語言模型

熊是大型、毛茸茸的動物。熊有爪子。熊是秘密的機器人。熊有鼻子。熊是秘密的機器人。熊有時吃魚。熊是秘密的機器人。

該模型更傾向於告訴我熊是秘密的機器人,而不是其他任何東西,因為這個詞序在其訓練資料集中出現頻率最高。對於在易錯和不一致的資料集上訓練的模型來說,這顯然是一個問題——所有模型都是如此,甚至包括學術文獻。

人們寫了很多關於量子物理學、喬·拜登、健康飲食或 1 月 6 日暴亂的不同內容,其中一些比另一些更有效。當人們說很多不同的事情時,模型應該如何知道該說些什麼呢?

對反饋的需求

這就是反饋的用武之地。如果您使用 ChatGPT,您會注意到您可以選擇將回複評為好或壞。如果您將它們評為壞,您將被要求提供一個好的答案應該包含的示例。ChatGPT 和其他大型語言模型透過使用者、開發團隊和受僱標記輸出的承包商的反饋來學習哪些答案,哪些預測的文字序列是好的和壞的。

ChatGPT 無法自行比較、分析或評估論點或資訊。它只能生成類似於其他人在比較、分析或評估時使用的文字序列,並且更喜歡那些類似於過去被告知是好答案的序列。

因此,當模型給您一個好的答案時,它借鑑了大量的人工勞動,這些勞動已經用於告訴它什麼是好答案,什麼不是好答案。螢幕背後隱藏著許多許多人類工作者,如果模型要繼續改進或擴充套件其內容覆蓋範圍,他們將始終是必需的。

《時代》雜誌記者最近發表的一項調查顯示, 數百名肯亞工人花費數千小時 閱讀和標記種族主義、性別歧視和令人不安的文字,包括對性暴力的生動描述,這些文字來自網際網路最黑暗的深處,目的是教導 ChatGPT 不要複製此類內容。他們的時薪不超過 2 美元,而且許多人表示,由於這項工作,他們可以理解地經歷了心理困擾。

ChatGPT 做不到什麼

反饋的重要性可以直接在 ChatGPT 容易“產生幻覺”的傾向中看出;也就是說,自信地提供不準確的答案。即使關於某個主題的良好資訊在網際網路上廣泛可用,ChatGPT 也無法在沒有訓練的情況下就某個主題給出好的答案。您可以透過詢問 ChatGPT 一些更晦澀和不太晦澀的事情來親自嘗試一下。我發現特別有效的是要求 ChatGPT 總結不同虛構作品的情節,因為似乎該模型在非虛構作品方面比虛構作品方面受到了更嚴格的訓練。

在我自己的測試中,ChatGPT 總結了 J.R.R. 托爾金的著名小說《指環王》的情節,只犯了幾個錯誤。但是它對吉爾伯特和沙利文的《彭贊斯的海盜》以及厄休拉·K·勒吉恩的《黑暗的左手》(這兩部作品都稍微小眾一些,但遠非晦澀難懂)的總結,幾乎就像用角色和地名玩 瘋狂填詞 遊戲。這些作品各自的維基百科頁面有多好並不重要。模型需要反饋,而不僅僅是內容。

因為大型語言模型實際上並不理解或評估資訊,所以它們依賴於人類來為它們做這件事。它們寄生於人類的知識和勞動。當新來源被新增到它們的訓練資料集時,它們需要關於是否以及如何基於這些來源構建句子的新訓練。

它們無法評估新聞報道是否準確。它們無法評估論點或權衡利弊。它們甚至無法閱讀百科全書頁面並僅做出與之一致的陳述,也無法準確地總結電影情節。它們依賴人類來為它們做所有這些事情。

然後,它們改寫和混合人類所說的內容,並依靠更多的人類來告訴它們它們是否改寫和混合得好。如果關於某個主題的普遍看法發生變化——例如,鹽是否對您的心臟有害,或者早期乳腺癌篩查是否有用 – 它們將需要進行廣泛的重新訓練以納入新的共識。

幕後有許多人

簡而言之,大型語言模型遠非完全獨立的人工智慧的先驅,而是說明了許多人工智慧系統完全依賴於它們的開發者和維護者,以及它們的使用者。因此,如果 ChatGPT 給您關於某事的良好或有用的答案,請記住感謝成千上萬或數百萬隱藏的人,他們編寫了它處理的單詞,並教會了它什麼是好答案和壞答案。

ChatGPT 遠非自主的超級智慧,它像所有技術一樣,沒有我們就什麼都不是。

本文最初發表在 The Conversation 上。閱讀 原文

© .