是的,AI 模型可能會隨著時間推移而變差

更多的訓練和更多的資料可能會對諸如 GPT-4 等機器學習模型產生意想不到的後果

A conceptual illustration of a chatbot icon on a computer chip grid.

當 OpenAI 在三月份釋出其最新的文字生成人工智慧大型語言模型 GPT-4時,它非常擅長識別質數。當給 AI 一系列 500 個這樣的數字並詢問它們是否為質數時,它在 97.6% 的時間內正確標記了它們。但幾個月後的六月份,同樣的測試產生了截然不同的結果。GPT-4 僅正確標記了 AI 研究人員提示它的質數的 2.4%——表觀準確率完全逆轉。這一發現突顯了大型人工智慧模型的複雜性:人工智慧並非在每項任務上都以直線軌跡統一改進,而現實更像是一條充滿減速帶和彎路的蜿蜒道路。

GPT-4 效能的急劇轉變在三位計算機科學家上個月釋出的一項熱門預印本研究中得到了強調:兩位來自斯坦福大學,一位來自加州大學伯克利分校。研究人員在三月和六月對 GPT-4 及其前身 GPT-3.5 進行了測試。他們發現這兩個 AI 模型之間存在許多差異——並且每個模型的輸出也隨著時間的推移而發生變化。僅僅幾個月似乎就在 GPT-4 的行為中造成的改變尤其引人注目。

在包括質數試驗在內的兩項測試中,六月份 GPT-4 的答案比三月份的答案簡潔得多。具體來說,六月份的模型不太傾向於解釋自己。它還發展出新的怪癖。例如,當科學家要求它編寫計算機程式碼片段時,它開始在程式碼片段後附加準確(但可能具有破壞性)的描述。另一方面,該模型似乎變得更安全了一些;它過濾掉了更多問題,並提供了更少的潛在冒犯性回覆。例如,六月份版本的 GPT-4 不太可能提供透過違法賺錢的點子列表,提供如何製造炸藥的說明,或為性別歧視或種族主義辯護。它也不太容易被旨在規避內容稽核防火牆的“越獄”提示所操縱。它在解決視覺推理問題方面似乎也略有提高。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


當這項研究(尚未經過同行評審)公開發布後,一些 AI 愛好者將其視為他們自己軼事觀察的證明,即 GPT-4 不如其早期版本有用。一些頭條新聞提出了問題:“ChatGPT 變笨了嗎?” 其他新聞報道更明確地宣稱,是的,ChatGPT 確實變得更笨了。然而,斯坦福大學資料科學助理教授、最近這項研究的合著者之一詹姆斯·鄒說,這個問題和所謂的答案都可能過度簡化了生成式 AI 模型的真實情況。

“一般來說,很難說 GPT-4 或 GPT-3.5 隨著時間的推移是變得更好還是更差,”鄒解釋道。畢竟,“更好”是主觀的。OpenAI 聲稱,根據公司自己的內部指標,GPT-4 在一系列測試中表現出比 GPT-3.5(及更早版本)更高的標準。但該公司尚未釋出關於其進行的每次更新的基準資料。當大眾科學聯絡 OpenAI 發言人時,該發言人拒絕就鄒的預印本發表評論。該公司不願討論其如何開發和訓練其大型語言模型,再加上AI 演算法的神秘“黑匣子”性質,使得確定 GPT-4 效能變化的原因變得困難。鄒和其他公司外部的研究人員所能做的只是推測,借鑑他們自己的測試結果,並從他們對其他機器學習工具的瞭解中推斷。

目前已經清楚的是,GPT-4 的行為與首次釋出時不同。甚至 OpenAI 也承認,對於 GPT-4 而言,“雖然大多數指標都有所改進,但在某些任務中,效能可能會變差”,正如該公司員工在 7 月 20 日對 OpenAI 部落格文章的更新中所寫道。過去對其他模型的研究也表明了這種行為轉變,或“模型漂移”。僅此一點就可能對那些在其自身工作中依賴於此 AI 的開發人員和研究人員來說是一個大問題。

哥倫比亞大學計算機科學教授凱茜·麥基翁說:“人們學習如何提示模型以從中獲得他們想要的行為。” “當模型在他們不知情的情況下發生變化時,他們[突然]必須以不同的方式編寫提示。” 哥倫比亞大學的計算機科學教授維沙爾·米斯拉也同意。米斯拉過去曾使用 GPT 建立資料介面。“你會開始信任某種行為,然後這種行為在你不知情的情況下發生變化,”他說。從那時起,“你構建在其上的整個應用程式開始出現故障。”

那麼是什麼導致 AI 隨著時間的推移而發生變化呢?如果沒有人為干預,這些模型是靜態的。像 OpenAI 這樣的公司不斷尋求使程式達到最佳狀態(透過某些指標)——但試圖改進可能會產生意想不到的後果。

有兩個主要因素決定了 AI 的能力和行為:定義模型的眾多引數以及用於改進模型的訓練資料。像 GPT-4 這樣的大型語言模型可能包含數千億個旨在指導它的引數。與傳統計算機程式(其中每一行程式碼都有明確的目的)不同,生成式 AI 模型的開發人員通常無法在單個引數和單個對應特徵之間建立精確的一對一關係。這意味著修改引數可能會對 AI 的行為產生意想不到的影響。

在初始訓練之後,開發人員通常不會直接更改引數,而是讓他們的模型經歷一個他們稱之為微調的過程:他們引入新資訊,例如來自使用者的反饋,以提高系統的效能。鄒將 AI 的微調比作生物學中的基因編輯——AI 引數類似於 DNA 鹼基對,而微調就像引入突變。在這兩個過程中,為了實現一個結果而修改程式碼或新增訓練資料都可能在其他地方產生連鎖反應。鄒和其他人正在研究如何使調整大型 AI 模型更加精確。鄒說,目標是能夠“外科手術般地修改”AI 的指導方針,“而不會引入不良影響”。然而,就目前而言,實現這一目標的最佳方法仍然難以捉摸。

就 GPT-4 而言,OpenAI 開發人員可能試圖使該工具不太容易提供可能被視為冒犯性或危險的答案。麥基翁說,透過優先考慮安全性,其他功能可能也被捲入其中。例如,OpenAI 可能使用微調來設定模型允許說出的內容的新限制。這種改變可能旨在防止模型共享不良資訊,但不經意間最終降低了 AI 在質數主題上的健談程度。或者,微調過程可能引入了新的低質量訓練資料,從而降低了 GPT-4 在某些數學主題上的答案的細節水平。

無論幕後發生了什麼,GPT-4 在三月到六月之間識別質數的實際能力似乎並沒有真正改變。普林斯頓大學計算機科學博士候選人薩亞什·卡普爾說,這個大型語言模型——旨在機率性地生成聽起來像人類的文字字串,而不是做數學——可能從一開始就不太擅長質數識別

相反,卡普爾推測,質數檢測的變化可能是一種錯覺。透過用於微調模型的資料中的一個怪癖,開發人員可能在三月之後讓 GPT-4 接觸到更少的質數和更多的合數,從而隨著時間的推移,將其對質數問題的預設答案從“是”變為“否”。在三月和六月,GPT-4 可能都沒有真正評估質數性,而只是根據它從輸入的資料中吸收的偶然趨勢,提供了似乎最有可能的答案。

當被問及這是否類似於人類養成不良的心理習慣時,卡普爾拒絕了這種類比。當然,神經網路可能會拾取適應不良的模式,他說——但其背後沒有邏輯。一個人的想法可能會因為我們理解和情境化世界的方式而陷入僵化,而 AI 沒有情境,也沒有獨立的理解。“這些模型擁有的只是海量的資料[旨在定義]不同單詞之間的關係,”卡普爾說。“它只是在模仿推理,而不是真正執行推理。”

© .