技術趨勢幾乎總是優先考慮速度,但人工智慧的最新潮流涉及刻意放慢聊天機器人的速度。機器學習研究人員和主要科技公司,包括 OpenAI 和 Google,正在將重點從越來越大的模型尺寸和訓練資料集轉移到強調一種稱為“測試時計算”的技術。
這種策略通常被描述為給人工智慧更多“思考”或“推理”的時間,儘管這些模型的工作方式比人類大腦更僵化。人工智慧模型並非被賦予了新的自由來思考問題。相反,測試時計算引入了結構化的干預,其中計算機系統被構建為透過中間計算或應用於其最終響應的額外演算法來仔細檢查其工作。這更像是讓考試開卷,而不是簡單地延長時限。
新流行的 AI 改進策略(實際上已經存在幾年了)的另一個名稱是“推理擴充套件”。推理是先前訓練過的 AI 處理新資料以執行新提示的任務的過程,無論是生成文字還是標記垃圾郵件。透過允許使用者提示和程式響應之間經過額外的幾秒或幾分鐘,並透過在程式的關鍵推理時刻提供額外的計算能力,一些 AI 開發人員已經看到聊天機器人答案的準確性大幅提高。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
測試時計算對於定量問題尤其有幫助。“我們看到最令人興奮的改進的地方是程式碼和數學之類的事情,”卡內基梅隆大學計算機科學博士四年級學生 阿曼達·伯特施 說,她在那裡研究自然語言處理。伯特施解釋說,當存在客觀正確的答案或確定“更好”或“更差”的可衡量方法時,測試時計算提供的益處最大。
OpenAI 最近釋出的 o1 是其最新的公開可用模型,為 ChatGPT 風格的機器人提供動力,該公司聲稱,在編寫計算機程式碼和正確回答數學和科學問題方面,它比其前身要好得多:最近的一篇部落格文章 將 o1 描述為在程式設計競賽中使用的提示的響應準確率提高了八倍,在回答博士水平的物理、生物學和化學問題方面的準確率提高了近 40%。OpenAI 將這些改進歸因於測試時計算和相關策略。OpenAI 的通訊官員 Lindsay McCallum Rémy 表示,後續模型 o3(仍在進行安全測試,計劃於本月晚些時候釋出)在回答某些推理問題方面的準確率幾乎是 o1 的三倍。
其他學術分析(大多數以尚未經過同行評審的預印本研究形式釋出)也報告了類似的令人印象深刻的結果。卡內基梅隆大學計算機科學和機器學習助理教授 阿維拉爾·庫馬爾 說,測試時計算可以提高人工智慧的準確性及其解決複雜推理問題的能力。他對他的領域轉向這種策略感到興奮,因為它賦予機器與我們給人們的寬限期相同的待遇,讓他們有額外的時間來解決難題。他認為這可能會使我們更接近具有類人智慧的模型。
“似乎所有這些技術都使模型變得更好一點。但我們真的不瞭解它們之間的關係。” —計算機科學副教授雅各布·安德烈亞斯
即使不能實現類人智慧,測試時計算也為改進大型語言模型 (LLM) 的主流方法提供了一種實用的替代方案。構建越來越大的模型並在 越來越龐大的資料集 上訓練它們的代價高昂、蠻力的方法現在正顯示出 收益遞減。伯特施說,測試時計算已證明其在實現“持續效能提升”方面的價值——既不會使已經笨重的模型膨脹,也不會迫使開發人員從 日益減少的供應 中搜尋額外的高質量資料。然而,增加測試時間並不能解決所有問題;它有其自身的權衡和限制。
一個大範疇
AI 開發人員有多種方法可以調整測試時計算過程,從而改進模型輸出。“這是一組非常廣泛的東西,”伯特施說,“幾乎任何將模型視為系統一部分並圍繞其構建腳手架的東西。”
最基本的方法是任何擁有計算機的人都可以在家完成的方法:要求聊天機器人對一個問題產生多個響應。生成更多答案需要更多時間,這意味著推理過程需要更長時間。一種思考方式:使用者成為人類腳手架的一層,引導模型找到最準確或最合適的答案。
另一種基本方法涉及提示聊天機器人報告它為解決問題而採取的中間步驟。這種策略被稱為“思維鏈”提示,在 Google 研究人員 2022 年預印本論文 中正式概述。同樣,使用者也可以簡單地要求 LLM 在生成輸出後對其進行雙重檢查或改進。
一些評估表明,思維鏈提示和相關的自我糾正方法可以改進模型輸出,儘管其他研究表明,這些策略 不可靠——容易產生與其他聊天機器人輸出相同型別的幻覺。為了減少不可靠性,許多測試時策略使用外部“驗證器”——一種經過訓練的演算法,可以根據預設標準對模型輸出進行評分,並選擇提供實現特定目標的最佳步驟的輸出。
驗證器可以在模型生成一系列可能的響應後應用。例如,當 LLM 生成計算機程式碼時,驗證器可以像執行程式碼以確保其正常工作的程式一樣簡單。其他驗證器可以引導模型完成多步驟問題的每個關鍵時刻。某些版本的測試時計算結合了這些方法的邏輯,方法是使用驗證器以兩種方式評估模型的輸出:作為逐步過程(具有許多可能的分支路徑)和作為最終響應。其他系統使用驗證器來查詢聊天機器人初始輸出或思維鏈中的錯誤,然後向 LLM 提供反饋以糾正這些問題。
伯特施說,測試時計算對於定量問題如此成功,是因為所有驗證器都取決於已知正確答案(或至少是比較兩個選項的客觀基礎)的存在。該策略對於改進詩歌或翻譯等輸出效果較差,因為在這些輸出中,排名是主觀的。
與上述所有方法略有不同的是,機器學習開發人員還可以在開發和訓練期間使用相同型別的演算法來磨練模型,然後在 測試時 應用它們。
麻省理工學院計算機科學副教授 雅各布·安德烈亞斯 說:“目前我們有所有這些不同的技術,所有這些技術的共同點是,你只需在測試時進行額外的計算,而這些技術基本上沒有其他技術特徵。”“似乎所有這些技術都使模型變得更好一點。但我們真的不瞭解它們之間的關係。”
共同的限制
儘管方法各不相同,但它們具有相同的內在侷限性:生成速度較慢,並且可能需要更多的計算資源、水和能源。環境可持續性已經成為該領域 日益嚴重的問題。
安德烈亞斯的博士生導師、麻省理工學院計算機科學博士候選人 埃金·阿基雷克 說,在沒有任何額外的測試時計算的情況下,LLM 回答單個查詢可能需要大約五秒鐘。但是,阿基雷克、安德烈亞斯及其同事 開發的一種方法 將響應時間提高到五分鐘。伊利諾伊大學厄巴納-香檳分校計算機科學教授 迪萊克·哈卡尼-圖爾 說,對於某些應用和提示,增加推理所需的時間根本沒有意義。哈卡尼-圖爾廣泛致力於開發與使用者“對話”的 AI 對話代理,例如亞馬遜的 Alexa。“在那裡,速度至關重要,”她說。對於複雜的互動,使用者可能不介意機器人響應暫停幾秒鐘。但對於基本的來回對話,如果人類必須等待感覺異常長的時間,他們可能會失去興趣。
更多時間也意味著更多的計算工作和金錢。根據一位獲得 AI 早期訪問許可權的流行 AI 基準測試建立者的估計,讓 o3 執行一項任務可能 花費 OpenAI 17 美元或超過 1000 美元,具體取決於使用的軟體版本。在模型將被大量使用者查詢數百萬次的情況下,將計算投資從訓練轉移到推理將使所有這些提示迅速累積成巨大的財務負擔和巨大的能源消耗。查詢 ChatGPT 等 LLM 已經使用了 估計是 Google 搜尋 10 倍 的電力。阿基雷克說,將計算時間從五秒增加到五分鐘,瞬間能源需求將增加數十倍。
但這並非在所有情況下都是明確的缺點。哈卡尼-圖爾說,如果提高測試時計算允許較小的模型以更少的訓練獲得更好的效能,或者如果它消除了從頭開始不斷構建和訓練更多模型的需求,那麼在某些情況下,該策略可能會減少生成式 AI 的能源消耗。最終的平衡取決於諸如預期用途、模型被查詢的頻率以及模型是否足夠小以在本地裝置而不是遠端伺服器堆疊上執行等因素。她補充說,利弊“需要仔細計算”。“我會從更宏觀的角度來看待我將如何使用模型。”也就是說,AI 開發人員在鼓勵他們的作品也這樣做之前,應該三思而後行。
