當談到人工智慧模型時,越大並非越好

人工智慧模型正變得越來越大,訓練它們所使用的資料集也隨之增大。但縮小規模可以解決一些重大的人工智慧問題

Brain image on laptop screen downloading images from the cloud

人工智慧的規模一直在擴大。為著名聊天機器人(如 OpenAI 的 ChatGPT 和 Google 的 Bard)提供支援的大型語言模型 (LLM) 由超過 1000 億個引數組成——這些引數是決定人工智慧如何響應輸入的權重和變數。與僅僅幾年前最先進的人工智慧模型相比,這代表著數量級的資訊和程式碼更多

從廣義上講,更大的人工智慧往往是能力更強的人工智慧。越來越大的 LLM 和越來越龐大的訓練資料集 使得聊天機器人可以透過大學考試,甚至醫學院的入學考試。然而,所有這些增長都存在缺點:隨著模型變得更大,它們也變得更加笨重、耗能且難以執行和構建。更小的模型和資料集可以幫助解決這個問題。這就是為什麼人工智慧開發人員,即使在一些最大的科技公司,也開始重新審視和評估小型化人工智慧模型。

例如,在 9 月,微軟研究人員團隊釋出了一份技術報告,介紹了一種名為 phi-1.5 的新語言模型。Phi-1.5 由 13 億個引數組成,約為 ChatGPT 免費版本的基礎模型 GPT-3.5 大小的百分之一。GPT-3.5 和 phi-1.5 也共享相同的通用架構:它們都是基於 Transformer 的神經網路,這意味著它們透過對映語言的上下文和關係來工作。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


但是,儘管 phi-1.5 的尺寸相對較小,但“它表現出許多更大的 LLM 的特徵”,作者在他們的報告中寫道,該報告以尚未經過同行評審的預印本論文形式釋出。在基準測試中,該模型的效能優於許多類似規模的模型。它還展示了與其他大 5 到 10 倍的人工智慧相當的能力。並且10 月份的最新更新甚至允許 phi-1.5 展示多模態——一種解釋影像以及文字的能力。上週,微軟宣佈釋出 phi-2,這是 phi-1.5 的後續產品,具有 27 億個引數,該公司聲稱,phi-2 在仍然相對緊湊的封裝中展示了更強大的能力

毫無疑問,像 Bard、GPT-3.5 和 GPT-4 這樣的大型 LLM 仍然比 phi 模型更強大。“我會說將 phi-1.5 與 GPT-4 進行比較就像將一名中學生和一名大學生進行比較,”微軟研究院首席人工智慧研究員兼 9 月份報告的作者之一 Ronen Eldan 說。但 phi-1.5 和 phi-2 只是最新的證據,表明小型人工智慧模型仍然可能很強大——這意味著它們可以解決像 GPT-4 這樣的巨型人工智慧模型帶來的一些問題。

首先,訓練和執行一個擁有超過 1000 億個引數的人工智慧模型需要大量能源。根據華盛頓大學計算機工程師 Sajjad Moazeni 的一項估計,全球 ChatGPT 一天的標準使用量可能消耗的電力相當於大約 33,000 個美國家庭在同一時間段內的用電量。根據上個月在Joule上發表的一項分析,如果谷歌將其所有使用者的搜尋引擎互動都替換為對 Bard 的查詢,那麼執行該搜尋引擎將消耗與愛爾蘭整個國家一樣多的電力。這種電力消耗很大程度上來自透過如此密集的引數網路傳送查詢所需的所有計算能力,以及用於訓練大型模型的大量資料。哈佛大學計算機工程師 Matthew Stewart 說,較小的人工智慧需要更少的計算能力和能源來執行。這種能源回報是一種可持續性提升。

此外,資源密集程度較低的人工智慧更易於訪問。就目前而言,只有少數幾家私營公司擁有資金和伺服器空間來構建、儲存、訓練和修改最大的 LLM。更多人可以開發和研究較小的模型。Mila-魁北克人工智慧研究所的計算和認知語言學研究員 Eva Portelance 說,縮小規模“在某種意義上可以使人工智慧民主化”。“在不需要那麼多資料,並且不需要模型那麼大的情況下……,您正在使大型機構以外的人們有可能進行創新。” 這是縮小規模的人工智慧實現新可能性的多種方式之一。

首先,更小的人工智慧可以安裝在更小的裝置中。目前,大多數 LLM 的尺寸意味著它們必須在雲端執行——它們太大而無法本地儲存在未連線的智慧手機或筆記型電腦上。然而,較小的模型可以單獨在個人裝置上執行。例如,Stewart 研究所謂的邊緣計算,其目標是將計算和資料儲存塞入本地機器,例如“物聯網”小工具。他致力於開發足夠緊湊的機器學習驅動的感測器系統,以便在單個無人機上執行——他稱之為“微型機器學習”。Stewart 解釋說,這樣的裝置可以實現諸如在偏遠地區進行更先進的環境感測等功能。如果功能強大的語言模型變得同樣小巧,它們將有無數的應用。在智慧冰箱等現代電器或 Apple Watch 等可穿戴裝置中,較小的語言模型可以實現類似聊天機器人的介面,而無需透過雲連線傳輸原始資料。這將對資料安全帶來巨大的好處。“隱私是主要好處之一,”Stewart 說。

儘管普遍規律是較大的人工智慧模型功能更強大,但並非每個人工智慧都必須能夠做所有事情。智慧冰箱內的聊天機器人可能需要理解常見的食物術語並撰寫列表,但不需要編寫程式碼或執行復雜的計算。過去的分析表明,大型語言模型可以被精簡,甚至可以縮小多達 60%,而不會犧牲所有領域的效能。Stewart 認為,對於希望從人工智慧熱潮中獲利的公司來說,更小、更專業的 AI 模型可能是下一個大浪潮。

然後,還有一個更根本的可解釋性問題:機器學習模型在多大程度上可以被其開發人員理解。紐約大學研究人工智慧的計算認知科學家 Brenden Lake 解釋說,對於較大的人工智慧模型,基本上不可能解析每個引數的作用。這就是人工智慧的“黑匣子”:開發人員構建和執行模型,而對演算法中每個權重完成的任務沒有任何真正的瞭解。在較小的模型中,確定因果關係並進行相應的調整更容易,但通常仍然很困難。“我寧願嘗試理解一百萬個引數,也不願嘗試理解十億個引數,”Lake 說。

對於 Lake 和 Portelance 來說,人工智慧不僅僅是構建儘可能強大的語言模型,還在於深入瞭解人類如何學習以及我們如何透過機器更好地模仿它。大小和可解釋性是建立有助於闡明我們自身思維的模型中的關鍵因素。對於大型人工智慧模型——通常在更大的資料集上訓練——訓練資訊的廣度可能會掩蓋侷限性,並使其看起來好像算法理解了它不理解的東西。相反,對於更小、更易於解釋的人工智慧,解析演算法為什麼產生輸出要容易得多。反過來,科學家可以利用這種理解來建立“更具認知合理性”且可能總體上更好的人工智慧模型,Portelance 說。他們指出,人類是認知和學習的黃金標準:我們可以吸收如此多的資訊,並從非常少的資訊中推斷出模式。有充分的理由嘗試研究這種現象並透過人工智慧複製它。

與此同時,“在大型資料集上訓練大型模型的回報正在遞減,”Lake 說。最終,找到高質量資料成為一項挑戰,能源成本不斷攀升,模型效能的提升速度也越來越慢。相反,正如他自己過去的研究表明的那樣,機器學習的重大進展可能來自關注更精簡的神經網路並測試替代訓練策略

微軟研究院高階首席人工智慧研究員 Sébastien Bubeck 對此表示贊同。Bubeck 是 phi-1.5 背後的開發人員之一。對他來說,研究縮小規模的人工智慧的目的是“找到智慧火花從演算法中湧現出來的最小成分”。一旦你理解了這些最小的組成部分,你就可以在此基礎上進行構建。透過使用較小的模型來處理這些重大問題,Bubeck 希望以儘可能經濟的方式改進人工智慧。

“透過這種策略,我們在構建模型時會更加謹慎,”他說。“我們正在採取更慢、更深思熟慮的方法。” 有時,穩紮穩打才能贏得比賽——有時,更小才能更聰明。

© .