ChatGPT 引發了人工智慧炒作浪潮。 OpenAI 由大型語言模型 (LLM) 驅動的聊天機器人的出現,迫使領先的科技公司儘快跟進類似的應用程式。 開發強大的人工智慧模型的競賽仍在繼續。 Meta 在 2023 年初推出了名為 Llama 的 LLM,而谷歌去年也推出了 Bard 模型(現已更名為 Gemini)。 其他提供商,如 Anthropic,也交付了 令人印象深刻的人工智慧應用程式。
然而,新型 LLM 絕非完美:訓練它們需要大量時間和計算能力。 而且通常 不清楚它們是如何得出結果的。 事實上,當前的人工智慧模型就像一個黑匣子。 你輸入一些東西,它們會輸出結果,但沒有任何附帶的解釋。 這使得很難弄清楚程式是在胡編亂造(“幻覺”)還是在提供有意義的答案。 大多數公司專注於透過使用更多資料訓練模型或針對特定任務最佳化模型來獲得可靠的結果,例如解決數學問題。
然而,人工智慧模型的基本原理通常保持不變:演算法通常基於神經網路,神經網路模仿我們大腦的視覺皮層。 但由麻省理工學院物理學家劉子明領導的專家團隊現在開發出一種方法,在許多方面超越了傳統的神經網路。 正如研究人員在 4 月下旬在尚未經過同行評審的預印本論文中報告的那樣,所謂的柯爾莫哥洛夫-阿諾德網路 (KAN) 可以更有效地掌握各種任務,並比以前的方法更好地解決科學問題。 而且可能最大的優勢是它們的結果可以重現。 專家們希望能夠將 KAN 整合到 LLM 中,以提高其效能。
支援科學新聞報道
如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。 透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
悉尼大學數學家 Geordie Williamson 說:“重要的是為數學中的人工智慧尋找更高效、更可解釋且訓練強度更低的結構”,他沒有參與這項工作。
有許多不同的機器學習演算法,例如所謂的決策樹和線性迴歸。 然而,自 2010 年代以來,神經網路已被納入大多數應用程式中。 這些程式的結構基於哺乳動物視覺皮層的結構。 多個計算單元(神經元)分層排列,一層接一層,並透過邊緣(突觸)連線。 訊號從前向後傳播,並在每一層進行處理。 儘管這種程式的想法可以追溯到 1950 年代,但直到 2010 年代,計算機才足夠強大到可以成功執行它們。
這是因為神經網路需要進行廣泛的訓練,才能使其輸入(例如影像中的畫素)產生適當的輸出(例如影像的描述)。 對於訓練,輸入值被傳輸到第一層的“神經元”。 然後將這些值乘以相關“突觸”的所謂權重(數值)。 如果乘積達到某個閾值,則將其傳遞到下一層。 然後,第二層的神經元採用來自第一層的突觸的傳入數值。 然後過程繼續:第二層的神經元乘以後續突觸的權重,這些權重被傳遞到第三層,依此類推,直到訊號到達最終輸出層。 在訓練期間,神經網路調整突觸的權重,以便輸入產生所需的輸出。
更詳細地來說,以下是該過程的工作原理:第一層神經元(例如,n1、n2 和 n3)對應於輸入。 程式被賦予要處理的值,例如影像的畫素。 每個突觸都有一個權重,該權重乘以前一個神經元的值。 如果乘積達到某個閾值,則結果被傳遞。 然後,第二層神經元接收相應的轉發乘積。 如果多個突觸通向一個神經元,則將相應的乘積加在一起。
透過這種方式,輸入值逐層處理,直到在最後一層產生輸出。 必須調整突觸的權重,以便神經網路能夠完成其任務,例如,提供影像的合適描述。 廣泛的訓練過程使用數十萬個樣本資料的輸入,並且網路可以選擇權重,使其可靠地完成其任務。
神經網路背後的原理最終可以簡化為簡單的數學任務。 您想要為某些輸入資料(x1、x2、x3、...),例如影像畫素,生成輸出 (y)——例如,影像描述。 因此,您正在尋找合適的函式:f(x1、x2、x3、...) = y。 目標是確定一個函式,該函式為每種型別的影像提供相應的描述。 函式本身非常複雜,精確解似乎是無望的。
然而,神經網路提供了使用簡單表示式逼近函式的可能性。 原則上,神經網路僅由線性項的串聯組成:神經元的值乘以突觸的權重並加在一起。 從數學的角度來看,出現了神經網路可以表示哪些函式的問題。 事實上,神經網路到底可以表示哪些函式? 如果函式非常複雜以至於無法簡單表示怎麼辦? 這裡的一個重要結果是“通用逼近定理”,它解決了這個問題。 近年來,專家們已經能夠證明神經網路必須由最少層陣列成才能令人滿意地逼近某種型別的函式——從而解決期望的任務。
事實上,有一個數學結果允許將 f(x1、x2、x3、...) 型別的複雜函式精確地表達為更簡單的項——而不僅僅是像傳統神經網路那樣進行逼近。 其基礎是數學家弗拉基米爾·阿諾德和安德烈·柯爾莫哥洛夫在 1960 年代提出的定理。 根據該定理,依賴於眾多輸入(x1、x2、x3、...)的函式可以精確地表示為函式之和:可以新增 g1(x1)、g2(x2)、g3(x3)、...,每個函式僅依賴於一個變數。 乍一看這可能仍然顯得複雜,但從數學角度來看,這代表著極大的簡化。 這是因為處理直接依賴於無數變數(如 x1、x2、x3、...)的函式極其困難。
劉的團隊現在使用阿諾德和柯爾莫哥洛夫定理開發了 KAN,它可以提供更準確和可理解的結果。 “柯爾莫哥洛夫-阿諾德表示定理在神經網路社群中並非鮮為人知,”德國達姆施塔特工業大學計算機科學家 Kristian Kersting 說,他沒有參與劉及其同事的最新研究。 在 1980 年代和 1990 年代,專家們認為這種方法不能用於神經網路。 儘管這種觀點近年來發生了變化,但迄今為止,該原理的直接實現尚未成功。
KAN 的結構與傳統神經網路的結構相似。 然而,權重沒有固定的數值。 相反,它們對應於一個函式:w(x)。 這意味著突觸的權重 (w) 取決於前一個神經元的值 (x)。 因此,在訓練期間,神經網路學習調整權重,不是作為純數值,而是作為突觸的相關函式。 透過這種方式,至少在理論上,可以透過有限的網路來表示高度複雜的函式 f(x1、x2、x3、...)——從而使用人工智慧高精度地解決任務。
突觸函式的表示提供了另一個優勢:更容易理解 KAN 的工作原理。 雖然像權重這樣的簡單數值意義不大,但函式的情況並非如此。 例如,您可以透過檢視函式的相應圖表來直觀地識別輸出如何依賴於輸入。
然而,新網路也有一個明顯的缺點:KAN 在學習過程中必須包含整個函式,而不僅僅是數值。 因此,訓練階段變得更加複雜,並且需要更多時間。
在他們的工作中,劉和他的同事將他們開發的 KAN 與傳統的神經網路(稱為多層感知器 (MLP))進行了比較。 在初步測試中,他們使用了各種已知函式 f(x1、x2、x3、...) = y 以及相應的資料 x1、x2、x3、... 和 y。 這裡的任務是找出普通 MLP 和 KAN 可以多快地從資料中推匯出底層函式。 結果證明,KAN 能夠比同等大小的 MLP 更快地逼近函式。
然後,專家們在實際問題上測試了 KAN,例如求解偏微分方程,這在物理學中起著重要作用。 大多數此類方程沒有已知的精確解,需要計算機來獲得結果。 劉和他的同事發現,KAN 在求解這些方程方面也比 MLP 提供了更準確的結果。
此外,研究人員還將新網路應用於當前的科學問題,包括結理論的數學領域中的問題。 該領域的主要問題之一是如何找出結的不同二維表示是否實際上對應於同一個結。 2021 年,悉尼大學的 Geordie Williamson 和他的同事 使用神經網路來解決這個問題,並揭示了以前未曾預料到的聯絡。 正如劉的團隊現在所展示的那樣,KAN 可以產生完全相同的結果,但付出的努力更少。 雖然 Williamson 的團隊不得不訓練一個具有約 300,000 個引數的神經網路,但劉及其同事的研究中使用的 KAN 僅用 200 個引數就獲得了更好的結果。
劉和他的同事樂觀地認為,他們能夠將他們的新方法應用於廣泛的問題,從數學和物理學到改進 LLM。 人工智慧社群在社交媒體上也對此充滿熱情:“機器學習 [ML] 的新時代已經開始!”一位使用者在 X(前身為 Twitter)上寫道。 軟體開發人員 Rohan Paul 在同一平臺上指出:“柯爾莫哥洛夫-阿諾德網路 (KAN) 看起來越來越像是要改變一切。”
然而,圍繞 KAN 的炒作是否真的合理,只有在實踐中才能明確。“KAN 也應該在 MLP 執行良好的領域進行評估,”Kersting 說。“如果沒有這樣的比較,就不清楚 KAN 是否是一種有希望的新替代方案。” 然而,與此同時,這位計算機科學家強調了這項新工作的價值。“我認為將該定理重新引起社群的注意非常好。 這些應用令人興奮,即使它們並非深度學習社群的主要關注點。”
迄今為止,新方法的最大侷限性是訓練速度慢:對於相同數量的引數,KAN 的訓練時間大約是傳統 MLP 的 10 倍。 如果您想將該方法用於 LLM,這將成為一個特別的問題,因為 LLM 由於其龐大的規模已經需要很長的訓練時間。 然而,根據劉的說法,KAN 的學習速度可以提高:“我身體裡的物理學家會壓制我編碼員的個性,所以我沒有嘗試(知道)最佳化效率,”他在 X 上的帖子中寫道。 由於該方法目前受到極大的關注,因此這種弱點可能很快就會得到解決。
本文最初發表於《科學世界》雜誌,經許可轉載。
