聽取 ChatGPT 的 OpenAI 等公司的說法,通用人工智慧(AGI)是機器學習和人工智慧研究的最終目標。但是,衡量通用智慧機器的標準是什麼?1970 年,計算機科學家馬文·明斯基預測,即將開發的機器將能夠“閱讀莎士比亞,潤滑汽車,玩弄辦公室政治,講笑話,吵架”。多年後,通常歸因於蘋果聯合創始人史蒂夫·沃茲尼亞克的“咖啡測試”提出,當機器能夠進入陌生人的家中並煮一杯咖啡時,就實現了 AGI。
很少有人對 AGI 的最初定義達成一致——更不用說實現它了。計算機和認知科學專家,以及政策和倫理領域的其他專家,通常對這個概念有自己獨特的理解(並且對其含義或可能性有不同的看法)。沒有共識,就很難解讀關於 AGI 的公告或關於其風險和益處的說法。與此同時,然而,這個術語在新聞稿、採訪和計算機科學論文中越來越頻繁地出現。微軟研究人員去年宣稱 GPT-4 顯示出“AGI 的火花”;5 月底,OpenAI 證實,它正在訓練其下一代機器學習模型,該模型將擁有“更高水平的能力”,走在“通往 AGI 的道路上”。一些著名的計算機科學家認為,透過文字生成大型語言模型,AGI 已經實現。
為了瞭解如何談論 AGI,測試 AGI 以及管理 AGI 的可能性,我們將不得不更好地掌握它實際描述的內容。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
通用智慧
聖塔菲研究所的教授和計算機科學家梅蘭妮·米切爾說,AGI 在 1990 年代後期和 2000 年代初期成為計算機科學家中的流行術語,他們對他們認為的領域狹隘化感到沮喪。這是對深藍等專案的反應,深藍是擊敗國際象棋大師加里·卡斯帕羅夫和其他人類冠軍的國際象棋系統。一些人工智慧研究人員認為,他們的同事過於專注於訓練計算機掌握遊戲等單一任務,而忽視了最終目標:具有廣泛能力、類人的機器。“AGI [被使用] 是為了試圖回到最初的目標,”米切爾說——它是作為重新校準的創造。
但赫蒂學院的倫理和技術教授喬安娜·布賴森認為,從另一個角度來看,AGI 是“一個貶義詞”,她當時在人工智慧研究領域工作。她認為,這個術語武斷地將人工智慧的研究分為兩類計算機科學家:一類被認為正在為 AGI 做出有意義的工作,他們明確追求的是一個可以做人類可以做的一切的系統,而另一類則被認為是在更有限的——因此是無意義的——目標上空轉。(布賴森指出,許多這些“狹隘”的目標,例如教計算機玩遊戲,後來幫助推進了機器智慧。)
AGI 的其他定義可能看起來同樣範圍廣泛且難以捉摸。最簡單的說法是,它是指與人類智慧相當或超過人類智慧的機器。但“智慧”本身就是一個難以定義或量化的概念。威斯康星大學麥迪遜分校的認知神經科學家和心理學教授加里·盧普揚說,“通用智慧”甚至更棘手。他認為,人工智慧研究人員在談論智慧以及如何衡量機器智慧時,往往“過於自信”。
一個多世紀以來,認知科學家一直試圖專注於人類智慧的基本組成部分。人們普遍認為,在一組認知問題上表現良好的人往往在其他問題上也表現良好,許多人將此歸因於人類思維中某種尚未識別、可測量的方面,通常稱為“g 因素”。但盧普揚和許多其他人對這種觀點提出異議,認為智商測試和其他用於量化通用智慧的評估僅僅是當前文化價值觀和環境條件的快照。盧普揚說,學習計算機程式設計基礎知識的小學生和透過微積分課程的高中生已經取得了“即使在幾百年前的人們看來也完全不可能”的成就。然而,這並不意味著今天的孩子一定比過去的成年人更聰明;相反,人類作為一個物種積累了更多的知識,並將我們的學習重點從直接與種植和獲取食物相關的任務轉移到計算能力上。
加州大學伯克利分校的心理學教授艾莉森·戈普尼克也同意,“不存在通用智慧,無論是人工智慧還是自然智慧。” 她指出,不同型別的問題需要不同型別的認知能力;沒有一種型別的智慧可以做到一切。事實上,戈普尼克補充說,不同的認知能力可能會相互衝突。例如,幼兒天生就具有靈活性和快速學習能力,使他們能夠快速建立許多新的聯絡。但由於他們快速成長和變化的大腦,他們不擅長制定長期計劃。戈普尼克說,類似的原則和侷限性也適用於機器。在她看來,AGI 僅僅是“一個非常好的營銷口號”。
通用效能
莫拉維克悖論,最初在 1988 年描述,指出對人類來說容易的事情對機器來說很難,而人類覺得具有挑戰性的事情對計算機來說通常更容易。例如,許多計算機系統可以執行復雜的數學運算,但祝你好運,讓大多數機器人疊衣服或轉動門把手。米切爾指出,當機器顯然將繼續難以有效地操作物體時,AGI 的常見定義失去了與物理世界的聯絡。AGI 開始代表對認知任務的掌握,然後代表人類坐在連線到網際網路的計算機前可以做的事情。
在其章程中,OpenAI 將 AGI 定義為“在大多數具有經濟價值的工作中表現優於人類的高度自主系統”。然而,在一些公開宣告中,該公司創始人山姆·奧特曼表達了更開放的願景。他在最近的一次採訪中說:“我不再認為 [AGI] 像一個時間點。” “你和我可能不會在月份甚至年份上達成一致,比如,‘好吧,現在這就是 AGI 了。’”
人工智慧進步的其他仲裁者深入研究了具體細節,而不是含糊其辭。在 2023 年的預印本論文中,谷歌 DeepMind 的研究人員提出了六個智慧級別,可以透過這些級別對各種計算機系統進行評級:完全“沒有人工智慧”能力的系統,其次是“新興”、“勝任”、“專家”、“大師”和“超人”AGI。研究人員進一步將機器分為“狹隘”(特定於任務)或“通用”型別。“AGI 通常是一個非常有爭議的概念,”主要作者梅雷迪思·林格爾·莫里斯說。 “我認為人們真的很欣賞這是一個非常實用、經驗性的定義。”
為了提出他們的特徵描述,莫里斯和她的同事明確地關注人工智慧可以做什麼,而不是它如何做任務的演示。莫里斯說,關於大型語言模型和其他人工智慧系統如何實現其輸出以及它們是否真正複製任何類似人類的東西,存在“重要的科學問題”,但她和她的合著者希望“承認正在發生的事情的實用性”。
根據 DeepMind 的提議,包括 ChatGPT 和 Gemini 在內的一些大型語言模型符合“新興 AGI”的資格,因為它們在“廣泛的非物理任務(包括諸如學習新技能之類的元認知任務)方面“與非熟練人類相當或略好”。然而,即使是這種精心構建的資格也為未解決的問題留下了空間。該論文沒有具體說明應該使用哪些任務來評估人工智慧系統的能力,也沒有說明區分“狹隘”系統和“通用”系統的任務數量,也沒有說明建立人類技能水平比較基準的方法。莫里斯說,確定比較機器和人類技能的正確任務仍然是“一個活躍的研究領域”。
然而,一些科學家表示,回答這些問題並確定適當的測試是評估機器是否智慧的唯一方法。在這方面,目前的方法可能也存在不足。米切爾說,已經流行的 AI 基準測試,例如 SAT、律師資格考試或其他人為人類提供的標準化測試,無法區分是 AI 反芻訓練資料,還是 AI 展示了靈活的學習和能力。“給機器進行這樣的測試並不一定意味著它能夠像人類獲得類似分數時那樣外出並做各種事情,”她解釋道。
普遍後果
隨著各國政府試圖監管人工智慧,他們的一些官方戰略和政策引用了 AGI。米切爾指出,可變的定義可能會改變這些政策的應用方式。天普大學計算機科學家王培同意:“如果你試圖建立一個適合所有 [AGI 定義] 的法規,那根本不可能。” 王說,從新興法律涵蓋的系統型別到誰對這些系統的行為負責(是開發人員、訓練資料編譯器、提示者還是機器本身?),現實世界的結果可能會因對術語的理解方式而改變。所有這些都對人工智慧安全和風險管理具有至關重要的意義。
如果要從大型語言模型的興起中吸取一個最重要的教訓,那可能是語言是強大的。憑藉足夠的文字,有可能訓練計算機模型,至少在某些人看來,這些模型看起來像是機器智慧可以與人類智慧相媲美的初 glimpse。而我們選擇描述這種進步的詞語至關重要。
米切爾說:“我們使用的這些術語確實會影響我們對這些系統的思考方式。” 在 1956 年人工智慧研究開始之初,具有轉折意義的達特茅斯學院研討會上,科學家們辯論瞭如何稱呼他們的工作。她指出,有些人主張使用“人工智慧”,而另一些人則遊說使用“複雜資訊處理”。也許如果 AGI 被命名為“高階複雜資訊處理”之類的名稱,我們就會更慢地將機器擬人化或害怕人工智慧末日——也許我們就能夠就它是什麼達成一致意見。
