人工智慧安全研究只會加劇失控的超級智慧的危險

人工智慧將變得難以理解和無法控制。我們需要暫停人工智慧開發，直到我們進行必要的安全對話

作者：Tamlyn Hunt 編輯：Daniel Vergano

People working at the computers and giant robot ominously rising behind them — Moor Studio/Getty Images

在沉寂數十年後，人工智慧（AI）突然變得出奇地強大。如果我們不非常小心，它可能會變得相當危險——甚至危險到對人類構成“生存風險”。

傑弗裡·辛頓，作為更可信的“末日論者”之一，因為他曾在谷歌工作多年，並被稱為“人工智慧教父”，他多次警告說，這些威脅不僅僅是科幻小說。他說，例如：“很難看出如何阻止壞人利用[人工智慧]做壞事。”

白宮、一些世界領導人和許多人工智慧公司正在努力阻止這種情況發生，但他們的努力還不夠。如果我們想確保人工智慧不會造成不可彌補的損害，我們需要停止人工智慧模型的開發，直到我們就人工智慧安全進行適當的討論。別無他法。

關於支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您將有助於確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。

對於許多聽到人工智慧擔憂的人來說，像ChatGPT、Bard和Claude 2這樣的當今聊天機器人與統治世界的邪惡超級智慧人工智慧的潛力之間存在脫節。我們如何從這裡到達那裡？

關鍵思想是人工智慧的指數級改進，這很可能很快達到超越人類智慧的門檻。這種通用人工智慧（AGI）通常被描述為在大多數或所有人認知任務（例如語言、問題解決、數學、推理和創造力）方面與人類一樣好或更好的AI。一旦實現，AGI甚至將構建更智慧的AI，並且速度比人類快得多。這意味著它將能夠呈指數級地自我改進。當這種情況發生時，我們可能會經歷一個“foom！”的時刻，即情報的極速增長，然後達到一些人所稱的人工智慧超級智慧（ASI）。

ASI可以被認為是具有神力的AI。如果曾經存在的最聰明的人類可能擁有200的智商，那麼ASI可能具有一百萬或更高的智商（當然，任何人類建立的測試量表對於如此智慧的實體都將毫無意義）。

AGI和ASI很可能能夠構建超人機器人，這將成為它們的身體。無論這些機器人是由AI還是人類控制，至少，它們將改變我們在人類社會中所做的一切，並且在最壞的情況下，將被不擇手段的政府和公司（或不擇手段的AI）用來控制人類。

然而，更可能在近期發生的風險將不是失控的自主AI；相反，這將是人類將AGI/ASI用於惡意目的。“大國”競爭，例如美國和中國之間的競爭，以及已經存在的AI軍備競賽很容易達到自主AI接管幾乎所有戰略和戰爭方面的地步，並且人類完全失去對情節的控制。

正如所提到的，許多努力正在進行中，以防止危險的AI情景。白宮在11月釋出了一項影響深遠的行政命令，使聯邦政府能夠在許多領域對AI做出回應。世界領導人在英國會面討論AI安全，併發布了布萊切利宣言，該宣言啟動了一項國際程序。像OpenAI這樣的行業領導者已經啟動了超級對齊倡議和前沿模型論壇。OpenAI和Anthropic（OpenAI前僱員創立的競爭對手）的建立專門關注更安全的AI。

但是，這些努力都無法實現其使AGI安全的目標。

我們現在知道，對於所謂的AI的“控制問題”或“對齊問題”，沒有解決方案。計算機科學教授羅曼·揚波爾斯基在2022年網路安全與移動性雜誌的一篇論文中詳細說明了原因。他的論點集中在AI的工作原理以及對其進行預測和驗證上——即使對於今天的AI來說，這也是幾乎不可能的，今天的AI通常被描述為“黑匣子”，更不用說地平線上的超級智慧AI了。他發現，我們現在無法理解AI如何運作，也無法預測其未來的行動，即使AI離超級智慧還差得很遠，這扼殺了控制這項技術的任何希望，因為它變得越來越智慧。最重要的是，隨著AI趨向AGI/ASI，對於區區人類來說，AI將越來越難以理解，因此也無法控制。

想象我們可以理解AGI/ASI，更不用說控制它，就像認為蜘蛛網的一根絲可以束縛哥斯拉一樣。我們可能開發的任何解決方案都將只是機率性的，而不是萬無一失的。隨著AGI可能在本質上“foom”地進入超級智慧，我們不能接受機率性解決方案，因為AI將非常聰明，它會利用任何微小的漏洞，無論多麼小。（“foom”是否已經發生？關於Open AI在11月發生的離奇戲劇之後的“Q*”的暗示性報道表明，foom可能已經成為現實。）

如果洩漏的解決方案是我們永遠擁有的全部，那麼從行政命令到行業標準，所有建立“更安全AI”的努力都相當於支援不負責任地開發功能更強大的AI，其觀點是有人會在某個地方及時找到解決方案。

但是，如果正如我在此處描述的邏輯一樣，真正的解決方案永遠不會到來呢？那麼我們將召喚出惡魔，卻無力將惡魔送回它來的地方。

在與OpenAI的AI安全主管Jan Leike關於這些問題的對話中。我詢問了鑑於風險的嚴重性，是否需要基本上完美的AI安全解決方案，他回答說：“現實世界中沒有‘完美’，但有‘足夠好’和‘不夠好’。確切的門檻取決於技術如何發展。”

我問他，如果在控制問題的任何強大（機率性）解決方案出現之前“foom”發生會怎麼樣。他告訴我，“你已經知道這個問題的答案了。”

在我看來，從這一邏輯鏈中得出的明確結論是，我們需要現在在全球範圍內暫停“前沿”AI開發——開發像GPT 5這樣的大型AI語言模型——同時我們就AI安全進行集體辯論。

揚波爾斯基和我就這些問題進行過友好的辯論。雖然他同意，使AI與人類價值觀和目標對齊只能有機率性解決方案（他確實寫了關於這個問題的論文），但他認為這可能仍然比什麼都沒有好。他告訴我，他認為尋找能夠產生對齊和可控AI的解決方案的努力正在從1%的機會轉變為可能2%的機會。

我分享了我的觀點，即似乎更有可能從AGI對齊的萬億分之一的機會變為萬億分之二的機會。

他回應說：“所以你是在告訴我還有機會。”

這很可能是人類有史以來最重要的對話。讓我們現在開始吧。

這是一篇觀點和分析文章，作者或作者表達的觀點不一定代表《大眾科學》的觀點。