早在 1936 年艾倫·圖靈開始計算機科學研究之後不久,他就開始思考人類是否有一天能夠製造出智慧可與人類相媲美的機器。人工智慧是現代關注這個問題的領域,自那時以來已經取得了長足的進步。但是,能夠獨立完成許多不同任務的真正智慧機器尚未被髮明出來。儘管科幻小說長期以來一直想象人工智慧有一天會呈現出惡意形式,例如不道德的機器人或殺人終結者,但今天的 AI 研究人員通常更擔心已經與我們的生活交織在一起的日常 AI 演算法,以及已經與它們相關的各種問題。
即使今天的 AI 只能自動化某些特定任務,但它已經引起了重大擔憂。在過去十年中,工程師、學者、舉報人和記者反覆記錄了一些案例,在這些案例中,由軟體和演算法組成的 AI 系統已經造成或促成了對人類的嚴重傷害。刑事司法系統中使用的演算法可能會不公平地建議拒絕假釋。社交媒體推送可能會將有害內容導向脆弱的青少年。AI 引導的軍用無人機可能會在沒有任何道德推理的情況下殺人。此外,AI 演算法往往更像是一個神秘莫測的黑匣子,而不是一個發條裝置。研究人員通常無法理解這些基於涉及數十億次計算的不透明方程的演算法是如何實現其結果的。
AI 的問題並未被忽視,學術研究人員正試圖使這些系統更安全、更合乎道德。構建以 AI 為中心產品的公司正在努力消除危害,儘管他們在努力方面往往缺乏透明度。“他們一直不是很坦誠,”加州大學伯克利分校的 AI 研究員喬納森·斯特雷說。AI 已知的危險以及其潛在的未來風險,已成為新 AI 研究的廣泛驅動因素。即使是那些專注於更抽象問題(例如 AI 演算法效率)的科學家,也無法再忽視其領域對社會的影響。“AI 變得越強大,人們就越要求它必須是安全和穩健的,”香港科技大學的 AI 研究員馮雁表示。“在過去的三十年裡,我從事 AI 行業,但在很大程度上,人們並不真正在意。”
支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
隨著 AI 的廣泛使用,人們的擔憂日益增長。例如,在 2010 年代中期,一些網路搜尋和社交媒體公司開始在其產品中插入 AI 演算法。他們發現他們可以建立演算法來預測哪些使用者更有可能點選哪些廣告,從而增加他們的利潤。計算技術的進步透過顯著改進這些演算法的“訓練”——使它們從示例中學習以實現高效能——使這一切成為可能。但是,隨著 AI 逐漸滲透到搜尋引擎和其他應用程式中,觀察家開始注意到問題並提出疑問。2016 年,調查記者提出某些假釋評估中使用的演算法存在種族偏見的說法。
該報告的結論受到了質疑,但設計公平且公正的 AI 現在被 AI 研究人員認為是核心問題。每當部署 AI 來預測來自不同人群的人時,就會出現擔憂。隨著 AI 被嵌入到越來越多的決策過程中,例如篩選求職簡歷或評估公寓租戶申請,公平性現在已成為更加關注的焦點。
在過去幾年中,在社交媒體應用程式中使用 AI 已成為另一個擔憂。許多這些應用程式使用稱為推薦引擎的 AI 演算法,其工作方式與廣告投放演算法類似,以決定向使用者顯示哪些內容。目前有數百個家庭起訴社交媒體公司,指控演算法驅動的應用程式正在將有害內容定向到兒童並導致心理健康問題。西雅圖公立學校最近提起訴訟,指控社交媒體產品具有成癮性和剝削性。但是,理清演算法的真實影響並非易事。社交媒體平臺釋出的關於使用者活動的資料很少,而獨立研究人員需要這些資料來進行評估。“關於所有技術的複雜之處之一是,總是存在成本和收益,”斯特雷說,他的研究重點是推薦系統。“我們現在處於一種難以知道實際不良影響是什麼的情況。”
AI 問題的性質也在發生變化。過去兩年見證了多種“生成式 AI”產品的釋出,這些產品可以生成文字和質量非凡的影像。越來越多的 AI 研究人員現在認為,強大的未來 AI 系統可以基於這些成就,並在未來有一天構成全球性的、災難性的危險,這可能會使當前的問題相形見絀。
未來的威脅可能採取什麼形式?在 10 月份釋出在預印本儲存庫 arXiv.org 上的一篇論文中,DeepMind(谷歌母公司 Alphabet 的子公司)的研究人員描述了一種災難性情景。他們想象工程師開發一種基於現有科學原理的程式碼生成 AI,並負責讓程式設計師採用其提交的程式碼到他們的編碼專案中。這個想法是,隨著 AI 提交越來越多的程式碼,並且其中一些被拒絕,人類的反饋將幫助它學習更好地編碼。但研究人員認為,這種 AI 以其唯一的指令——使其程式碼被採用——可能會發展出一種悲劇性的不健全策略,例如實現世界統治並迫使其程式碼被採用——以顛覆人類文明為代價。
一些科學家認為,應該優先考慮對現有問題的研究,這些問題已經具體且數量眾多,而不是涉及假設的未來災難的工作。“我認為我們今天遇到了更糟糕的問題,”杜克大學計算機科學家和 AI 研究員辛西婭·魯丁說。加強這一論點的是,AI 尚未直接造成任何大規模災難——儘管有一些有爭議的案例表明,該技術不需要達到未來主義的能力水平才能變得危險。例如,非營利性人權組織國際特赦組織在去年 9 月釋出的一份報告中聲稱,Facebook 母公司 Meta 開發的演算法“極大地促成了對緬甸羅興亞人(一個少數民族穆斯林群體)人權的不利影響”,透過放大煽動暴力的內容。Meta 回應大眾科學的評論請求,指出 Meta 亞太地區公共政策總監拉斐爾·弗蘭克爾之前向時代雜誌發表的宣告,他承認緬甸軍方對羅興亞人犯下了罪行,並表示 Meta 目前正在參與聯合國和其他組織領導的政府間調查工作。
其他研究人員表示,防止強大的未來 AI 系統造成全球性災難已經是一個主要關注的問題。“對我來說,這是我們需要解決的首要問題,”OpenAI 公司的 AI 研究員 Jan Leike 說。儘管這些危害到目前為止完全是推測性的,但它們無疑正在推動越來越多的研究人員研究各種減少危害的策略。
在一種稱為價值對齊的方法中,由加州大學伯克利分校的 AI 科學家斯圖爾特·羅素開創,研究人員尋求訓練 AI 系統學習人類價值觀並按照這些價值觀行事的方法。這種方法的一個優點是,它可以現在就開發出來,並在未來的系統呈現災難性危害之前應用於這些系統。批評者認為,價值對齊過於狹隘地關注人類價值觀,而使 AI 安全還有許多其他要求。例如,正如人類一樣,經過驗證的、事實性的知識基礎對於 AI 系統做出好的決策至關重要。“問題不是 AI 價值觀錯誤,”艾倫人工智慧研究所的研究員奧倫·埃齊奧尼說。“事實是,我們實際的選擇是我們價值觀和知識的函式。”考慮到這些批評,其他研究人員正在努力開發更通用的 AI 對齊理論,該理論致力於確保未來系統的安全,而不會像狹隘地關注人類價值觀那樣。
一些科學家正在採用他們認為更實用且與當前相關的 AI 對齊方法。考慮一下文字生成技術的最新進展:領先的例子,例如 DeepMind 的 Chinchilla、Google Research 的 PaLM、Meta AI 的 OPT 和 OpenAI 的 ChatGPT,都可以生成種族歧視、非法或欺騙性的內容——這些公司都承認這是一個挑戰。包括 OpenAI 和 DeepMind 在內的一些公司認為這些問題是價值對齊不足的問題。他們現在正在努力改進文字生成 AI 的價值對齊,並希望這將為對齊未來的系統提供見解。
研究人員承認,通用的 AI 對齊理論仍然缺失。“我們真的沒有一個答案來解決如何對齊比人類聰明得多的系統,”萊克說。但是,無論 AI 最糟糕的問題是過去、現在還是未來,至少解決它們的最大障礙不再是缺乏嘗試。
