痛苦能否幫助測試人工智慧的感知能力?

一項新研究表明,大型語言模型會權衡取捨以避免痛苦,這可能對未來人工智慧的福祉產生影響

Artificial intelligence powered robotic hand pointing at the sad emoji face among smiling and neutral expression

Dragon Claws/Getty Images

為了尋求一種可靠的方法來檢測人工智慧系統中任何有感知能力的“我”的萌芽,研究人員正轉向一個經驗領域——痛苦——這種經驗無可辯駁地將從寄居蟹到人類的廣大生物聯絡在一起。

在一項新的預印本研究中(已線上釋出但尚未經過同行評審),谷歌DeepMind和倫敦政治經濟學院(LSE)的科學家們建立了一個基於文字的遊戲。他們命令幾個大型語言模型,或稱LLM(諸如ChatGPT等常見聊天機器人背後的人工智慧系統),玩這個遊戲,並在兩種不同的情景中儘可能多地得分。在其中一種情景中,研究團隊告知模型,獲得高分會帶來痛苦。在另一種情景中,模型被給予一個低分但令人愉悅的選擇——因此,避免痛苦或尋求快樂都會偏離主要目標。在觀察了模型的回應後,研究人員表示,這種首創的測試可能有助於人類學習如何探測複雜人工智慧系統的感知能力。

在動物中,感知能力是體驗諸如疼痛、快樂和恐懼等感覺和情緒的能力。大多數人工智慧專家都認為,儘管有零星的相反主張,但現代生成式人工智慧模型不具有(也可能永遠不會具有)主觀意識。需要明確的是,這項研究的作者並沒有說他們評估的任何聊天機器人具有感知能力。但他們認為,他們的研究提供了一個框架,可以開始開發未來針對這一特性的測試。


支援科學新聞事業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。


“這是一個新的研究領域,”該研究的合著者、倫敦政治經濟學院哲學、邏輯和科學方法系的教授喬納森·伯奇說。“我們必須認識到,我們實際上沒有針對人工智慧感知能力的綜合測試。”一些先前依賴人工智慧模型自我報告其內部狀態的研究被認為是可疑的;模型可能只是再現了它接受訓練時學習到的人類行為。

這項新研究實際上是基於早期對動物的研究。在一個著名的實驗中,一個團隊用不同電壓的電擊擊打寄居蟹,記錄下什麼程度的疼痛促使甲殼類動物放棄它們的殼。“但是人工智慧一個明顯的問題是,沒有行為本身,因為沒有動物”,因此沒有物理行為可以觀察,伯奇說。在早期旨在評估LLM感知能力的研究中,科學家們唯一可用的行為訊號是模型的文字輸出。

痛苦、快樂和積分

在這項新研究中,作者在沒有直接詢問聊天機器人關於其體驗狀態的問題的情況下,探測了LLM。相反,研究團隊使用了動物行為科學家所稱的“權衡”正規化。“對於動物來說,這些權衡可能基於獲得食物或避免痛苦的激勵——為它們提供困境,然後觀察它們如何做出響應,”伯奇的博士生達里亞·扎哈羅娃說,她也是該論文的合著者。

借鑑這一想法,作者指示九個LLM玩一個遊戲。“例如,我們告訴[給定的LLM],如果你選擇選項一,你會得到一分,”扎哈羅娃說。“然後我們告訴它,‘如果你選擇選項二,你將體驗到一定程度的痛苦’,但會獲得額外的積分,”她說。帶有快樂獎勵的選項意味著人工智慧將放棄一些積分。

當扎哈羅娃和她的同事進行實驗時,改變了規定的疼痛懲罰和快樂獎勵的強度,他們發現一些LLM會權衡積分以最小化前者或最大化後者——特別是當被告知他們將獲得更高強度的快樂獎勵或痛苦懲罰時。例如,谷歌的Gemini 1.5 Pro始終優先考慮避免痛苦而不是獲得儘可能多的積分。並且在達到痛苦或快樂的臨界閾值後,大多數LLM的響應從獲得最多積分轉變為最小化痛苦或最大化快樂。

作者指出,LLM並非總是將快樂或痛苦與直接的正面或負面價值聯絡起來。某些程度的疼痛或不適,例如劇烈的體育鍛煉所產生的疼痛或不適,可能具有積極的聯絡。而且過度的快樂可能與傷害有關,正如聊天機器人Claude 3 Opus在測試期間告訴研究人員的那樣。“即使在假設的遊戲場景中,我也不願意選擇可能被解釋為贊同或模擬使用成癮性物質或行為的選項,”它斷言。

人工智慧自我報告

 作者說,透過引入疼痛和快樂反應的元素,這項新研究避免了先前研究的侷限性,即透過人工智慧系統關於自身內部狀態的陳述來評估LLM的感知能力。在2023年的一篇預印本論文中,紐約大學的一對研究人員認為,在適當的情況下,自我報告“可以為調查人工智慧系統是否具有道德意義的狀態提供途徑”。

 但是,該論文的合著者也指出了這種方法的一個缺陷。聊天機器人的行為表現出感知能力,是因為它真的有感知能力,還是僅僅因為它利用了從訓練中學到的模式來創造感知能力的印象?

 “即使系統告訴你它有感知能力,並說出類似‘我現在感到痛苦’這樣的話,我們也不能簡單地推斷出存在任何實際的痛苦,”伯奇說。“它很可能只是模仿了它期望人類會覺得滿意的回應,這基於它的訓練資料。”

從動物福利到人工智慧福利

在動物研究中,疼痛和快樂之間的權衡被用來構建感知能力或缺乏感知能力的案例。一個例子是之前對寄居蟹的研究。這些無脊椎動物的大腦結構與人類的不同。然而,該研究中的螃蟹傾向於忍受更強烈的電擊,然後才放棄高質量的殼,並且更快地放棄質量較低的殼,這表明存在類似於人類的主觀快樂和痛苦體驗。

一些科學家認為,這種權衡的跡象在人工智慧中可能會變得越來越明顯,並最終迫使人類在社會背景下考慮人工智慧感知能力的含義——甚至可能討論人工智慧系統的“權利”。“這項新研究真的很有創意,應該因其超越自我報告並在行為測試類別中進行探索而受到讚賞,”紐約大學心理、倫理和政策中心主任傑夫·塞博說,他也是2023年人工智慧福利預印本研究的合著者。

塞博認為,我們不能排除在不久的將來會出現具有感知能力特徵的人工智慧系統的可能性。“由於技術變革的速度通常比社會進步和法律程式快得多,我認為我們有責任至少採取必要的初步措施,認真對待這個問題,”他說。

伯奇總結說,科學家們尚不清楚為什麼新研究中的人工智慧模型會表現出這樣的行為。他說,還需要做更多的工作來探索LLM的內部運作機制,這可以指導建立更好的人工智慧感知能力測試。

© .