新工具揭示人工智慧如何做出決策

諸如 ChatGPT 等大型語言模型傾向於虛構事實。一種新方法現在允許這些系統解釋他們的回答——至少是部分地解釋

Illustration showing yellow balls forming the shape of a side view of a human brain against a dusty rose backdrop.

當我要求 ChatGPT 說出Spektrum der Wissenschaft(《大眾科學》的德語姊妹刊物)的主編時,答案是:“我掌握的最新資訊截至 2021 年,當時弗洛裡安·弗賴斯特特博士是Spektrum der Wissenschaft的主編。但是,資訊可能自那時以來已更改。” 這突顯了當前缺點之一,即當前的語言生成人工智慧程式:它們會“產生幻覺”。雖然 Spektrum der Wissenschaft 刊登了許多 弗賴斯特特的著作,但他從未擔任過 Spektrum der Wissenschaft 的員工,更不用說主編了。這就是為什麼致力於所謂的“可解釋人工智慧”(XAI)模型非常重要的原因,這些模型可以證明其答案的合理性,從而變得更加透明。

大多數人工智慧程式的功能就像一個“黑匣子”。“我們確切地知道模型做了什麼,但不知道它為什麼現在特別識別出一張圖片顯示的是貓,”德國達姆施塔特工業大學的計算機科學家克里斯蒂安·科斯廷在德語報紙Handelsblatt上說。 這種困境促使科斯廷——以及達姆施塔特工業大學的計算機科學家帕特里克·施拉莫夫斯基,以及德國海德堡人工智慧公司 Aleph Alpha 的比約恩·戴澤羅斯、馬尤克·德布和塞繆爾·魏因巴赫——今年早些時候推出了一個名為 AtMan 的演算法。AtMan 允許 ChatGPT、Dall-E 和 Midjourney 等大型人工智慧系統最終解釋其輸出。

2023 年 4 月中旬,Aleph Alpha 將 AtMan 整合到其自身的語言模型 Luminous 中,從而使人工智慧能夠推理其輸出。那些想親身嘗試的人可以免費使用 Luminous 遊樂場,用於諸如總結文字或完成輸入等任務。例如,“我喜歡吃漢堡配”之後是答案“薯條和沙拉”。然後,藉助 AtMan,可以確定哪些輸入詞導致了輸出:在本例中是“漢堡”和“最喜歡”。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。


然而,AtMan 的解釋能力僅限於輸入資料。它確實可以解釋“漢堡”和“喜歡”這兩個詞最強烈地促使 Luminous 用“薯條和沙拉”完成輸入。但它無法推理 Luminous 如何知道漢堡通常與薯條和沙拉一起食用。這種知識仍然存在於模型訓練的資料中。

AtMan 也無法揭穿人工智慧系統講述的所有謊言(所謂的幻覺)——例如弗洛裡安·弗賴斯特特是我的老闆。然而,從輸入資料中解釋人工智慧推理的能力提供了巨大的優勢。例如,可以快速檢查人工智慧生成的摘要是否正確,並確保人工智慧沒有新增任何內容。這種能力從倫理角度也起著重要作用。“例如,如果銀行使用演算法來計算一個人的信用度,則可以檢查哪些個人資料導致了該結果:人工智慧是否使用了歧視性特徵,例如膚色、性別等等?” AtMan 的共同開發者戴澤羅斯說。

此外,AtMan 不僅限於純語言模型。它還可以用於檢查生成或處理影像的人工智慧程式的輸出。這不僅適用於 Dall-E 等程式,也適用於分析醫學掃描以診斷各種疾病的演算法。這種能力使人工智慧生成的診斷更易於理解。如果人工智慧識別出以前人類忽略的模式,醫生甚至可以從中學習。

人工智慧演算法是一個“黑匣子”

“人工智慧系統發展極其迅速,有時過早地整合到產品中,”也參與了 AtMan 開發的施拉莫夫斯基說。“重要的是我們理解人工智慧如何得出結論,以便我們能夠改進它。” 這是因為演算法仍然是一個“黑匣子”:雖然研究人員瞭解它們的一般功能,但通常不清楚為什麼特定的輸出會跟隨特定的輸入。更糟糕的是,如果將相同的輸入連續多次執行模型,則輸出可能會有所不同。原因是人工智慧系統的工作方式。

現代人工智慧系統——例如語言模型、機器翻譯程式或影像生成演算法——由神經網路構建而成。這些網路的結構基於大腦的視覺皮層,其中稱為神經元的單個細胞透過稱為突觸的連線相互傳遞訊號。在神經網路中,計算單元充當“神經元”,它們逐層構建。與大腦中一樣,機械神經元之間的連線稱為“突觸”,每個突觸都分配有一個稱為“權重”的數值。

例如,如果使用者想要將影像傳遞給這樣的程式,則首先將視覺影像轉換為數字列表,其中每個畫素對應一個條目。第一層的神經元然後接受這些數值。

神經網路是一種演算法,其結構模仿人腦結構。它由充當神經元的計算單元組成,標記為“n”(代表神經元)和“h”(代表隱藏神經元),以及合適的權重,標記為“w”,這些權重由訓練確定。 來源:Manon Bischoff/Spektrum der Wissenschaft,由大眾科學設計

接下來,資料逐層透過神經網路:一層中神經元的值乘以突觸的權重,並傳輸到下一層的神經元。如有必要,此處的結果必須新增到終止於同一神經元的其他突觸的值。因此,程式逐層處理原始輸入,直到最後一層的神經元提供輸出——例如,影像中是否有貓、狗或海鷗。

一個帶有四個畫素的影像,可以由神經網路處理。 來源:Manon Bischoff/Spektrum der Wissenschaft,由大眾科學設計

但是,如何確保網路以產生有意義的結果的方式處理輸入資料呢?為此,權重——突觸的數值——必須正確校準。如果設定得當,程式可以描述各種各樣的影像。您無需自己配置權重;相反,您需要對人工智慧進行訓練,使其找到儘可能合適的數值。

其工作原理如下:神經網路從權重的隨機選擇開始。然後,程式會收到數萬或數十萬個示例影像,所有影像都帶有相應的標籤,例如“海鷗”、“貓”和“狗”。網路處理第一個影像併產生一個輸出,該輸出與給定的描述進行比較。如果結果與模板不同(最初很可能就是這種情況),則所謂的反向傳播就會啟動。這意味著演算法在網路中向後移動,跟蹤哪些權重顯著影響了結果——並修改它們。該演算法對所有訓練資料重複處理、檢查和權重調整的組合。如果訓練成功,則該演算法甚至可以正確描述以前未見過的影像。

理解人工智慧結果的兩種方法

然而,通常,有趣的不僅是人工智慧的答案,還有什麼資訊導致了它的判斷。例如,在醫學領域,人們想知道為什麼程式認為它在掃描中檢測到疾病跡象。為了找到答案,人們當然可以檢視訓練模型的原始碼本身,因為它包含所有資訊。但是,現代神經網路具有數千億個引數——因此不可能跟蹤所有這些引數。

儘管如此,仍然存在使人工智慧結果更透明的方法。有幾種不同的方法。一種是反向傳播。與訓練過程一樣,人們可以追溯輸出是如何從輸入資料生成的。為此,必須回溯網路中權重最高的“突觸”,從而推斷出對結果影響最大的原始輸入資料。

另一種方法是使用擾動模型,其中人類測試人員可以稍微更改輸入資料,並觀察這如何改變人工智慧的輸出。這使得人們可以瞭解哪些輸入資料對結果影響最大。

這兩種 XAI 方法已被廣泛使用。但它們在 ChatGPT、Dall-E 或 Luminous 等具有數十億個引數的大型人工智慧模型中失敗了。例如,反向傳播缺乏必要的記憶體:如果 XAI 向後遍歷網路,則必須記錄數十億個引數。雖然在大型資料中心訓練人工智慧是可能的,但不能不斷重複相同的方法來檢查輸入。

在擾動模型中,限制因素不是記憶體,而是計算能力。例如,如果想知道影像的哪個區域對人工智慧的響應起決定性作用,則必須單獨更改每個畫素,並在每個例項中生成新的輸出。這需要大量時間以及實際不可用的計算能力。

為了開發 AtMan,科斯廷的團隊成功地為大型人工智慧系統調整了擾動模型,從而使必要的計算能力保持在可管理的範圍內。與傳統演算法不同,AtMan 不直接改變輸入值,而是修改已經在網路中更深層的資料。這節省了大量的計算步驟。

用於 Transformer 模型的“可解釋人工智慧”

要理解這是如何工作的,您需要了解 ChatGPT 等人工智慧模型的功能。這些是一種特定型別的神經網路,稱為 Transformer 網路。它們最初是為處理自然語言而開發的,但現在也用於影像生成和識別

處理語音中最困難的任務是將單詞轉換為合適的數學表示形式。對於影像,此步驟很簡單:將其轉換為畫素值長列表。如果兩個列表的條目彼此接近,則它們也對應於視覺上相似的影像。必須為單詞找到類似的過程:語義上相似的單詞(如“房屋”和“小屋”)應具有相似的表示形式,而拼寫相似但含義不同的單詞(如“房屋”和“滑鼠”)在數學形式上應相距更遠。

在建立語言模型時,最困難的任務之一是以適當的方式呈現單詞。含義相似的表達也應在數學表示中相似。 來源:Manon Bischoff/Spektrum der Wissenschaft,由大眾科學設計

Transformer 可以掌握這項具有挑戰性的任務:它們將單詞轉換為特別合適的數學表示形式。但這需要大量工作。開發人員必須向網路提供大量文字,以便它學習哪些單詞出現在相似的環境中,從而在語義上相似。

一切都與注意力有關

但僅此一項還不夠。您還必須確保人工智慧在訓練後能夠理解更長的輸入。例如,以德語維基百科條目中關於 Spektrum der Wissenschaft 的第一行文字為例。它們大致翻譯為“Spektrum der Wissenschaft 是一本受歡迎的月度科學雜誌。它成立於 1978 年,是《大眾科學》的德語版,自 1845 年以來一直在美國出版,但隨著時間的推移,它在美國原版的基礎上變得越來越獨立。” 語言模型如何知道第二句中的“美國”和“原版”指的是什麼?過去,大多數神經網路都無法完成此類任務——直到 2017 年,谷歌大腦的專家引入了一種新型的網路架構,該架構完全基於所謂的注意力機制,它是 Transformer 網路的核心。

注意力使人工智慧模型能夠識別輸入中最重要的資訊:哪些詞是相關的?哪些內容與輸出最相關?因此,人工智慧模型能夠識別文字中相距較遠的詞語之間的引用。為此,注意力會獲取句子中的每個單詞,並將其與其他每個單詞關聯起來。因此,對於維基百科示例中的句子,模型從“Spektrum”開始,並將其與條目中的所有其他單詞進行比較,包括“是”、“科學”等等。此過程允許找到輸入單詞的新數學表示形式——並且考慮到句子的內容。這種注意力步驟發生在訓練期間和使用者鍵入內容時的操作中。

人工智慧模型中注意力機制的圖示。 來源:Manon Bischoff/Spektrum der Wissenschaft,由大眾科學設計

這就是 ChatGPT 或 Luminous 等語言模型如何處理輸入並從中生成響應的方式。透過確定要注意哪些內容,程式可以計算出哪些詞最有可能跟隨輸入。

有針對性地轉移焦點

這種注意力機制可用於使語言模型更加透明。AtMan 以“注意力操縱”的思想命名,專門操縱人工智慧對某些輸入詞的關注程度。它可以將注意力 направлять 向某些內容,並從其他內容上移開。這使得人們可以檢視輸入的哪些部分對輸出至關重要,而又不會消耗過多的計算能力。

例如,研究人員可以將以下文字傳遞給語言模型:“你好,我叫盧卡斯。我喜歡足球和數學。我過去幾年一直在研究……” 模型最初透過用“我的計算機科學學位”填空來完成這個句子。當研究人員告訴模型增加對“足球”的關注時,輸出變為“足球場”。當他們增加對“數學”的關注時,他們得到了“數學和科學”。

因此,AtMan 代表了 XAI 領域的重要進步,可以使我們更接近理解人工智慧系統。但它仍然無法將語言模型從瘋狂的幻覺中拯救出來——也無法解釋為什麼 ChatGPT 認為弗洛裡安·弗賴斯特特是 Spektrum der Wissenschaft 的主編。

然而,它至少可以用來控制人工智慧考慮和不考慮哪些內容。施拉莫夫斯基解釋說:“例如,這在評估個人信用度的演算法中很重要。“如果程式將其結果建立在諸如個人膚色、性別或出身等敏感資料之上,您可以專門關閉對該資料的關注。” 如果 AtMan 揭示人工智慧程式的輸出受到傳遞給它的內容的影響極小,那麼 AtMan 也可以提出問題。在這種情況下,人工智慧顯然是從訓練資料中獲取了其所有生成的內容。“那時您應該徹底檢查結果,”施拉莫夫斯基說。

AtMan 不僅可以以這種方式處理文字資料,還可以處理 Transformer 模型可以處理的任何型別的資料。例如,該演算法可以與提供影像描述的人工智慧相結合。這可以用於找出影像的哪些區域導致了所提供的描述。在他們的出版物中,研究人員查看了一張熊貓的照片——發現人工智慧主要根據動物的臉部來描述“熊貓”。

“而且 AtMan 似乎可以做更多的事情,”也幫助開發該演算法的戴澤羅斯說。“您可以專門使用 AtMan 的解釋來改進人工智慧模型。” 過去的工作已經表明,較小的人工智慧系統在經過訓練以提供良好的推理時會產生更好的結果。現在仍有待研究的是,AtMan 和大型 Transformer 模型是否也是如此。“但這仍然需要檢查,”戴澤羅斯說。

本文最初發表在《Spektrum der Wissenschaft》雜誌上,並經許可轉載。

© .