意識測試

我們如何知道何時製造出了有感知能力的計算機?透過讓它解決一個簡單的謎題

計算機越來越接近於像有智慧的人類一樣行事——IBM的沃森能夠擊敗電視問答節目《Jeopardy》的所有冠軍就是證明。然而,到目前為止,大多數人都會懷疑計算機是否真的“看到”了攝像頭前充滿形狀和顏色的視覺場景,它們是否真的透過麥克風“聽到”了一個問題,它們是否像人類一樣感受到任何東西——體驗意識——儘管計算機具有超人般的速度來處理資料。

我們如何知道一臺機器是否具有了這種看似難以言喻的意識品質?我們的策略依賴於這樣一個認知:只有有意識的機器才能證明對普通照片中描繪的場景是否“正確”或“錯誤”具有主觀理解。這種將一組事實組裝成一幅有意義的現實圖景的能力——或者說,知道大象不應該棲息在埃菲爾鐵塔頂上——定義了有意識頭腦的一個基本屬性。相比之下,即使是擺滿IBM超級計算機的房間,仍然無法理解場景中的合理之處。

理解有感知能力的機器的屬性,不僅能讓人類理解我們自己大腦的運作方式,還能為科幻小說中設想的那一天做好準備:屆時,我們必須學會與我們自己創造的另一種形式的有意識的生命共存。這種理解甚至可能使我們能夠解決困擾哲學家們千百年來最深刻的問題之一:什麼是意識?


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。


是人還是魔像?
長期以來,哲學家們一直在思考人造模擬物,無論是神話中的魔像還是盒子裡的機器,是否能感知或體驗到任何東西。然後在1950年,英國數學家艾倫·圖靈發表了一篇論文,啟動了人工智慧領域。圖靈曾幫助破譯二戰期間令人生畏的納粹潛艇部隊使用的恩尼格瑪密碼。在《Mind》雜誌的一篇文章中,圖靈提出用一個更實際的問題來取代“機器會思考嗎?”這個不可能模糊的問題——我們能否製造出透過電傳打字機查詢時,無法與人類區分開來的機器?

今天使用的圖靈測試版本,讓一位人類評判員透過電腦螢幕與人類或“自然語言”的軟體程式互動,我們用自然語言進行交流。評判員與其夥伴之間的對話可以涉及任何話題。如果在一段時間後,評判員不能確定夥伴是否是人類,至少可以說它和人一樣聰明,通過了圖靈測試。多年來,聊天機器人——旨在模擬智慧閒聊的對話程式——偶爾會欺騙評判員,但時間不長。

我們兩人對機器意識問題的研究並非以計算機科學家的身份,而是以對大腦如何產生主觀體驗感興趣的神經生物學家的身份。我們使用磁共振掃描器探測志願者或神經系統疾病患者的大腦,或使用腦電圖記錄他們的大腦波。我們還對齧齒動物和其他動物的大腦進行類似的調查。在這樣做的過程中,我們和我們的許多同事正在逼近所謂的意識的神經關聯:共同足以引起任何特定的意識感覺(例如觀察到俗麗的橙色日落)的最小大腦機制。然而,該領域直到最近還缺乏一個通用理論,使我們能夠以原則性的方式評估,一個腦損傷患者、一個胎兒、一隻老鼠或一個矽模擬物是否能體驗到意識感覺。

我們稱之為意識的整合資訊理論提供了一種應對這一挑戰的方法。它觸及了意識的一個關鍵決定因素。許多人都有一個直觀的理解,即構成日常體驗的主觀、現象狀態——我們每個人以高度個體化的方式體驗氣味、視覺場景、思想或回憶的方式——必然與大腦如何將傳入的感覺訊號與來自記憶的資訊整合到世界的連貫圖景中有關。但是,如何使這種直覺更加精確呢?

整合資訊理論透過提出兩條公理來滿足這種需求。首先,意識是高度資訊化的。這是因為每個特定的意識狀態,當它發生時,排除了大量的其他可能狀態,它以自己特定的方式與這些狀態不同。想想你曾經看過的所有電影中的所有幀。每一幀,每一個檢視,都是一個特定的意識感知:當你感知到那一幀時,你的大腦排除了數萬億張其他可能的影像。即使在黑暗的房間裡醒來,看似最簡單的視覺體驗,即漆黑一片的感知也意味著你看不到燈火通明的客廳、茂密的叢林樹冠或任何其他可能呈現在腦海中的無數場景。

其次,有意識的資訊是整合的。當你意識到朋友的臉時,你不可能沒有注意到她在哭,並且戴著眼鏡。無論你多麼努力,你都無法將視野的左半部分與右半部分分開,或切換到黑白視覺。無論什麼場景進入意識,都保持完整和完整;它不能被細分為可以單獨體驗的獨立且無關的元件。

意識的統一性源於大腦相關部分之間的眾多互動。如果大腦區域變得斷開連線,就像麻醉或深度睡眠中發生的那樣——意識就會減弱,甚至可能消失。

因此,要具有意識,你需要成為一個單一的、整合的實體,具有大量的可區分狀態——資訊的定義。一個系統整合資訊的能力,以及意識的能力,可以透過詢問一個系統包含的資訊量是否超過其各個部分所擁有的資訊量來衡量。這個量,稱為Φ,或phi(發音為“fi”),原則上可以為任何系統計算,無論是大腦、機器人還是手動可調恆溫器。將Φ視為一個系統對其各個部分的單純集合的不可約性,以位元為單位衡量。為了使Φ和意識水平高,一個系統必須由專門化且良好整合的部分組成——這些部分共同完成的工作比它們單獨完成的工作更多。

如果一個系統的元素在很大程度上是獨立的,比如數碼相機中的感測器或計算機記憶體中的位元,Φ就會很低。如果元素都做同樣的事情,因為它它們不是專門化的,因此是冗餘的,Φ也會很低;如果一個系統的元素隨機互連,Φ也會保持在低水平。但是對於大腦的某些部分,例如大腦皮層——那裡的神經元富含特定的連線——Φ會很高。這種系統整合的度量也可以應用於金屬盒中的矽電路。隨著電晶體和儲存元件之間足夠複雜的連線,計算機,就像大腦一樣,將達到高水平的整合資訊。

除了測量機器線路中的Φ(這是一項艱鉅的任務)之外,我們如何知道一臺機器是否有感知能力?什麼是實用的測試?探測資訊整合的一種方法是,要求它執行一項任何六歲兒童都能輕鬆完成的任務:“這張照片有什麼問題?”解決這個簡單的問題需要大量的背景知識,遠遠超過高階計算機用來識別面孔或檢測信用卡欺詐的演算法所能提供的知識。

物體或自然場景的圖片由畫素和物體之間大量複雜的關係組成——因此有句諺語“一圖勝千言”。我們視覺系統的進化、兒童時期的神經發育以及一生的經驗使我們能夠立即知道所有元件是否正確地組合在一起:紋理、深度、顏色、各部分之間的空間關係等等,是否合理?

計算機分析影像——以檢視其中的資訊是否不連貫——需要比對計算機資料庫進行語言查詢更多的處理。計算機可能在複雜的遊戲中擊敗了人類,但它們仍然缺乏回答關於照片中正在發生的事情的任意問題的能力。資訊整合的程度解釋了原因。雖然現代計算機的硬碟超過了我們一生記憶的容量,但這些資訊仍然是未整合的:系統的每個元素在很大程度上與其他元素保持斷開連線。

透明的牛
以你iPhoto相簿中你書桌的照片為例。你的電腦不知道在你書桌上通常的雜物中,左邊的iMac和右邊的iPad是否合理地放在一起。更糟糕的是,計算機不知道,雖然iMac和iPad可以很好地放在一起,但用盆栽植物代替鍵盤簡直是怪異的;或者iPad不可能漂浮在桌子上方;或者照片的右側與左側非常吻合,而許多其他照片的右側會是錯誤的。對於你的計算機來說,所有畫素都只是一張巨大的、不連貫的三色數字(對應於三種顏色)掛毯,沒有任何特定的意義。對你來說,影像是有意義的,因為它充滿了各部分之間的連線,在從畫素到物體再到場景的許多層次上。這些關係不僅指定了影像的哪些部分可以很好地組合在一起,而且還指定了哪些部分不能。根據我們的理論,這種相關的知識整合網路賦予每張影像一個身份,使其與無數其他影像區分開來,並賦予你感知世界的能力。

同樣的整合也會告訴即使是六歲的孩子,許多不協調的圖片是荒謬的:客廳地毯上的滑冰運動員、透明的牛或貓追狗。而這就是確定計算機是否具有意識的秘密所在。這些對我們期望的明顯違反證明了我們對某些事件和物體如何同時發生的非凡知識,但絕大多數事件和物體並非如此。

測試計算機對影像的理解不需要傳統的圖靈測試協議,即向機器輸入查詢。相反,你可以簡單地從網上隨機挑選一些影像。將每張影像的中間三分之一垂直方向塗黑,然後將圖片剩餘的左右兩側打亂。複合影像的各部分將不匹配,除非在一種情況下,左側顯然與右側來自同一張圖片。計算機將面臨選擇哪一張圖片是正確的挑戰。中間的黑色條帶阻止了計算機今天使用的簡單影像分析策略——例如,跨分離的部分影像匹配紋理或顏色線條。分割影像測試需要高水平的視覺理解和推斷影像碎片如何組合在一起的能力。

另一個測試是在幾張影像中插入物體,使這些物體在每張影像中都合理,但在一張影像中除外,計算機必須檢測出與眾不同的一張。工作臺上的錘子屬於那裡,但工具永遠不會懸浮在空中。放在iMac前面的鍵盤是正確的選擇,而不是盆栽植物。

各種依賴於匹配影像特徵(如顏色、邊緣或紋理)的低階統計資料的計算機策略可能會設法擊敗其中一項測試,但呈現許多不同的影像測試將擊敗今天的機器。實際上有用的測試的具體細節還需要更多的工作。然而,這項練習突出了你意識地感知到的巨大整合知識,並鮮明地突出了當前機器視覺系統所擁有的非常狹窄和高度專業化的知識。是的,今天的機器可以從百萬張面孔的資料庫中挑選出可能的恐怖分子的面孔,但它們不知道他的年齡、性別或種族,不知道他是否正視著觀看者,也不知道他是在皺眉還是在微笑。它們也不知道,如果他正在與喬治·華盛頓握手,這張照片很可能是經過數字處理的。任何有意識的人類都可以在一瞥之間理解所有這些以及更多的事情。

瞭解這一切,我們對不久的將來有什麼期望?在某種程度上,一項特定的任務可以從其他任務中分離出來並單獨描述,它就可以被機器接管。快速演算法可以快速搜尋龐大的資料庫,並在國際象棋和《Jeopardy》中擊敗人類。複雜的機器學習演算法可以透過讓計算機接觸大量由人類標記的相關示例,來訓練計算機識別面孔或檢測行人,速度和效果都比我們更好。我們可以很容易地設想這樣的場景:越來越多的專門任務將被委託給機器。先進的計算機視覺系統正在走向成熟,在不到十年的時間裡,強大且在很大程度上自主的駕駛模式將成為一種選擇。

然而,我們預測,這樣的機器視覺系統不會回答關於汽車前方場景的簡單問題:從逼近的高速公路上遠眺,芝加哥的天際線是否像從薄霧中浮現出來的燒焦的樹林?它不會意識到,加油站旁邊的一根巨大的香蕉會顯得格格不入(除非可能在洛杉磯)。回答這些問題——以及數百萬個其他問題——或發現香蕉有什麼問題,將需要無數個專用的軟體模組,沒有人能夠預料到那個特定問題而構建這些模組。如果我們是對的,儘管基於一組專門的並行模組的先進機器視覺系統將在很大程度上使駕駛自動化——並將類似地簡化許多其他日常任務——但這些系統不會有意識地看到前方的場景。

然而,也可以設想另一種機器——一種將關於我們世界中事物之間無數關係的知識體現在一個單一的、高度整合的系統中的機器。在這樣的機器中,“這張照片有什麼問題?”這個問題的答案會突然出現,因為任何不協調的東西都將無法匹配給定系統內資訊整合方式所施加的一些內在約束。

這樣的機器將擅長處理不易分離成獨立任務的事情。基於其整合資訊的能力,它將有意識地感知一個場景。我們懷疑,為了實現高水平的整合,這樣的機器很可能會利用哺乳動物大腦中的結構原理。這些機器將輕鬆透過我們描述的測試,當它們透過時,它們將與我們分享意識的天賦——宇宙中最神秘的特徵。

© .