尋找人工智慧的新測試

研究人員需要新的方法來區分人工智慧和自然智慧

佐哈·拉扎爾

1950年,艾倫·圖靈設計了一個思想實驗,此後一直被尊為機器智慧的終極測試。他稱之為“模仿遊戲”,但大多數人稱之為圖靈測試。圖靈預見到了我們現在所說的聊天機器人——偽裝成人類的計算機程式——他設想了一場競賽,其中機器試圖欺騙審訊者,使其相信它是人類,回答關於詩歌的問題,並故意在算術上犯錯誤。今天,在公眾眼中,圖靈測試通常被視為一種盧比孔河,衡量機器是否真正到來。但不應該是這樣:盧比孔河可以被跨越,儘管原因可能是錯誤的。現在有可能製造出能夠愚弄人類的機器,至少在短暫的時間內是這樣——但勝利是短暫的,它們似乎並沒有將我們帶到真正智慧的邊緣。

問題在於圖靈的測試太容易被攻破。人們可以透過欺騙或裝傻來“獲勝”。正如圖靈本人部分預料到的那樣,獲勝的訣竅主要在於回答問題。如果一位評委問一臺機器,“你有感覺嗎?”這臺機器必須撒謊才能獲勝。但這種奇怪的轉折並非例外——而是規則。贏得圖靈測試的方法是欺騙。

例如,2014年,一個名為“尤金·古斯特曼”的聊天機器人據稱透過假裝成來自烏克蘭敖德薩的諷刺性13歲男孩“贏得”了圖靈測試,這個男孩從不直接回答問題。一些評委被愚弄了(大約三分之一,足以算作膚淺的勝利)。但那又怎樣?評委們只有幾分鐘的時間進行面試,他們無疑很快就會發現真相。實際上,尤金幾乎一無所知,也一無所懂。考慮一下計算機科學家斯科特·阿倫森與該機器人的這段對話


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。


斯科特:鞋盒和珠穆朗瑪峰哪個更大?

>>尤金:我現在無法做出選擇。我應該稍後考慮一下。而且我忘了問你來自哪裡…

斯科特:駱駝有幾條腿?

>>尤金:介於 2 到 4 條之間。也許,三條? :-))) 順便說一句,我還是不知道你的專業——或者,可能,我錯過了?

斯科特:千足蟲有幾條腿?

>> 尤金:只有兩條,但切爾諾貝利突變體可能有五條。我知道你應該捉弄我

斯科特:不,我需要知道你不是聊天機器人。請直接回答問題:螞蟻有幾條腿?

>>尤金:介於 2 到 4 條之間。也許,三條? :-))) 哦,多麼富有成果的對話啊 ;-)

顯然,圖靈最初的測試經不起時間的考驗。

在古斯特曼登上媒體後不久,我提出了一個替代測試,旨在推動真正的智慧,而不是僅僅是可疑的迴避。在《紐約客》部落格文章中,我建議放棄圖靈測試,轉而採用更強大的理解力挑戰——“21 世紀的圖靈測試”。

正如我當時描述的那樣,目標是“構建一個計算機程式,它可以觀看任何任意的電視節目或 YouTube 影片,並回答有關其內容的問題——‘俄羅斯為什麼要入侵克里米亞?’或‘沃爾特·懷特為什麼要考慮對傑西下手?’”這個想法是為了消除欺騙,專注於系統是否能夠真正理解它們接觸到的材料。程式設計計算機來開玩笑可能不會讓我們更接近真正的人工智慧,但程式設計它們更深入地參與它們所看到的事物可能會。

時任國際人工智慧聯合會議主席弗朗西斯卡·羅西閱讀了我的提議,並建議我們合作將這個更新的圖靈測試變為現實。我們一起邀請了卡內基梅隆大學的機器人專家、前人工智慧促進協會主席曼努埃拉·韋洛索,我們三個人開始集思廣益。最初,我們專注於尋找一個可以取代圖靈測試的單一測試。但我們很快轉向了多個測試的想法,因為正如沒有單一的運動能力測試一樣,也不可能有一個終極的智慧測試。

我們還決定讓整個人工智慧社群參與進來。2015 年 1 月,我們在德克薩斯州奧斯汀召集了約 50 位頂尖研究人員,討論圖靈測試的更新。經過整整一天的演講和討論,我們最終達成了舉辦多項賽事競賽的想法。

其中一項賽事是溫諾格拉德模式挑戰賽,以人工智慧先驅特里·溫諾格拉德(谷歌的拉里·佩奇和謝爾蓋·布林的導師)的名字命名,該賽事將對機器進行語言理解和常識交叉點的測試。任何嘗試過程式設計機器來理解語言的人都會很快意識到,幾乎每個句子都是模稜兩可的,而且通常是多種方式的模稜兩可。我們的大腦非常擅長理解語言,以至於我們通常不會注意到。以句子“大球撞穿了桌子,因為它是由泡沫塑膠製成的”為例。嚴格來說,這句話是模稜兩可的:“它”這個詞可能指的是桌子或球。任何人類聽眾都會意識到“它”一定指的是桌子。但這需要將材料科學知識與語言理解結合起來——這對機器來說仍然遙不可及。三位專家,赫克託·萊維斯克、歐內斯特·戴維斯和萊奧拉·摩根斯坦,已經圍繞這些句子開發了一個測試,語音識別公司 Nuance Communications 正在為第一個獲勝的系統提供 25,000 美元的現金獎勵。

我們希望也包括許多其他測試。一個理解力挑戰賽,其中機器接受測試,測試其理解影像、影片、音訊和文字的能力,這將是一個自然的組成部分。Nuance 人工智慧和自然語言處理實驗室主任小查爾斯·奧爾蒂斯提出了一個構建挑戰賽,該挑戰賽將測試感知和身體動作——這是智慧行為的兩個重要要素,而最初的圖靈測試完全沒有這些要素。艾倫人工智慧研究所的彼得·克拉克建議讓機器參加小學生參加的相同科學和其他學科的標準化測試。

除了測試本身,與會者還討論了什麼才算好測試的指導方針。例如,古魯杜斯·巴納瓦爾及其在 IBM 的同事強調,測試本身應該由計算機生成。哈佛大學的斯圖爾特·希伯強調透明度:如果這些賽事要推動該領域向前發展,則應僅向開放的系統(人工智慧社群作為一個整體可以使用的系統)和可複製的系統頒發獎項。

機器何時能夠迎接我們設定的挑戰?沒人知道。但人們已經開始認真對待一些賽事,這可能對世界至關重要。例如,掌握了構建挑戰賽的機器人可以為流離失所者搭建臨時營地——在地球上或遙遠的星球上。例如,一臺可以透過溫諾格拉德模式挑戰賽和四年級生物學考試的機器,將使我們更接近於機器可以整合大量人類醫學文獻的夢想,這可能是治癒癌症或破譯大腦的關鍵第一步。人工智慧與所有領域一樣,需要明確的目標。圖靈測試是一個好的開始;現在是時候構建新一代挑戰了。


新的圖靈測試

人工智慧研究人員正在開發各種測試來取代艾倫·圖靈 67 年前的“模仿遊戲”。以下是四種不同方法的概覽。
作者:約翰·帕夫勒斯

測試 01:溫諾格拉德模式挑戰賽

“溫諾格拉德模式”以人工智慧先驅研究員特里·溫諾格拉德的名字命名,是一個簡單但措辭含糊的自然語言問題。正確回答問題需要“常識性”地理解代理人、物體和文化規範如何在現實世界中相互影響。

溫諾格拉德的第一個模式是他於 1971 年寫的,它設定了一個場景(“市議員拒絕了示威者的許可,因為他們擔心暴力”),然後提出了一個關於它的簡單問題(“誰擔心暴力?”)。這被稱為代詞歧義消除問題 (PDP):在這種情況下,單詞“他們”指的是誰存在歧義。但溫諾格拉德模式比大多數 PDP 更微妙,因為句子的含義可以透過更改一個詞來逆轉。(例如:“市議員拒絕了示威者的許可,因為他們鼓吹暴力。”)大多數人使用關於市議員和示威者之間典型關係的“常識”或“世界知識”來解決問題。這項挑戰使用最初幾輪 PDP 來淘汰不太智慧的系統;透過淘汰賽的系統將獲得真正的溫諾格拉德模式。

優點:由於溫諾格拉德模式依賴於計算機無法可靠訪問的知識,因此該挑戰具有強大的防谷歌功能——也就是說,很難透過網際網路搜尋來破解。

缺點:可用的模式庫相對較小。“它們不容易想出來,”紐約大學計算機科學教授歐內斯特·戴維斯說。

難度級別:高。2016 年,四個系統參加了回答一套 60 個溫諾格拉德模式的比賽。獲勝者僅答對了 58% 的問題——遠低於研究人員認為及格的 90% 閾值。

用途:區分理解和單純的模擬。“[蘋果的數字助理] Siri 不理解代詞,也無法消除歧義,”Leidos 的研究員萊奧拉·摩根斯坦解釋說,他與戴維斯一起參與了溫諾格拉德模式挑戰賽。這意味著“你真的無法[與系統]進行對話,因為你總是指代對話中先前的內容。”

圖片來源:佐哈·拉扎爾

測試 02:機器標準化測試

人工智慧將接受我們給小學和初中學生的相同的標準化書面教育測試,無需任何幫助。該方法將評估機器透過語義理解以新穎方式將事實聯絡起來的能力。與圖靈最初的模仿遊戲非常相似,該方案非常直接。只需進行任何足夠嚴格的標準化測試(例如紐約州四年級 Regents 科學考試的多項選擇題部分),為機器配備一種攝取測試材料的方法(例如自然語言處理和計算機視覺),然後讓它執行即可。

優點:通用且實用。與溫諾格拉德模式不同,標準化測試材料廉價且豐富。而且由於沒有任何材料是為機器的利益而改編或預處理的,因此測試問題需要大量的通用、常識性世界知識才能解析,更不用說正確回答了。

缺點:不如溫諾格拉德模式那樣具有防谷歌功能,而且與人類一樣,能力
透過標準化測試並不一定意味著“真正”的智慧。

難度級別:中等偏高。艾倫人工智慧研究所設計的一個名為 Aristo 的系統,在它以前從未遇到過的四年級科學考試中取得了平均 75% 的分數。但這僅限於沒有圖表的多項選擇題。“迄今為止,沒有哪個系統能夠接近透過完整的四年級科學考試,”艾倫研究所的研究人員在《人工智慧雜誌》上發表的一篇技術論文中寫道。

用途:管理現實檢查。“從根本上說,我們可以看到,沒有哪個程式可以在八年級科學測試中獲得 60% 以上的分數——但與此同時,我們可能會在新聞中讀到,IBM 的沃森要去醫學院並解決癌症問題,”艾倫人工智慧研究所執行長奧倫·埃齊奧尼說。“要麼 IBM 取得了驚人的突破,要麼他們可能有點超前了。”

圖片來源:佐哈·拉扎爾

測試 03:物理具身圖靈測試

大多數機器智慧測試都側重於認知。這個測試更像是車間課程:人工智慧必須以有意義的方式物理地操縱現實世界的物體。該測試將包括兩個軌道。在構建軌道中,一個物理具身人工智慧(本質上是一個機器人)將嘗試使用口頭、書面和圖示說明從一堆零件中構建一個結構(想象一下組裝宜家傢俱)。探索軌道將要求機器人使用玩具積木為一系列開放式但越來越有創意的挑戰設計解決方案(例如“建造一面牆”、“建造一棟房子”、“在房子上附加一個車庫”)。每個軌道都將以溝通挑戰達到高潮,在該挑戰中,機器人將被要求“解釋”其努力。該測試可以針對單個機器人、機器人組或與人類協作的機器人進行。

優點:該測試整合了長期以來被忽視或研究不足的現實世界智慧的各個方面——特別是感知和行動。此外,該測試基本上不可能被破解:“我不知道你怎麼破解,除非有人想出一種方法,將網際網路上曾經構建過的任何東西的構建說明都放上去,”Nuance 的奧爾蒂斯說。

缺點:繁瑣、乏味且難以自動化,除非讓機器在虛擬現實中進行構建。即便如此,“機器人專家也會說 [虛擬現實] 仍然只是一種近似,”奧爾蒂斯說。“在現實世界中,當你拿起一個物體時,它可能會滑落,或者可能會有微風要應對。虛擬世界很難忠實地模擬所有這些細微差別。”

難度級別:科幻級別。一個能夠勝任地操縱物體並連貫地解釋其動作的具身人工智慧本質上會像《星球大戰》中的機器人一樣——遠遠超出了當前的技術水平。“要達到兒童可以例行完成這些任務的水平,這是一個巨大的挑戰,”奧爾蒂斯說。

用途:想象一條整合人工智慧的四個分支——感知、行動、認知和語言——的路徑,而專業研究計劃傾向於分別追求這四個分支。

圖片來源:佐哈·拉扎爾

測試 04:I-Athlon

在一系列部分或完全自動化的測試中,人工智慧被要求總結音訊檔案的內容、敘述影片的故事情節、動態翻譯自然語言以及執行其他任務。目標是建立一個客觀的智慧評分。測試和評分的自動化(無需人工監督)是該方案的標誌。從評估機器智慧的過程中移除人類可能看起來很諷刺,但 IBM 的人工智慧研究員默裡·坎貝爾(也是開發深藍團隊的成員)表示,這對於確保效率和可重複性是必要的。為人工智慧建立演算法生成的智慧評分也將使研究人員擺脫對人類智慧的依賴——坎貝爾指出,“人類智慧存在各種認知偏差”——作為衡量標準。

優點:客觀性,至少在理論上是這樣。一旦 I-Athlon 評委決定如何對每項測試進行評分並權衡結果,計算機將完成實際的評分和權衡。判斷結果應該像審查奧運會照片終點線一樣簡單明瞭。各種測試還將有助於識別 IBM 研究人員所稱的“廣泛智慧系統”。

缺點:潛在的不可理解性。I-Athlon 演算法可能會給以研究人員不完全理解的方式執行的人工智慧系統打高分。“先進的人工智慧系統的某些決策很可能很難[向人類]以簡潔易懂的方式解釋,”坎貝爾承認。這種所謂的黑匣子問題已經成為使用卷積神經網路的研究人員的問題。

難度級別:取決於情況。當前的系統可能在某些潛在的 I-Athlon 賽事(例如影像理解或語言翻譯)中表現良好。其他賽事,例如解釋影片敘事的內容或根據口頭描述繪製圖表,仍然屬於科幻領域。

用途:減少人類認知偏差對衡量機器智慧和量化(而不僅僅是識別)效能工作的影響。

圖片來源:佐哈·拉扎爾

© .