機器人可能透過保持沉默來破解圖靈測試

研究合著者表示,雖然圖靈測試存在缺陷已不是新聞,但這項新研究突顯了該測試在回答關於人工智慧的更深層次問題方面的侷限性

a robot

新的研究表明,如果被詢問者選擇保持沉默,則該測試目前無法確定與人對話的是另一個人還是機器人。

新的研究表明,圖靈測試,這項旨在確定某物是計算機還是人的典型評估方法,可能存在致命缺陷。

新的研究表明,如果被詢問者選擇保持沉默,則該測試目前無法確定與人對話的是另一個人還是機器人。

英格蘭考文垂大學的計算機科學家、研究合著者凱文·沃裡克表示,雖然圖靈測試存在缺陷已不是新聞,但這項新研究突顯了該測試在回答關於人工智慧的更深層次問題方面的侷限性。[超級智慧機器:7個機器人未來]


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您將幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


沃裡克告訴Live Science:“隨著機器變得越來越智慧,它們是否真的在思考,以及我們是否需要賦予它們責任,這些都開始成為非常嚴肅的問題。顯然,圖靈測試無法解決這些問題。”

模仿遊戲

著名的圖靈測試最早由英國計算機科學家艾倫·圖靈於1950年提出,旨在解決何時以及如何確定機器是否具有感知能力的問題。他認為,機器是否會思考這個問題是錯誤的:如果它們能在他稱之為模仿遊戲中冒充人類,那就足夠了。

測試很簡單:將機器放在一個房間裡,將人類審訊者放在另一個房間裡,讓他們透過基於文字的對話進行交流。如果審訊者能識別出機器是非人類的,則該裝置失敗;否則,它就通過了。

這項簡單直觀的測試在人工智慧哲學中產生了巨大的影響。但從一開始,研究人員就發現了該測試的缺陷。首先,該遊戲側重於欺騙,並且過度關注對話作為衡量智慧的標準。

例如,在 20 世紀 70 年代,一個名為 ELIZA 的早期語言處理程式透過模仿精神科醫生將問題反射回提問者的技巧,讓圖靈測試的評委們大吃一驚。而在 2014 年,研究人員使用一個名為 “尤金·古斯特曼”的“聊天機器人” 欺騙了人類審訊者,該聊天機器人被設計成冒充一名 13 歲的烏克蘭男孩。

保持沉默的權利

沃裡克在組織圖靈逝世 60 週年紀念圖靈測試時,他和他的同事、同樣是考文垂大學計算機科學家的胡瑪·沙阿注意到了一些奇怪的事情:有時,一些人工智慧聊天機器人會崩潰並保持沉默,這讓審訊者感到困惑。

沃裡克告訴Live Science:“當它們這樣做時,在任何情況下,評委都無法說它是機器。”[有史以來最奇怪的 6 個機器人]

沃裡克說,按照測試規則,如果評委無法明確識別出機器,那麼機器就通過了測試。按照這個標準,一個沉默的機器人甚至一塊石頭都可以透過圖靈測試。

沃裡克說,另一方面,許多人被不公平地貼上人工智慧的標籤。

沃裡克說:“通常,人類確實會被歸類為機器,因為有些人會說傻話。”他補充說,在那種情況下,如果機器競爭者只是保持沉默,它將預設獲勝。

更好的測試

加拿大多倫多大學名譽計算機科學教授赫克託·萊韋斯克表示,研究結果表明,需要一種替代圖靈測試的方法,他沒有參與這項新研究。

萊韋斯克告訴Live Science:“大多數人都認識到,實際上,這是一個測試你是否可以愚弄審訊者的測試。令人驚訝的是,有很多種愚弄審訊者的方法與人工智慧或智慧無關。”

萊韋斯克開發了一種替代測試,他稱之為 Winograd 模式(以計算機科學研究員特里·威諾格拉德的名字命名,他首先提出了一些測試中涉及的問題)。

Winograd 模式向人工智慧提出一系列有明確正確答案的問題。例如,它可能會問:“獎盃放不進棕色手提箱,因為它太大了(小了)。什麼東西太大了(小了)?”

這些問題與圖靈設想的人工智慧與人類之間進行的關於莎士比亞十四行詩的豐富討論相去甚遠。

萊韋斯克說:“它們很普通,當然遠不如與某人進行真正的對話那樣引人注目。”

然而,正確回答需要理解語言、空間推理和語境,才能弄清楚獎盃可以放進手提箱。

還有其他提出的 圖靈測試的替代方案 側重於人類智慧的不同方面,例如創造力。

衡量創造力的洛夫萊斯測試 要求機器人創作一件特定型別的藝術作品,該作品符合人類評委給出的約束條件。但即使在這個領域,機器人也在趕上凡人:今年早些時候,研究人員使用人工智慧和機器人畫家創作了一幅荷蘭大師風格的“新倫勃朗”畫作。

版權所有 2016 年 LiveScience,Purch 公司。保留所有權利。未經許可,不得出版、廣播、改寫或重新發布。

© .