會說話的機器人何時出現?

幾十年來,教會機器說話一直是人們的夢想。首先,我們必須弄清楚我們是如何知道我們所知道的關於語言的知識的

蘇拉是世界上第一個會說話的機器人,她非常擅長對話——能說四種語言,不少——以至於一位參觀她被創造出來的實驗室的人類訪客拒絕相信她不是真人。

唉,蘇拉也不是一個真正的機器人,而是卡雷爾·卡佩克 1921 年的戲劇《R.U.R.》中的一個角色,這部戲劇將“機器人”一詞引入了詞彙。自從那次首次亮相以來,會說話的機器人似乎已經潛伏在每個角落,而不僅僅是在科幻小說中。

幾乎在現代計算機發明後不久,研究人員就開始考慮對它們進行程式設計以使用語言。1950 年,計算機科學的創始人之一艾倫·M·圖靈預測,到本世紀末,機器將能夠流利地說英語,以至於很難區分人和機器——這一成就後來被稱為圖靈測試。四年後,喬治城大學和 IBM 的科學家聯盟公佈了 701 翻譯機,該機器以每秒兩條半行的速度成功地將 60 句俄語句子翻譯成英語,這使得夢想出該機器所用技術的Leon Dostert 自信地報告說,流利的電子翻譯器“五年,也許三年”後就能問世。


支援科學新聞事業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。


我們仍在等待。在經歷了樂觀的預測浪潮之後,隨之而來的是令人沮喪的失敗,成熟的會說話的機器人似乎並不比水下城市和火星殖民地等世紀中葉的幻想更接近。如果說有什麼不同的話,那就是今天對會說話的機器人的渴望甚至更加強烈,因為我們希望用它來取代鍵盤,作為我們與數字服務和越來越小的電子裝置的介面。

最近在人工語音方面的工作取得了喜憂參半的結果,它為我們提供了能夠理解足夠語言以發揮作用的機器(例如:谷歌翻譯和接聽您客戶服務電話的自動語音),同時也讓我們面對技術的侷限性及其容易出現災難性故障的情況(例如:谷歌翻譯和接聽您客戶服務電話的自動語音)。其他專案正試圖透過網路徵集公眾參與來解決這些缺點,以便我們能夠更多地瞭解我們是如何選擇詞語的。

但技術不是唯一的問題,甚至不是最大的問題:語言已被證明比任何人想象的都更難理解。我們執行諸如選擇歧義詞的正確含義等任務的能力實際上是數百萬年進化的成果。而且我們在完成這些壯舉時,並不知道我們是如何做到的,更不用說如何將這項技能教給人工智慧了。事實上,當科學家試圖編纂語法並梳理相似術語之間的細微差別時,他們正在瞭解到含義可能是難以捉摸的,語言的結構對於我們這些掌握了它的人類來說仍然是一個謎。

舊規則,被打破
創造會說話的機器人的最早嘗試出奇地簡單:用語法規則對它們進行程式設計。這是 IBM 的 701 機器的策略,由於冷戰時期對蘇聯的興趣,該機器被指示在其首次公開演示中翻譯俄語文字。1954 年釋出該專案的 新聞稿 解釋了該機器如何處理諸如詞序等語言差異。例如,俄語 gyeneral mayor 的英文翻譯是“major general”(少將)。每當機器遇到俄語單詞 mayor 時,它的程式都會檢查前一個單詞。如果是 gyeneral,則 701 在生成英語翻譯時會更改這兩個單詞的順序。

如此簡單的系統之所以能夠工作,部分原因是 701 只認識 250 個俄語單詞,因此對機器進行程式設計以識別其資料庫中的每一對形容詞和名詞並不是一項繁重的工作。但是許多語言都有成千上萬個單詞,而英語可能有超過一百萬個單詞。如果我們做出合理的假設,即英語中有一半的單詞有多種含義,那麼程式設計師必須考慮 5000 億個單詞對。如果每秒處理一個單詞對,那麼編寫該程式將需要將近 16,000 年。

碰巧的是,短語 gyeneral mayor 實際上是一種反常現象——俄語中的詞序通常與英語中的詞序相似,而與西班牙語(形容詞通常放在名詞之後)等語言不同。對於具有更大詞彙量的機器來說,一個明顯的解決方案是用諸如“形容詞在英語和俄語中放在名詞之前,但在西班牙語中放在名詞之後”之類的規則對其進行程式設計,並附上一個例外規則列表。這種策略不僅會大大減少規則的數量,而且還允許系統處理新單詞。問題是,解釋例外的規則也可能存在例外。儘管語法書的出版商不願承認這一點,但科學家們仍然沒有找到一套能夠完全解釋英語、俄語或任何其他語言的抽象規則。

然而,這些系統的脆弱性不僅在於語法規則的不完善,還在於諸如感知單個單詞的含義等看似簡單的任務的複雜性。

多重含義的詞語
會說話的機器人(以及會說話的機器人的工程師)遇到的首批問題之一是,我們在日常口語中使用的許多單詞都是同音異義詞:它們具有多種含義。“Bank”(銀行)可以指金融機構(“約翰在銀行兌現了一張支票”)或河流的岸邊(“約翰游到最近的岸邊”)。

當人們面對這樣的句子時,很快就能找到正確的含義。加州大學聖地亞哥分校的心理語言學家 Cyma van Petten 和 Marta Kutas 在 1987 年一篇關於詞彙啟動效應的著名論文中證明了這種能力——遇到一個詞會啟動人們處理其他具有相關含義的詞。他們發現,在人們遇到像“bank”(銀行)這樣的同音異義詞僅半秒多後,只有與語境相關的含義相關的詞仍然被啟動(上面例句一中的“money”(錢)和例句二中的“river”(河流))。

這種正常處理的特徵在某些人群中會崩潰。2002 年,塔夫茨大學的 Tatiana Sitnikova 領導的一個神經科學家團隊發現,患有精神分裂症的個體無法抑制歧義詞的語境不當含義:“本壘打”和“吸血鬼”在遇到“bat”(蝙蝠)後一秒多鍾仍然被啟動。

然而,這項工作只告訴我們,大多數人透過使用語境來快速解決同音異義詞的問題。會說話的機器人的工程師面臨的問題是,我們不確切地知道我們是如何做到這一點的。一種理論是我們利用同音異義詞周圍的詞語。對金融機構的討論通常包括諸如“check”(支票)和“cashed”(兌現)之類的詞,而對河岸邊緣的討論包括諸如“swam”(游泳)和“water”(水)之類的詞。我們可能只是籠統地瞭解到,某些詞語預示著“bank”(銀行)的一種含義,而其他詞語則預示著另一種含義。

比同音異義詞更難區分的是它們的近親,多義詞。與同音異義詞一樣,多義詞也具有多種含義,但這些含義密切相關。比較一下“Jane Austen”(簡·奧斯汀)在“Jane Austen wrote many books”(簡·奧斯汀寫了很多書)和“I read some Jane Austen this afternoon”(我今天下午讀了一些簡·奧斯汀的作品)中的兩種含義。在第一個句子中,這個名字指的是作者;在第二個句子中,指的是她的作品。事實上,多義性不僅適用於所有作者,也適用於所有型別的媒體。魯珀特·默多克購買了《華爾街日報》(公司),我也購買了(一份個人刊物)。

再一次,語境顯然很重要,但這些區別是微妙且難以定義的。儘管“bank”(銀行)的兩種含義很少出現在同一個句子中,但“Jane Austen”(簡·奧斯汀)經常與“Pride and Prejudice”(《傲慢與偏見》)出現在同一個句子中,無論這個名字指的是人還是她的作品,因此簡單地求助於周圍的詞語並不總是奏效。人們如何辨別正確的含義仍然不是很清楚。

諸如“bank”(銀行)和“Jane Austen”(簡·奧斯汀)之類的詞語之所以構成問題,是因為它們有多種含義。可憐的機器人不得不理清代詞,代詞可以有幾乎無限多的含義。在句子“I wrote Pride and Prejudice”(我寫了《傲慢與偏見》)中,代詞“I”(我)指的是簡·奧斯汀,只要是簡·奧斯汀在說話。如果說話者是扮演簡·奧斯汀的演員(例如《成為簡·奧斯汀》中的安妮·海瑟薇),那麼“I”(我)指的不是說話者,而是她扮演的人。沒有簡單的規則。第三人稱代詞更糟糕。在“She wrote Pride and Prejudice”(她寫了《傲慢與偏見》)中,代詞可以指幾乎任何女性,無論誰在說話。機器人不能簡單地忽略這些歧義,因為不知道句子是關於誰的,句子幾乎沒有任何意義。

也許解決代詞難題最著名的模型是中心理論。該理論由哈佛大學的計算機科學家芭芭拉·格羅斯以及賓夕法尼亞大學的計算機科學家阿拉溫德·K·喬希和哲學家斯科特·溫斯坦在 20 世紀 80 年代和 90 年代開發,全面解釋了句子如何在更廣泛的語篇中組合在一起。它預測人們使用諸如“she”(她)之類的代詞來指代前一句句子的中心——或最突出的角色——通常是它的主語。這一預測解釋了為什麼人們通常在句子“Jane Austen was an author. She wrote Pride and Prejudice”(簡·奧斯汀是一位作家。她寫了《傲慢與偏見》)中使用“she”(她)來指代簡·奧斯汀。

對我們的機器人來說不幸的是,事情並不總是那麼簡單。心理語言學家詹妮弗·阿諾德在她 1998 年的博士論文中估計,只有 64% 的主語代詞指的是前一句的主語。此外,追溯到語言學家凱瑟琳·加維和約翰·霍普金斯大學的神經科學家阿方索·卡拉馬紮在 1974 年發表的開創性論文,大量研究表明,人類對代詞的解釋的語境線索可能令人非常困惑。例如,在我和哈佛大學心理學家傑西·斯內德克最近提交發表的作品中,我們報告說,大多數人期望“Sally frightened Mary because she is strange”(莎莉嚇壞了瑪麗,因為她很奇怪)中的代詞指的是莎莉,但在“Sally feared Mary because she is strange”(莎莉害怕瑪麗,因為她很奇怪)中指的是瑪麗。人們如何做出這些決定仍然未知,但他們這樣做卻很快。2007 年,阿姆斯特丹大學的心理語言學家約斯·範·伯克姆領導的一個研究團隊要求人們閱讀遵循或不遵循預期模式的句子,例如“Sally frightened John because she/he is strange”(莎莉嚇壞了約翰,因為她/他很奇怪),同時監測他們的大腦波。大腦波顯示,當代詞與句子的整體偏見不符時(在上面的句子中是“he”(他)而不是“she”(她)),就會出現額外的處理的明顯特徵。

語言的語料庫
鑑於詞語令人眼花繚亂的細微差別,科學家需要找到幫助機器人做出更好預測的方法。許多人轉向語言統計,將大量的原始材料載入到他們的文字機器中,然後處理數字。他們首先向機器輸入大量的文字集合,稱為語料庫——有時超過十億個單詞。然後,機器將文字分解為 n 個連續單詞的片段,稱為 n 元語法。透過檢視它攝取的所有 n 元語法,機器可以瞭解哪些單詞傾向於與哪些其他單詞一起使用。例如,它開始知道,短語“tall man”(高個子男人)在英語中相當常見(谷歌搜尋結果為 1,320,000 次),而“man tall”(男人高)則相對罕見(谷歌搜尋結果為 205,000 次)。同樣,機器可能會了解到,在大多數以“bank”(銀行)開頭是“swam”(游泳)的句子中,它意味著“river edge”(河岸)。701 實際上使用了 n 元語法(更具體地說,是雙詞二元語法)。

統計系統具有顯著的優勢,因為程式設計師不需要制定明確的規則,例如“‘general’(將軍)在 ‘major’(少校)之前”,甚至不需要抽象規則,例如“形容詞在名詞之前”。統計系統只是學習哪些單詞在哪些其他單詞之前出現。更復雜的實現還會跟蹤諸如詞性之類的資訊,幫助語言機器學習到,“check”(支票)作為名詞而不是動詞使用時,是“financial institution”(金融機構)的更好預測詞。

研究還表明,統計學習——識別環境中模式的能力——可能有助於人類吸收語言,這使得該方法對機器人設計師特別有吸引力。羅切斯特大學的心理學家 Jenny Saffran、Richard Aslin 和 Elissa Newport 在 1996 年的一項研究表明,即使是八個月大的嬰兒也可以學習三元語法機率——三個單詞或音節按順序出現的可能性。研究人員讓嬰兒聽一連串的胡言亂語音節,如 bidakupadotigolabi。三元語法 bidakupadotigolabi 都非常常見;其他三元語法,包括 dakupa,則不太常見。在聽了這些胡言亂語的字串兩分鐘後,嬰兒可以分辨出常見和不常見的三元語法之間的區別(他們聽稀有的三元語法的時間更長,好像它們是新的);作者將這種能力解釋為兒童可以透過這種方式學習詞語邊界的證據。同樣,2010 年,聖路易斯大學的心理學家 Christopher Conway 領導的一個團隊發現,統計學習能力較強的人也更擅長在嘈雜的條件下辨別語音。

儘管 n 元語法機器不是科學家正在嘗試的唯一型別的語言系統,但工程師喜歡使用它們,因為獲取大型語料庫很容易。例如,谷歌釋出了一個包含超過萬億個單詞的網路語料庫。但是,為了讓語料庫理清詞義和代詞指代的細微之處,句子必須被標記——也就是說,用每個單詞的定義或詞性進行標記——而大多數基本語料庫都沒有被標記。最大的意義標記語料庫是 SemCor(語義關聯的縮寫)。SemCor 在普林斯頓大學建立,包含 360,000 個單詞。就標記所有這些單詞所需的工作量而言,這是一個非常大的語料庫,但對於會說話的機器人的工程師來說,它仍然很小。

我們可以透過檢視谷歌開發的兩個此類系統來了解 n 元語法機器隨之而來的優勢和劣勢。其中一個系統是名為谷歌翻譯的統計翻譯器,它以已經翻譯成多種語言的文件為食。(谷歌翻譯的原始飼料主要由聯合國檔案組成,這些檔案以多種語言釋出。)由於一種語言中的同音異義詞通常用另一種語言中的兩個詞來表示(“bank”(銀行)在西班牙語中是 orillabanco),因此用於訓練統計翻譯機器的雙語語料庫可以代替意義標記語料庫。翻譯器可以學習區分包含英語“bank”(銀行)和西班牙語 orilla 的句子(最可能是帶有“swim”(游泳)一詞的句子)與包含英語“bank”(銀行)和西班牙語 banco 的句子(帶有“cashed”(兌現)和“check”(支票)等詞的句子)。

谷歌 Scribe——一種在您鍵入時預測您的下一個單詞的工具——是 n 元語法機器的另一種變體,旨在幫助生成句子。鍵入“major”(主要),它會預測以下內容:“role”(角色)、“cities”(城市)、“and”(和)、“role in”(在……中的作用)、“problem”(問題)、“histocompatibility complex”(組織相容性複合體)、“league”(聯盟)。所有這些都是常見的組合(甚至是“major histocompatibility complex”(主要組織相容性複合體),它在谷歌上的搜尋結果超過一百萬次)。

大量可能性指出了當今 n 元語法機器的一個主要侷限性。由於它們僅跟蹤幾個單詞長度的語境,因此如果相關單詞之間有太多空間,它們就會崩潰。鍵入“He swam to the bank”(他游到岸邊),谷歌翻譯會返回 Él nadó hasta la orilla,這是正確的。但是,嘗試“He swam to the nearest bank”(他游到最近的銀行),您會得到 Él nadó hasta el banco más cercano,這意味著“他游到最近的金融機構”。雙語語料庫對於區分多義詞和代詞也沒有太大幫助。一種語言中的許多多義詞在其他語言中也是多義詞。

同樣,谷歌 Scribe 和其他簡單的 n 元語法機器既不能處理新詞,也不能生成有用的句子。即使是年幼的孩子也可以在句子中使用新詞,但是當您鍵入新詞“wug”時,谷歌 Scribe 沒有任何建議。而且由於它只學習短語的統計資訊,因此它生成的句子逐字逐句是連貫的,但卻胡言亂語。例如,在谷歌 Scribe 中鍵入“Google”(谷歌),然後在每個單詞之後選擇它給出的第一個建議,您最終會得到“Google Scholar search results on terms that are relevant to the topic of the Large Hadron Collider at the European level and the other is a more detailed description of the invention”(關於歐洲大型強子對撞機主題的相關術語的谷歌學術搜尋結果,另一個是對該發明的更詳細描述)。這種 n 元語法系統根本無法將句子的開頭與結尾聯絡起來。

朝著會說話的機器人邁進
改進 n 元語法機器最簡單的方法之一是讓它們使用更長的序列。這項任務比聽起來更困難。假設一種語言只包含 10,000 個單詞。為了包含每個可能的三元語法,文字機器必須學習一萬億個組合——10,000 的三次方。儲存每個可能的六個單詞的序列(仍然不夠長以完成工作)將需要 1024 個組合——大約 10 萬億艾位元組的資訊。2009 年,地球上所有的數字資訊估計只有 500 艾位元組。

但是,即使它得到了一個巨大的意義標記語料庫的支援,這個聰明的機器人學生仍然需要吸收一些街頭智慧,才能權威地說話。在 1960 年的一篇經典論文中,希伯來大學的哲學家耶霍舒亞·巴希勒爾認為,求助於周圍的詞語永遠無法解釋人們如何知道“the box was in the pen”(盒子在筆筒裡)中的“pen”(筆筒)必須指代圍欄,而不是書寫工具;這種推斷不是來自語境,而是來自我們知道盒子不適合放在書寫工具中的知識。

為了幫助機器人獲得真實世界經驗的好處,同時彌合數據差距,最近的幾個基於 Web 的專案試圖徵集公眾參與。卡內基梅隆大學的計算機科學家(由安東尼·托馬西克領導)即將推出一款名為 Jinx 的互聯網遊戲。向兩名玩家展示一個句子語境中的單詞(例如,“John cashed a check at the BANK”(約翰在銀行兌現了一張支票)),並要求他們儘可能快地鍵入相關單詞。如果他們都想出了相同的單詞,他們就會得分。研究人員可以使用這些猜測,尤其是在玩家意見一致時,來標記歧義詞的含義,從而建立一個比 SemCor 更大的標記語料庫。

我自己的代詞偵探 (gameswithwords.org/PronounSleuth) 是一個網站,要求志願者閱讀包含代詞的句子,並決定代詞指代誰,例如“Sally went to the store with Mary. She bought ice cream”(莎莉和瑪麗一起去商店。她買了冰淇淋)。對於某些句子,玩家之間的意見相當一致;而在另一些句子中,則不太一致。我們發現,為了區分一種句子與另一種句子,我們需要來自 30 到 40 人的資料。到上次統計時,已有超過 5,000 名參與者判斷了幾個句子。我和斯內德克最近提交了一篇論文,其中包含 1,000 個句子的資料——相對於機器人理清代詞細微之處所需的數量而言,這個數字很小,但到目前為止,它是目前可用的此類句子的最大資料庫。

短語偵探 (anawiki.essex.ac.uk/phrasedetectives) 由英格蘭埃塞克斯大學的計算機科學家於 2008 年建立,它採用了一種更傳統的方法,向玩家展示一本書或文章的節選。當參與者遇到代詞時,他們會被要求識別代詞指代的單詞。短語偵探還詢問玩家關於其他指稱表達的問題。例如,實驗者對玩家是否認識到在“Jane Austen wrote Pride and Prejudice. The book was very popular”(簡·奧斯汀寫了《傲慢與偏見》。這本書非常受歡迎)這段話中,“the book”(這本書)指的是《Pride and Prejudice》(《傲慢與偏見》)感興趣。到目前為止,短語偵探的玩家已經完成了 317 份文件的工作。總的來說,來自這些專案的資料將使我們能夠構建和測試理論,這些理論有一天可能會引導我們走向使用代詞的機器人。

但是,何時才能實現,這是一個懸而未決的問題,而且我們的期望可能和以往一樣不切實際。儘管瞭解了障礙,但谷歌機器翻譯小組負責人弗朗茨·約瑟夫·奧克在最近接受《洛杉磯時報》採訪時表示,《星際迷航》通用翻譯器式的即時語音到語音翻譯應該“在不久的將來”成為可能。但是,建造一個會說話的機器人將需要理解語言本身的秘密,而這可能被證明與《星際迷航》中的任何其他事物一樣難以捉摸。

(延伸閱讀)

  • 動詞中的隱含因果關係。C. 加維和 A. 卡拉馬紮,載於Linguistic Inquiry,第 5 卷,第 3 期,第 459–464 頁;1974 年夏季。

  • 8 個月大嬰兒的統計學習。J. R. 薩夫蘭、R. 阿斯林和 E. 紐波特,載於Science,第 274 卷,第 1926–1928 頁;1996 年 12 月 13 日。

  • 詞語和規則:語言的要素。史蒂芬·平克。基礎書籍出版社,1999 年。

  • 紙張一直是我的毀滅:多義含義的概念關係。Devora E. Klein 和 Gregory L. Murphy,載於Journal of Memory and Language,第 42 卷,第 4 期,第 548–570 頁;2002 年 11 月。

  • 詞彙語義發展中的意義轉變。H. Rabagliati、G. F. Marcus 和 L. Pylkkänen,載於Cognition,第 117 卷,第 1 期,第 17–37 頁;2010 年 10 月。

  • 兒童語言習得:對比理論方法。本·安布里奇和埃琳娜·V·M·利文編輯。劍橋大學出版社,2011 年。

約書亞·K·哈茨霍恩是麻省理工學院計算認知科學組的 Ruth L. Kirschstein NRSA 博士後研究員,也是《大眾科學·思維》的特約撰稿人。他在他的實體實驗室和 GamesWithWords.org 網站上進行研究。您可以在 Twitter 上關注他 @jkhartshorne。

更多作者:約書亞·K·哈茨霍恩
SA Mind Vol 22 Issue 1本文最初以“會說話的機器人何時出現?”為標題發表於SA Mind 第 22 卷第 1 期(),第 44 頁
doi:10.1038/scientificamericanmind0311-44
© .