多語言機器

市售軟體提供的“要點”翻譯準確率僅為 70% 到 80%。統計分析技術能否提高這一效能?

盟軍在二戰中取得勝利後,緊接著又面臨冷戰。英國和美國的密碼破譯者,因計算機輔助在二戰中取得的勝利而備受鼓舞,他們尋求新的突破,將機器的處理能力從密碼轉向語言。邏輯認為,破解軸心國秘密通訊的數學技術,對於從堆積如山的俄文科技和新聞文字中收集情報可能具有極大的價值。

50多年過去了,尚未出現萬無一失的《星際迷航》式通用翻譯器技術。然而,現在正是實現這種自動化翻譯的成熟時機。全球翻譯服務市場規模已超過 50 億美元,並且隨著網際網路日益普及,預計到 2006 年需求將增長到 76 億美元。

為了利用機器破解語言密碼,最新的嘗試之一是,一種原型翻譯技術的開發者希望以一種截然不同的技術挑戰該行業。它本質上是將書籍放入攪拌機中,觀察不同語言中的比較短語如何重新組合在一起。這種統計技術以其發明者紐約市 Meaningful Machines 的 Eli Abir 的名字命名為 EliMT,它可能不僅是提高機器翻譯(或 MT)準確性的關鍵,而且對於快速翻譯目前被企業界忽視的語言也至關重要。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將有助於確保未來能夠繼續刊登關於塑造當今世界的發現和思想的有影響力的報道。


卡內基梅隆大學的機器翻譯專家 Jaime Carbonell 聲稱:“EliMT 方法顯然是近幾年,甚至可能是自機器翻譯誕生以來,最有希望且理論上最重要的 MT 發展成果。”

翻譯的難題

行業領導者 Systran 透過 Altavista 的 Babelfish 或 Google 提供的免費機器翻譯服務,可以實現所謂的要點翻譯,即翻譯提供基本思想,但錯誤率在 20% 到 30% 之間。對於商業應用而言,潤色要點翻譯中的錯誤可能非常耗時:聘請專業人工翻譯的費用約為每小時 20 美元,而且許多翻譯人員都非常忙碌,以至於當他們有空接手工作時,可能為時已晚,無法在競爭激烈的國際金融領域發揮作用。

大多數商業 MT 系統的工作方式與人們在圖書館中尋求翻譯外語的方式非常相似。首先,系統分析不熟悉的文字。然後,他們參考相應的雙語詞典和語法指南。在某種程度上,這些“基於規則”的方案類似於某人一旦知道程式碼規則,就會如何閱讀編碼文字。

然而,在 20 世紀 50 年代,科學家們在這一假設下工作後很快意識到,自然語言比人工程式碼複雜得多。這在很大程度上是由於一個詞的含義隨語境變化的問題。“cool”這個詞在表示溫度時,與 Fonzie 使用時意思不同。一個關於早期粗糙的機器翻譯嘗試的偽經故事是,成語“心有餘而力不足”從英語翻譯成俄語,然後再翻譯回來,結果變成了“伏特加酒不錯,但肉卻腐爛了。”

雖然基於規則的 MT 自那時以來有了顯著改進,但它並非萬無一失。開發和除錯任何兩種語言的翻譯演算法可能需要一個團隊花費數年時間,而且每種語言對都是一項全新的工作——英漢系統不一定能幫助實現漢英或英斯瓦希里語的翻譯。由於大約 20 到 30 種語言在經濟上至關重要,因此全球金融大約需要 400 到 800 種語言對。到目前為止,Babelfish 上只有 19 種語言對可用,其他基於規則的產品也沒有提供更多選擇。

統計學與詞語

EliMT 技術採用不同的策略。想象一下,一群人走進圖書館,查詢俄語原版小說《罪與罰》,然後借閱陀思妥耶夫斯基作品的所有英文譯本。如果他們比較每個句子的翻譯方式,他們可以統計發現,某些短語經常以相同的方式翻譯。然後,他們可以透過回收舊翻譯的片段,從不同的書籍中提取句子的兩半,來拼接成新句子的翻譯。“您不是逐字逐句地翻譯,而是從句子片段翻譯到句子片段,”Fluent Machines 董事長兼執行長 Steve Klein 說。

雖然人腦永遠無法指望進行所涉及的心算,但計算機可以。這項技術遍歷巨大的翻譯資料庫,並將許多句子分解開來。然後,它會尋找傾向於聚集在一起的詞語。例如,在英語到德語的示例文字中,它注意到短語“kids love”與 223 次“kinder lieben”、201 次“kinder moegen”和 12 次“kleine kinder”相關聯。由於“kinder lieben”出現頻率最高,因此它將成為首選翻譯,儘管 EliMT 也會根據需要記錄備選翻譯。整個句子和其他長片語之間的匹配優先於較短的構建塊,因為較長匹配中的詞語通常在上下文中得到正確翻譯。

統計 MT 技術大約在 12 年前首次出現,但由於並非世界上的每個片語都可以在翻譯中找到,因此資料庫不完整的問題意味著統計 MT 依賴於基於規則的 MT 來填補空白。Abir 的新系統完全避開了基於規則的系統,而是完全依賴於統計解決方案,方法是查詢句子片段之間的重疊部分。例如,雖然示例文字中沒有短語“kids love chocolate”,但片段“love chocolate”卻有;“liebe schokolade”有 256 次,“lieben schokolade”有 233 次。即使前者出現頻率更高,但其“liebe”沒有重疊,因此係統會選擇排名第二的“lieben”。

更高的準確率?

Carbonell 表示,他相信 EliMT 可以在大約 12 到 18 個月內生成比 Systran 更準確的翻譯——以至於他在評估後申請加入 Meaningful Machines 的董事會。此外,EliMT 無需等待數十年才能開發語言對規則,只需輸入任何語言的翻譯,即可快速準備一個臨時的資料庫。“對於 100 種語言,有 9,900 種語言對,雖然一種語言對的捷徑很好,但 9,900 種語言對的捷徑至關重要,”Carbonell 說。

EliMT 的另一個潛在優勢是,與需要細緻調整規則的基於規則的系統不同,隨著更多資料的輸入,它可以以完全自動化或人工輔助的方式穩步改進自身。此外,EliMT 應該能夠準確識別其翻譯中可能存在的錯誤,從而簡化人工編輯過程。“對於其他翻譯,您只知道它的準確率約為 70%,但您不知道是哪 70%,”Abir 說。“這個系統知道它不知道什麼。”

此外,與其他 MT 系統不同,來自其他語言對的結果可能會透過匹配這些片段——Abir 稱之為“意義塊”或“語言的 DNA”——跨不同語言來幫助 EliMT 翻譯。然而,這實際上可能有多大幫助,還需要進一步測試。

目前,EliMT 系統仍處於準備階段,但該公司希望 जल्द ही 進行對比測試。核心資料庫可能證明非常龐大,達到數百 GB,並且翻譯很容易佔用大量計算能力,因此該公司目前計劃運營一臺伺服器,客戶可以透過該伺服器處理翻譯。儘管如此,Klein 表示,他希望在未來幫助實現電子郵件、聊天室和移動裝置等即時翻譯應用。“目前,MT 僅佔全球翻譯市場的 2%,但我們預計,一旦供應——接近人工的自動化系統——最終到位,需求將會上升,”他說。


查爾斯·崔常駐紐約市。


© .