為什麼人工智慧需要能夠理解世界上的所有語言

移動技術的好處，世界上大多數的7億文盲人口無法獲得

作者：Moussa Doumbouya，Lisa Einstein& Chris Piech 編輯：Michael D. Lemonick

當我們請我們來自西非幾內亞農村的新朋友艾莎圖將我們的電話號碼新增到她的手機中，以便我們保持聯絡時，她用蘇蘇語回答說：“M’mou noma。M’mou kharankhi。” “我不能，因為我沒有上過學。” 由於缺乏正規教育，艾莎圖不會讀寫法語。但我們認為，艾莎圖缺乏教育不應該阻止她透過手機獲取基本服務。正如我們所見，問題在於艾莎圖的手機不理解她的當地語言。

計算機系統應該適應人們（所有人）使用語言的方式。西非人使用他們的語言已有數千年，創造了豐富的口頭歷史傳統，透過生動地講述祖先的故事和歷史觀點，並傳遞知識和道德，為社群服務。計算機可以輕鬆地支援這種口頭傳統。雖然計算機通常是為使用書面語言而設計的，但語音技術確實存在。然而，語音技術並不能“說”非洲使用的 2,000 種語言和方言中的任何一種。蘋果的 Siri、谷歌助手和亞馬遜的 Alexa 共同服務於零種非洲語言。

事實上，移動技術的好處，世界上大多數的7億文盲人口無法獲得，除了接聽電話等簡單的用例之外，他們無法訪問諸如聯絡人管理或簡訊之類的簡單功能。由於文盲往往與缺乏教育相關，因此無法說一種通用的世界語言，語音技術不適用於最需要它的人。對於他們來說，語音識別技術可以幫助彌合文盲和獲取來自農業資訊到醫療保健的有價值的資訊和服務之間的差距。

關於支援科學新聞

如果您喜歡這篇文章，請考慮訂閱我們的獲獎新聞，以支援我們的工作訂閱。透過購買訂閱，您將有助於確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。

為什麼語音技術產品在非洲和其他地方語言中不可用？人口較少的語言通常是商業優先事項的犧牲品。此外，對技術商品和服務擁有權力的人往往使用相同的幾種語言，這使得未能充分考慮那些具有不同背景的人變得容易。西非廣泛使用的語言的使用者

在歷史上開發語音識別技術的研究實驗室、公司和大學中，代表性嚴重不足。眾所周知，數字技術可能會對不同種族的人產生不同的後果。技術系統可能無法為不同的使用者提供相同質量的服務，將某些群體視為不存在。

商業優先、權力和代表性不足都加劇了另一個關鍵挑戰：缺乏資料。語音識別技術的發展需要大型的帶註釋的資料集。最能從語音識別技術中受益的文盲人口使用的語言往往屬於“低資源”類別，與“高資源”語言相比，可用的資料集很少。當前解決資料匱乏的最新方法是“遷移學習”，它將從高資源語言中學到的知識遷移到低資源語言的機器學習任務中。然而，實際遷移的內容理解不充分，需要對用於遷移學習的資料集的相關性、大小和質量之間的權衡進行更嚴格的調查。就目前的技術而言，未來十年內上網的數億使用者將無法使用他們的裝置所服務的語言。

如果這些使用者設法訪問線上服務，他們將缺乏常見世界語言使用者所享有的自動內容稽核和其他保障措施帶來的好處。即使在美國，使用者也體驗到關注和語境化，也很難保證人們的線上安全。在緬甸及其他地區，我們已經看到，不受稽核的內容的迅速傳播如何加劇社會分裂並放大極端聲音，從而煽動暴力。線上虐待在全球南方以不同的方式表現出來；而且，大多數 WEIRD（西方、受過教育、工業化、富裕和民主）的設計師不理解當地的語言和文化，因此無法預測或防止他們自身文化背景之外的暴力和歧視。

我們正在努力解決這個問題。我們為 Maninka、Pular 和 Susu 開發了首個語音識別模型，這三種語言在七個國家/地區被 1000 萬人使用，其中文盲率高達 68%。我們沒有利用來自無關的高資源語言的資料集，而是利用了大量可用的語音資料，即使在低資源語言中也是如此：廣播存檔。我們為研究社群收集了兩個資料集。第一個是西非無線電語料庫，包含超過 10 種語言的 142 小時音訊，並帶有標記的驗證子集。

第二個是西非虛擬助手語音識別語料庫，包含四種語言的 10,000 個標記音訊剪輯。我們建立了西非 wav2vec，這是一種在嘈雜的無線電語料庫上訓練的語音編碼器，並將其與在六倍更多高質量資料上訓練的基線 Facebook 語音編碼器進行了比較。我們表明，儘管西非無線電語料庫的規模小且嘈雜，但我們的語音編碼器在多語言語音識別任務上的表現與基線相似，並且在西非語言識別任務上的表現明顯優於基線。最後，我們為 Maninka、Pular 和 Susu 的文盲使用者構建了一個多語言智慧虛擬助手原型（請參見下面的影片）。我們正在向研究社群釋出我們所有的資料集、程式碼和經過訓練的模型，希望它能促進這些領域的進一步努力。

早期的計算機名人知道，為了讓大眾能夠使用程式設計，他們需要建立易於人類學習的程式語言。即便如此，第一批高階程式語言還是高度技術化的。今天的使用者受益於多個抽象級別：您不需要了解 JavaScript 就可以在您的計算機上閱讀這篇文章，人工智慧研究人員也不需要與彙編程式碼互動來推進計算機科學領域的發展。

儘管如此，計算機的進化程度還不足以在某些社會中發揮作用。艾莎圖不應該閱讀和書寫一種通用語言才能為科學研究做出貢獻，更不用說僅僅與她的智慧手機互動了。

是的，建立能夠理解數千種語言的口頭交流的細微之處的計算機具有挑戰性，這些語言富含語調和其他高階語義等口語特徵。但是，只要研究人員將注意力轉向哪裡，就可以取得進展。創新、訪問和安全要求技術能夠說世界上所有的語言。