關於支援科學新聞
如果您喜歡這篇文章,請考慮訂閱我們的獲獎新聞,以支援我們。 訂閱。透過購買訂閱,您將有助於確保關於發現和塑造我們當今世界的想法的具有影響力的故事的未來。
自2005年初推出以來,YouTube的訪客(現在擁有網際網路上第二大搜索引擎)已經上傳了數億個影片。對於大多數人來說,YouTube(谷歌在2006年末以16.5億美元的價格收購了該影片共享網站)是分享個人影片、觀看大學講座、查閱“操作指南”短片和吸收流行文化片段(例如“怪人阿爾”揚科維奇對Lady Gaga的惡搞)的寶貴渠道。然而,直到最近,數千萬聾人和聽力障礙人士(僅在美國)無法充分利用YouTube,因為他們只獲得了一半的體驗。谷歌和YouTube的工程師正在努力透過改進可以自動為所有影片新增字幕的軟體來解決這個問題,儘管這是一個艱難的過程。
谷歌的使命是組織世界資訊,而網路上的許多資訊是口頭的而不是書面的,該公司研究科學家邁克·科恩說,他於2004年加入谷歌領導語音技術開發。電視在20世紀70年代初引入了隱藏字幕,並在20世紀80年代更廣泛地普及,在很多方面,在滿足聾人需求方面比網路更具優勢,他補充說。
在大多數聾人社群中,“人們覺得,在花費多年時間贏得有關電視節目加字幕的法律訴訟之後,突然間世界已經轉移到了YouTube,”科恩說。“我們希望以一種可擴充套件的方式為他們重新贏得這場戰鬥;必須使用技術而不是使用人工為每個影片輸入字幕來完成。”
閱讀字幕
谷歌在2006年在其Google Video網站上推出了手動為影片新增字幕的功能,並在2008年為YouTube添加了字幕功能。谷歌在2009年11月向YouTube推出了機器生成的自動字幕,此後一直在努力藉助語音識別建模軟體和大量資料來改進這項技術。據谷歌稱,迄今為止,已有超過6000萬個影片被自動添加了字幕。
該公司的語音識別模型具有聲學、詞彙和語言元件。聲學部分是口語中發出的基本聲音(例如所有母音和子音)的統計模型。這是一個龐大而複雜的模型,因為這些聲音通常會根據上下文而變化(也就是說,說話者成長的地方和所說的方言),科恩說。
詞彙基本上是給定語言中的單詞列表以及有關它們如何發音的資料(例如,考慮在發音“economics”中的“e”時可以接受的兩個母音)。“對於像語音搜尋這樣的東西,我們有大約一百萬個單詞的詞彙表,其中包含這些單詞的正確發音以及發音的變體,”科恩說。
谷歌語音識別模型的語言元件是語言中可能使用的所有短語和句子的統計模型。這有助於自動字幕功能分析不同的單詞通常如何組合在一起(例如,單詞“go”之後通常跟著單詞“to”),並根據該資訊預測可能的配對。
大多數語音識別技術都是針對英語進行調整的,儘管該公司計劃將自動字幕擴充套件到其他語言。目前,YouTube透過將自動字幕翻譯成50多種語言來服務其全球受眾。
但它有效嗎?
自動字幕很容易被聾人社群接受,因為它使他們可以訪問更多的YouTube內容。然而,對於聾人使用者來說,此功能通常令人沮喪,如果字幕不準確,他們發現網頁上的影片幾乎沒有用。“我喜歡自動字幕的想法,因為它使我能夠理解許多我[否則]無法理解的YouTube短片,”紐約市查平學校17歲的高三學生阿里爾·沙克特說。沙克特有聽力障礙,他補充說,“然而,現實情況是,自動字幕通常是錯誤的。我被迫觀看無意義的陳述或字母/數字,而不是能夠閱讀實際的對話。”
自動字幕可能會因多種原因而變得混亂,特別是源分離。該軟體必須區分音訊流中的不同波形,以找到需要新增字幕的對話,而不是背景音樂或對話。這尤其困難,因為上傳到YouTube的許多影片的音訊質量很差,並且有很多背景噪音,谷歌高階語音識別研究科學家米歇爾·巴基亞尼說。“這是YouTube正在努力改進的地方,”他補充說。
自動字幕也很難轉錄帶有非常專業的詞語的語言,例如在學術講座中使用的詞語,科恩說,並補充說:“這些詞語不是常用詞彙的一部分,但如果錯過了這些詞語,您就會錯過講座的大部分含義。”
學習曲線
谷歌聲稱,其最新版本的自動字幕軟體已將錯誤率降低了20%。事實上,早期版本的軟體在影片中使用時無法識別“YouTube”這個詞,YouTube字幕專案技術負責人肯·哈倫斯泰因說。哈倫斯泰因是聾人,他是負責提供、管理和顯示字幕的基礎設施的主要工程師,也是該公司字幕專案的主要推動力。
哈倫斯泰因回憶說,參與字幕專案的大部分團隊都對第一個自動字幕的質量“非常擔憂”。“我一遍又一遍地告訴他們,作為潛在的受益者之一,即使看到我們的演算法生成的最不準確的字幕,我也會感到欣喜若狂,”他說。“大多數人沒有意識到,電視直播活動[例如體育賽事]的字幕是由人工生成的,但仍然常常很糟糕,以至於無法辨認。但是,如果您瞭解上下文並且對雙關語和同音異義詞有很好的掌握,那麼您就有機會弄清楚發生了什麼——而且這比什麼都沒有要好得多。”
儘管生成高度準確的自動字幕很困難,但哈倫斯泰因說,他從一開始就相信YouTube的自動語音識別演算法會隨著時間的推移而改進,並且在該網站上使用的自動字幕越多,該公司的工程師就越有可能獲得改進該技術的機會。“它的效果和我們所能做的一樣好,我喜歡它的原因就在於此,”他補充說。“它不是完美的,也不假裝是完美的,而且可能永遠不會是完美的,但這只是我們在不斷攀登的懸崖上邁出的一步。”
改進YouTube上數百萬個影片都可以使用的自動字幕準確性的最佳方法是向更大、更豐富的口語模型提供更多資料,實質上是訓練YouTube軟體更好地解釋口語並將其置於上下文中,科恩說。
在短期內,還有其他方法可以提高字幕質量。在YouTube上釋出內容的人可以下載新增到其影片的自動字幕,更正任何錯誤,然後將字幕重新上傳到YouTube。或者他們可以上傳帶有預先新增字幕的影片,哈倫斯泰因說,並指出了一個明顯的激勵措施——準確新增字幕的影片會在全球範圍內獲得“多得多的觀看次數”。
你比機器更聰明嗎? 參加我們偉大的意識競賽:http://bit.ly/ke4n3L