小工具部落格可能會為百萬畫素和處理器速度而瘋狂。但如果你想知道什麼真正讓大眾眼花繚亂,請考慮一個很少被明確提及的功能:機器識別現實世界的景象和聲音。
這一類別的成功案例代表了計算和軟體的勝利。筆記型電腦和臺式電腦上的語音轉錄非常準確。觸控式螢幕上的手勢通常是可靠的(畢竟,可識別的動作數量有限)。Xbox Kinect 和一些三星電視為我們帶來了身體運動識別。Windows 7 和 8 中的手寫識別是一個隱藏的瑰寶,無論您是印刷體還是草書。
諸如 Shazam 和 SoundHound 之類的手機應用程式可以識別在後臺播放的流行歌曲,並顯示其標題、表演者和專輯名稱。Google Goggles 是谷歌為 Android 手機和 iPhone 開發的應用程式之一,它嘗試視覺識別:拍攝書籍封面、DVD 盒、葡萄酒標籤或繪畫的照片,程式會立即顯示該專案的 Google 搜尋結果。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。
軟體甚至可以挑選出影片中的面孔,而 YouTube 的版權保護演算法可以將您的影片與已知的受版權保護的材料進行比較,以確保您沒有釋出來自某些電視網路的影片。
這一切都很棒。當它們工作時,聲音、影像和運動識別真的像魔法一樣。不幸的是,營銷人員意識到了這一點。他們用無數其他基於計算機的識別功能來誘惑我們,這些功能的效果幾乎與冷聚變一樣。
幾十年來,我一直反覆成為所謂的識別失敗心碎綜合症 (RFHS) 的受害者。你買了一些東西,被它承諾的識別人類指令的能力所吸引,但它就是不夠好用,不值得費心。
還記得 Clapper 嗎?作為一個青少年,我買了一個。有時你拍兩下手,燈就亮了,有時則需要嘗試幾次。我也買了一個 Whistle Switch。它可以透過識別聲音來開啟你的電器——在這種情況下,是一種高音的、可擠壓的哨子。哦,它確實打開了燈——但茶壺、吱吱作響的倉鼠輪和響亮的噴嚏也一樣。
可預見的是,我也被牛頓吸引了;700 美元購買的手寫識別,可能五次中只有兩次有效。
最近,三星一直在承諾其 Galaxy S4 手機可以將語音翻譯成另一種語言,就像《星際迷航》一樣。把它舉到說法語的人面前,說“Où sont les toilettes?”,手機應該大聲說出“Where is the bathroom?”(洗手間在哪裡?)
事實上,三星剛剛在一個尚未成熟的識別技術之上又添加了一個。S Translator 應用程式甚至無法識別說外語的人的講話,更不用說將它們轉換成口語英語了。(我想三星也知道這一點。如果 S Translator 有用,它將成為廣告中的頭條新聞,而不僅僅是一個要點。)
在我們開始完全放棄這些功能之前,我們將抱有多少次希望?在我們退回多少產品之後,製造商才會開始在宣傳其“神奇”能力之前稍微改進這些技術?
聽著,我表示同情;基於軟體的識別絕非易事。它不是一個具有一個正確結果的清晰問題,就像電子表格將數字加在一起一樣。您正在要求軟體處理模糊、含糊、可變的輸入:聲音、圖片、動作、潦草的字跡。這就是為什麼識別不是 100% 的原因。它不一致。難怪它經常讓我們失望。
也許再過幾十年,更好的感測器、更快的處理器、更大的資料集和實驗最終會讓我們擺脫持續的 RFHS。
與此同時,也許電子公司及其客戶都應該稍微認識到:機器識別我們的世界是令人興奮的,但仍在發展中。
大眾科學線上
八款近乎神奇的識別應用程式:ScientificAmerican.com/jul2013/pogue