藉助iPhone的Siri等語音識別軟體,機器人已經可以識別並對語音做出反應。但是,“智慧”機器仍然難以處理大多數其他聲音。“從某種意義上說,這幾乎是一個更簡單的問題,但是對於環境中的噪聲,還沒有進行大量研究,”波士頓Rethink Robotics的機器人專家約瑟夫·羅馬諾說。“它還沒有被納入機器人反饋的迴圈中。”
現在,羅馬諾正在讓機器人傾聽比我們的對話更多的聲音。他和他在賓夕法尼亞大學的合作者建立了一個名為ROAR(robotic operating system open-source audio recognizer,機器人作業系統開源音訊識別器 的縮寫)的軟體工具,該工具允許機器人專家訓練機器對更廣泛的聲音做出反應。正如最近一期Autonomous Robots雜誌中所述,該工具的主要要求是麥克風。
為了開始訓練,機器人的麥克風首先捕獲環境聲音,ROAR會清除嘈雜的靜電。接下來,操作員透過重複執行特定操作(例如關門或啟動智慧手機鬧鐘)並標記獨特的音訊特徵(在機器人監聽時)來教ROAR識別關鍵聲音。最後,程式從該組訓練片段中建立每個動作的聲音的通用模型。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的有影響力的故事的未來。
該小組在一個單臂機器人上測試了ROAR,提高了機器完成特定任務的能力。在一種情況下,機器人試圖自主抓取並啟動電鑽。在沒有任何聲音反饋的情況下,機器人僅在20次嘗試中成功了9次,但在使用ROAR時,其成功率提高了一倍。如果在抓取後,機器人沒有聽到電動機的嗡嗡聲,它會調整抓握並再次嘗試。
下一步是確保系統在嘈雜的環境中工作。將音訊與視覺和觸覺線索一起整合到機器人的反饋迴圈中,有一天可以使機器人護士快速響應求救呼叫,或使工廠機器人在發生故障時做出反應。儘管這項技術仍處於早期階段,但羅馬諾認為其潛力巨大。“我們甚至還沒有開始探索我們可以做什麼,”他說。