為公路旅行打包汽車似乎是一項非常簡單的任務,但對於機器人來說,學習這項任務從來都不容易——直到一項新的研究將機器人訓練轉向了人工智慧。這項研究的意義遠不止於一個打包良好的後備箱,最終可能會影響到從我們如何管理家庭到如何殖民火星等諸多方面。
麻省理工學院和斯坦福大學的一個研究團隊使用一種稱為“擴散模型”的生成式人工智慧,訓練機器人將物品裝入有限空間,同時遵守一系列約束條件:例如人類的考量,確保重物不會壓壞輕物,某些物品之間要有一定的空間,機器人的手臂不會意外撞擊容器並損壞它,等等。研究人員表示,擴散模型幫助機器人更快地完成這項任務,比過去使用的訓練方法更快。
麻省理工學院博士生朱天 “Skye” Yang 是詳細介紹這項研究的論文的第一作者,該論文最近在預印本伺服器 arXiv.org 上釋出,等待同行評審。Yang 說:“我們希望有一種基於學習的方法來快速解決約束問題,因為與傳統方法相比,基於學習的[人工智慧]將解決得更快。”“基於學習”的方法是指允許人工智慧程式透過識別訓練資料和期望輸出之間的模式來自主學習。這與之前測試過的“基於規則”的程式不同,後者更受限制,因為它們必須在嚴格編碼的規則集內執行。“擴散模型是一種非常好的方法,可以對問題的不同解決方案進行抽樣,並共同滿足所有約束條件,” Yang 說。
支援科學新聞事業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和想法的具有影響力的故事。
佐治亞理工學院人工智慧機器人學助理教授 Animesh Garg 說:“自主打包‘一直是一個具有挑戰性的問題’,他沒有參與這項新研究,但在類似的研究領域工作。“如果沒有機器學習,解決方案將涉及計算密集型的線上 3D 裝箱”——一種基於規則的技術,根據程式的編碼限制,“甚至可能是無法解決的”。
以前,為了讓機器人在上述約束條件下解決打包問題,它必須按順序工作。它會開發可能的打包配置,並一次針對一個約束條件進行測試,然後檢查與其他約束條件是否存在衝突。這種試錯法被證明太慢了,尤其是在需要打包的物品更多時——因此需要測試的動作也更多。在新研究中,另一方面,擴散模型允許機器人同時探索一系列機器學習模型,每個模型代表一個單獨的約束條件。這些模型的總和使機器人能夠更全面地瞭解問題,使其能夠幾乎瞬間同時考慮所有約束條件。因此,與以前的技術相比,更快地找到了更多成功的打包配置。該研究的擴散方法還被證明能夠解決應用於更多物品的新約束組合——超出模型在訓練期間所經歷的範圍。
Garg 說:“使用機器人打包非常困難,但具有變革性。” “這項工作使機器人能夠開始‘即時思考’,並快速實現非常好,即使不是最佳的解決方案。”
Yang 說:“這是一種最佳化問題。” “使用基於學習的方法,我們很高興看到,如果我們在小問題上進行訓練,它可以推廣到解決具有更多物件或更大約束集的問題。”
研究團隊還研究了其學習演算法如何與大多數人關於如何打包的直覺相符或相悖。Yang 說,人類“有首先將東西打包到邊緣的啟發式方法”。“如果你有很多東西,你總是把它們打包到左下角。或者,如果你要堆疊東西,你會均勻地逐層放置,而不是一直堆到一側,然後再堆另一側。” 雖然從人類的角度來看,這些啟發式方法似乎是合乎邏輯的,但沒有我們先入為主觀念的基於學習的機器人可以自由地發現新穎的解決方案。
但是,透過提前分析資料並在開始打包之前記住可能的最終解決方案,您可以消除試錯的需要。要像該研究的人工智慧驅動機器人之一那樣,將多個物體打包到有限的空間中——想想汽車後備箱或行李箱——有三個步驟。首先,提前思考您對打包的瞭解以及必須滿足哪些約束條件。其次,在開始裝載物體之前,想象解決方案。最後,朝著理想的解決方案打包,不一定非要遵循您的直覺。
Yang 說:“可能有很多解決方案”可能不符合直覺。“而且你可以隨著過程的推進而改變計劃。”
機器人獲得比人類同行更快、更高效的打包能力,其應用遠遠超出公路旅行。Yang 解釋說:“我希望廚房裡有機器人幫助做家務。” “我剛去一家工業機器人公司做了一次演講,他們對使用這種演算法為他們的客戶打包非常感興趣。” 例如,她建議這項技術可以幫助航運公司將不同的物品裝入一個集裝箱,或者幫助製藥公司批次向醫院運送各種藥物。這種可能性甚至超越了地球。“如果你要去火星,你可以讓機器人決定如何最好地打包資源,” Yang 建議道。
Garg 同意,其意義可能非常深遠。他說:“機器人打包和放置將使一大批開放世界機器人技能成為可能。” 然而,還需要更多的研究。“這項工作取得了非常令人印象深刻的成果,但距離認為問題‘已解決’還有幾步之遙,” Garg 說。“我希望這項工作將激勵社群在這個領域取得快速進展。”
現在,麻省理工學院和斯坦福大學的團隊正在努力使他們的機器人在做出“離散決策”方面更具能力。這不僅包括教導機器人在約束條件下打包,還包括訓練它在不斷變化的變數中這樣做——例如,當任務是在房間內同時移動時打包物品。
因此,下次您打包時,請考慮像機器人一樣進行打包以最佳化結果。不久之後,您可能只需將一切完全交給機器。
