要了解最優秀的人工智慧與七歲兒童的智力之間的差距,只需看看流行的影片遊戲《我的世界》。一個年輕人觀看 YouTube 上 10 分鐘的演示後,就可以學會如何在遊戲中找到稀有鑽石。人工智慧 (AI) 還遠遠達不到這種水平。但在本月結束的一場獨特的計算機競賽中,研究人員希望縮小機器與兒童之間的差距,並透過這樣做,幫助減少訓練人工智慧所需的計算能力。
參賽者最多可以使用四天時間,並且使用不超過八百萬步來訓練他們的人工智慧找到鑽石。這仍然比孩子學習所需的時間長得多,但比目前典型的人工智慧模型快得多。
該競賽旨在促進一種名為模仿學習的方法的進步。這與一種流行的技術強化學習形成對比,在強化學習中,程式以試錯方式嘗試數千甚至數百萬次隨機動作,以找到最佳流程。強化學習已幫助為 Netflix 使用者生成推薦,建立了在工廠中訓練機械臂的方法,甚至在遊戲中擊敗了人類。但這可能需要大量時間和計算能力。使用強化學習來建立能夠安全駕駛汽車或在圍棋等複雜遊戲中獲勝的演算法的嘗試,涉及數百甚至數千臺計算機並行工作,以集體執行數百年的模擬——只有資金最雄厚的政府和公司才能負擔得起。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。
模仿學習可以透過模仿人類甚至其他人工智慧演算法處理任務的方式來提高學習過程的效率。而這項名為 MineRL(發音為“mineral”)競賽的編碼活動,鼓勵參賽者使用這項技術來教人工智慧玩遊戲。
卡內基梅隆大學匹茲堡分校深度學習理論博士候選人、MineRL 競賽組織團隊負責人威廉·格斯 (William Guss) 表示,強化學習技術本身在這個競賽中沒有機會。“隨機工作時,人工智慧可能只會在競賽的八百萬步限制內成功砍伐一兩棵樹——而這只是製作鐵鎬以在遊戲中挖掘鑽石的先決條件之一。“探索真的非常非常困難,”格斯說。“模仿學習為你提供了一個關於你的環境的良好先驗知識。”
格斯和他的同事們希望,由卡內基梅隆大學和微軟等機構贊助的這項競賽,能夠透過激勵程式設計師突破模仿學習的極限,從而產生超越定位《我的世界》寶石的影響。此類研究最終可能有助於訓練人工智慧,使其能夠在各種情況下更好地與人類互動,並駕馭充滿不確定性和複雜性的環境。“模仿學習是學習和智力發展的核心,”谷歌 DeepMind 倫敦研究科學家、MineRL 競賽顧問委員會成員奧里奧爾·維尼爾斯 (Oriol Vinyals) 說。“它使我們能夠快速學習一項任務,而無需從頭開始找出進化找到的解決方案。”
以示例進行遊戲
競賽背後的團隊表示,《我的世界》特別適合作為虛擬訓練場。遊戲的玩家展示了許多智慧行為。在其流行的生存模式中,他們必須抵禦怪物,覓食或耕種食物,並不斷收集材料來建造建築物和製作工具。新玩家必須學習《我的世界》版本的物理學,並發現將材料轉化為資源或工具的配方。這款遊戲因其釋放玩家的創造力而聞名,玩家構建了各種事物的積木虛擬版本:埃菲爾鐵塔、迪士尼樂園、《星球大戰》中的死星戰壕,甚至遊戲中可以執行的計算機。
為了建立競賽的訓練資料,MineRL 組織者建立了一個公共《我的世界》伺服器,並招募人們完成旨在演示特定任務的挑戰,例如製作各種工具。他們最終捕獲了 6000 萬個可以在給定情況下采取的行動示例,以及大約 1000 小時的記錄行為,提供給各團隊。這些記錄代表了首批也是最大的專門用於模仿學習研究的資料集之一。
加州大學伯克利分校計算機科學博士候選人、專注於人工智慧的《Alignment Newsletter》的運營者羅欣·沙阿 (Rohin Shah) 表示,競賽的重點是使用模仿來“引導”學習,這樣人工智慧就不需要花費那麼多時間探索環境來從第一原理中找出什麼是可能的,而是使用人類積累的知識。“據我所知,還沒有另一項人工智慧競賽專門關注這個問題。”
在雲計算和充足的資料供應的推動下,強化學習通常產生了大部分新的人工智慧研究論文。但對模仿學習的興趣正在增加,部分原因是研究人員正在努力解決試錯方法的侷限性。微軟劍橋研究院遊戲智慧組首席研究員、MineRL 競賽組織委員會成員卡佳·霍夫曼 (Katja Hofmann) 表示,以這種方式學習需要訓練資料,這些資料可以展示不同環境互動的所有可能性和後果(微軟在 2014 年以 25 億美元收購了《我的世界》的開發者)。在複雜的現實世界環境中,這種資料可能難以獲得,因為在這些環境中,玩弄壞決定的所有後果並非易事或安全。
以自動駕駛汽車為例。主要透過強化學習來訓練它們將需要數千甚至數百萬次的試驗,才能找出安全駕駛和魯莽駕駛之間的區別。但駕駛模擬無法包括可能導致現實世界中發生碰撞的所有可能條件。並且允許自動駕駛汽車透過在公共道路上反覆碰撞來學習將是極其危險的。霍夫曼說,除了安全問題外,強化學習可能非常昂貴,需要價值數百萬美元的計算能力。
與純粹的強化學習從頭開始的方法不同,模仿學習走了捷徑,透過從示例中學習來獲得先發優勢。它已經與強化學習一起找到了用武之地。過去幾年中最受讚譽的人工智慧演示,包括 AlphaGo 演算法在 2017 年擊敗人類圍棋大師,都結合了這兩種方法,首先使用模仿學習生成的基石模型。
模仿學習也有侷限性。其中之一是它偏向於學習示例中已經演示過的解決方案。因此,以這種方式訓練的人工智慧可能不夠靈活。“如果人工智慧系統犯了一個錯誤,或者在某種程度上偏離了人類的做法,那麼它最終會進入與演示中看到的情況不同的新環境,”沙阿說。“由於它沒有見過這種情況,它會變得更加困惑,並犯更多錯誤,這些錯誤會進一步複合,導致非常糟糕的失敗。”
儘管如此,許多研究人員仍然看到了這項技術的巨大潛力,尤其是在訓練人工智慧追求特定目標方面。“與強化學習相比,模仿學習的好處在於你可以獲得成功的演示,”微軟雷德蒙研究院自適應系統與互動組首席研究員德巴迪普塔·戴 (Debadeepta Dey) 說。“這確實有助於加快學習速度。”
為了獲得鑽石寶藏,MineRL 競賽中人工智慧控制的玩家或代理必須掌握一個多步驟的過程。首先,他們收集木材和鐵來製作鎬。然後他們建造火把來照亮道路。他們還可以攜帶一桶水來撲滅地下熔岩流。一旦所有這些都準備好,人工智慧就可以開始探索礦井和洞穴,以及挖掘地下通道來尋找鑽石礦石。
參賽者必須使用一套硬體來訓練他們的人工智慧,這套硬體最多包含六個中央處理核心和一個 NVIDIA 顯示卡——大多數研究實驗室可以透過雲計算服務負擔得起。超過 900 個團隊報名參加了競賽的第一輪,最終有 39 個團隊提交了人工智慧代理。在訓練人工智慧發現鑽石方面取得最大進展的十個小組已晉級第二輪也是最後一輪。其中一些人工智慧已經設法獲得了鐵礦石並建造了熔爐,這是製作鐵鎬的另外兩個先決條件。但格斯預計沒有任何團隊的代理會找到鑽石——至少在第一次競賽中不會。
儘管競賽的目標是特定的,但它可以促進更廣泛的《我的世界》人工智慧研究。“我對《我的世界》特別感興趣,因為它是一個人類實際上有多種目標的環境的例子——人類在《我的世界》中沒有‘一件事情’要做,”沙阿說。“這使其成為嘗試學習人類目標的技術的更合適的試驗平臺。”
即使遊戲的圖形和規則不能完美地反映物理現實,在《我的世界》中開發更有效的人工智慧訓練方法也可以轉化為在機器人技術等領域更快的人工智慧學習。德國達姆施塔特工業大學智慧自主系統實驗室研究小組負責人喬尼·帕賈裡寧 (Joni Pajarinen) 表示,MineRL“可能會產生對現實世界領域產生影響的結果,例如複雜物體的機器人組裝或任何其他需要學習複雜行為的領域”。
一旦競賽的最後一輪於 11 月 25 日結束,格斯和其他組織者將審查提交的作品,以確定哪個人工智慧被證明是最先進的鑽石獵手。最終結果將於 12 月 6 日在加拿大溫哥華舉行的 NeurIPS(神經資訊處理系統會議)之前公佈,所有十個決賽入圍團隊都應邀展示他們的結果。
如果 MineRL 競賽流行起來併成為一種經常性的傳統,它可能會為跟蹤模仿學習的進展提供公共基準。“MineRL 似乎很可能會鼓勵更多關於模仿學習的研究,”沙阿說。“模仿學習是否對現實世界的應用具有重要意義還有待觀察,但我對此持樂觀態度。”
本文經許可轉載,並於2019 年 11 月 26 日首次發表。
