一項新的研究表明,一種新的人工智慧系統可以獲取靜態影像並生成短影片,模擬接下來會發生什麼,類似於人類在視覺上想象場景如何演變的方式。
人類直觀地瞭解世界是如何運作的,這使得人們更容易(而不是機器)設想場景將如何發展。但靜態影像中的物體可以以多種不同的方式移動和互動,這使得機器很難完成這項壯舉,研究人員說。但是,一種新的、所謂的深度學習系統在與真實鏡頭進行比較時,能夠欺騙人類 20% 的時間。
麻省理工學院 (MIT) 的研究人員讓兩個神經網路相互對抗,一個試圖區分真實影片和機器生成的影片,另一個試圖建立足夠逼真的影片來欺騙第一個系統。[超級智慧機器:7 個機器人未來]
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的有影響力的故事的未來。
這種設定被稱為“生成對抗網路”(GAN),系統之間的競爭導致影片越來越逼真。當研究人員要求亞馬遜 Mechanical Turk 眾包平臺上的工作人員選擇哪些影片是真實的時,使用者有 20% 的時間選擇了機器生成的影片而不是真實的影片,研究人員說。
早期階段
儘管如此,新晉的電影導演可能還不需要太擔心機器會取代他們的工作——影片只有 1 到 1.5 秒長,解析度為 64 x 64 畫素。但研究人員表示,該方法最終可以幫助機器人和自動駕駛汽車在動態環境中導航並與人類互動,或者讓 Facebook 自動用描述正在發生的事情的標籤來標記影片。
“我們的演算法可以生成相當逼真的影片,展示它認為未來會是什麼樣子,這表明它在某種程度上理解當前正在發生的事情,”領導這項研究的麻省理工學院計算機科學和人工智慧實驗室博士生卡爾·馮德里克說。“我們的工作是一個令人鼓舞的進展,表明計算機科學家可以賦予機器更高階的情境理解能力。”
研究人員說,該系統還能夠進行無監督學習。這意味著該系統訓練過的 200 萬個影片(相當於大約一年的鏡頭)不必由人標記,這大大減少了開發時間並使其能夠適應新資料。
在將於 12 月 5 日至 10 日在西班牙巴塞羅那舉行的神經資訊處理系統 (NIPS) 會議上發表的一項研究中,研究人員解釋了他們如何使用海灘、火車站、醫院和高爾夫球場的影片來訓練該系統。
“在早期的原型中,我們發現的一個挑戰是模型會預測背景會扭曲變形,”馮德里克告訴 Live Science。為了克服這個問題,他們調整了設計,使系統學習靜態背景和移動前景的單獨模型,然後再將它們組合起來生成影片。
人工智慧電影製作人
麻省理工學院團隊並不是第一個嘗試使用人工智慧從頭開始生成影片的團隊。但是,研究人員表示,以前的方法傾向於逐幀構建影片,這會導致錯誤在每個階段累積。相反,新方法一次處理整個場景——通常一次處理 32 幀。
非營利組織 OpenAI 的研究科學家、GAN 的發明者伊恩·古德費洛表示,該領域早期工作的系統無法像這種方法那樣生成清晰的影像和運動。然而,他補充說,谷歌的 DeepMind 人工智慧研究部門上個月推出了一種新方法,稱為影片畫素網路 (VPN),能夠生成清晰的影像和運動。[有史以來最奇怪的 6 個機器人]
“與 GAN 相比,VPN 更容易訓練,但生成影片所需的時間更長,”他告訴 Live Science。“VPN 必須一次生成一個畫素的影片,而 GAN 可以同時生成許多畫素。”
馮德里克還指出,他們的方法適用於更具挑戰性的資料,例如從網路上抓取的影片,而 VPN 則在專門設計的、描繪彈跳數字或機器人手臂的基準訓練影片集上進行了演示。
然而,結果遠非完美。研究人員說,通常,前景中的物體看起來比它們應該的更大,而且人類在鏡頭中可能顯得模糊。物體也可能從場景中消失,而其他物體則可能憑空出現,他們補充說。
“計算機模型一開始對世界一無所知。它必須學習人是什麼樣子、物體如何移動以及可能發生什麼,”馮德里克說。“該模型尚未完全學習這些東西。擴充套件其理解物體等高層次概念的能力將大大改善生成效果。”
馮德里克表示,未來面臨的另一個巨大挑戰是建立更長的影片,因為這將要求系統跟蹤場景中物體之間更多、更長時間的關係。
“為了克服這個問題,最好加入人工輸入來幫助系統理解場景中它自己難以學習的元素,”他說。
版權所有 2016 SPACE.com,一家 Purch 公司。保留所有權利。未經許可,不得出版、廣播、改寫或重新分發此材料。
