“在我們研究人工智慧之前,為什麼不先對自然愚蠢做些什麼呢?” 計算機科學家史蒂夫·波利亞克曾開玩笑說。後者可能是一個很高的要求。但人工智慧,似乎剛剛為機器人邁出了一小步。
發表在 6 月 14 日《科學》雜誌上的新研究報告稱,科學家首次開發出一種機器學習系統,該系統可以從多個角度觀察特定場景,並預測從新的、前所未有的角度觀察時會是什麼樣子。隨著進一步的發展,這項技術可能會在工業和製造環境中催生更自主的機器人。
就像我們可以從客廳的一側掃描朋友的公寓,並對從另一側看起來的樣子有一個很好的概念一樣,這項新技術可以對三維計算機影像中的場景做到這一點。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。
由人工智慧公司 DeepMind(於 2014 年被谷歌收購)的研究人員設計的這個新系統可以“學習”空間的 3D 佈局,而無需任何人工監督。這種生成查詢網路(Generative Query Network),或 GQN——正如其開發者所稱,首先透過觀察包含不同光照和物體排列的簡單計算機生成場景進行訓練。然後,它可以接觸到新環境的多個影像,並準確預測從其中的任何角度看起來的樣子。與人腦的超連線感知區域不同,該系統分別學習和處理形狀、大小和顏色等屬性,然後將資料整合到空間的連貫“檢視”中。“人類和其他動物對物體的視覺世界有豐富的理解,包括物體、幾何形狀、光照等等,”新論文的主要作者、DeepMind 的研究科學家 Ali Eslami 說。“這項研究背後的動機是瞭解我們如何構建計算機系統,使其學會以類似的方式解釋視覺世界。”
近年來,機器學習作為一個領域取得了飛速發展。GQN 技術建立在許多過去的系統之上,包括許多基於受人腦啟發的神經網路的“深度學習”模型。深度學習是一種機器學習形式,其中計算機透過接觸影像或其他資料來“學習”,例如,檢測使物體成為貓或勺子的各種特徵。它在觀察到許多標記場景以識別這些物體的影像後才這樣做。GQN 利用深度學習來構建一種計算機化的“視覺”,使其能夠瀏覽複雜的場景。與其他許多系統相比,它的獨特之處在於它能夠完全透過觀察並在沒有人為監督的情況下自主學習。它分析未標記的物體以及物體在場景中所處的空間,然後將其學習成果應用於另一張影像。“這使 GQN 具有更高的靈活性,並使我們無需為世界上的每個物體建立大量的模型,”Eslami 說。換句話說,它可以根據先前接觸到的不同物體,使用形狀和顏色等特徵來識別新物體。
目前,新系統僅被設計用於處理計算機生成的場景,而不是控制機器人在現實世界中的動作。但 Eslami 和他的同事計劃繼續開發具有更復雜幾何形狀和情況的 GQN,希望有一天完全自主的機器人對場景的理解能夠適用於任何數量的工業應用。從理論上講,機器人可以在一項任務上接受培訓,然後在另一項任務上重新部署,而無需進行大量的重新程式設計。GQN 可以降低製造成本,提高生產速度,並簡化機器人組裝幾乎任何東西的過程。“這項工作既有趣又令人興奮,”麻省理工學院認知科學與計算教授 Joshua Tenenbaum 說,他還表示,這項技術在投入實際使用之前還有很長的路要走。“在我看來,這項研究離直接應用還很遠,”他指出。“從純粹的實用工程角度來看,它解決的問題目前可以透過其他方法更好地解決,而這些方法對純粹的基於學習的方法的依賴性較低。”
未參與該專案的 Tenenbaum 補充說:“從長遠來看,這項工作可能有助於推進機器人感知和控制的水平,從而產生比當今人工智慧技術更具適應性和自主性的系統。”
隨著人工智慧發展到機器承擔先前人類獨有的品質的程度,當然也存在反烏托邦式的擔憂:即我們將培養我們自己的滅亡,而滅亡將由更聰明、更強大的網路生物群體造成,無論它們採取何種形式。正如德國哲學家托馬斯·梅辛格多年來一直告誡的那樣,在機器中創造某些精神狀態可能會導致這些機器體驗痛苦和折磨。
Tenenbaum 並不擔心。“在實際可預見的未來,任何對開發比我們‘更聰明’的計算機的恐懼都是沒有根據的,”他說。“這裡介紹的系統比以前的逆向圖形系統有了顯著的進步,但它遠未達到即使是幼兒也擁有的感知能力。它還需要大量的訓練資料,而兒童不需要,這表明它的學習能力遠不如人類。”
計算機科學的奠基人艾倫·圖靈曾說過,只有當計算機能夠欺騙一個人相信它是人類時,才能稱其為智慧計算機。圖靈測試的任何真正成功都需要一臺表現出通用智慧的機器——一臺可以做微積分、繫鞋帶和做晚餐的機器,所有這些都是人類所做的事情——這一目標目前仍然只是未來主義者的幻想。
